心缘芯东西6月28日报道,年的突发事件拨乱了太多产业的阵脚,AI芯片产业也似乎热度渐熄。一家英国AI芯片创企却在这一时期,稳稳地切入国内科技巨头阿里和百度的生态圈。就在今年5月,成立刚满四年的英国初创公司Graphcore分别公布和阿里巴巴、百度合作的新动向。阿里宣布Graphcore支持ODLA的接口标准,百度宣布Graphcore成为飞桨硬件生态圈的创始成员之一。同月,在英国IntelligenceHealth峰会上,微软机器学习科学家分享用Graphcore的IPU芯片训练微软COVID-19影像分析算法CXR,能够在30分钟之内完成在NVIDIAGPU上需要5个小时的训练工作量。▲W功耗情况下,IPU(左)以img/s的平均速率进行训练,NVIDIAV平均速率约为img/s,速度相差10倍以上也是在这个月,英伟达(NVIDIA)为AI和数据科学打造的最强GPUA横空出世,给布局云端AI芯片市场的其他公司带来新的压力。不过Graphcore显得相对淡定。Graphcore高级副总裁兼中国区总经理卢涛相信,即便是Graphcore第一代IPU产品也不会输于A,今年他们还将发布下一代7nm处理器。Graphcore的自信并非空穴来风,凭借创新芯片架构IPU,这家成立刚满四年的英国初创公司,不仅有DeepMind联合创始人DemisHassabis、剑桥大学教授兼Uber首席科学家ZoubinGhahramani、加州大学伯克利教授PieterAbbeel、OpenAI多位联合创始人等多位AI大牛为其背书,还吸引到微软、博世、戴尔、三星、宝马等巨头注资。这样一个在AI芯片界猛刷存在感的明星创企,背后有着怎样的底气?近日,Graphcore高级副总裁兼中国区总经理卢涛、Graphcore销售总监朱江第一次在中国详尽地介绍了Graphcore的核心芯片架构及产品、配套软件工具链,并分享了其芯片在五类垂直场景的应用实例及性能表现。01英国小镇里诞生的AI芯片独角兽年1月,雪后的英国小镇巴斯,NigelToon与SimonKnowles正在讨论一个改变AI芯片架构的创新设想。▲GraphcoreCEONigelToon和CTOSimonKnowles经过四年模拟了数百种芯片布局的计算机测试方法,两人于年6月在英国布里斯托成立AI芯片公司Graphcore,此后继续处于神秘的研发状态。知名资本伸出的橄榄枝,使得这家创企始终处于聚光灯下,宝马、博世、戴尔、微软、三星等巨头纷纷参与投资,至今Graphcore累计融资超过4.5亿美元,整体估值约为19.5亿美元。不仅如此,数位AI大牛对其IPU芯片架构赞誉有加。英国半导体之父、Arm联合创始人Hermann爵士曾评价说:“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”AI教父GeoffHinton教授也说过:“我们需要不同类型的计算机来处理一些新的机器学习的系统。”他指出IPU就是这样一个系统。到年11月,Graphcore潜心打造的IPU产品官宣量产,随后与微软、百度、Qwant、Citadel、帝国理工学院、牛津大学等多个合作伙伴、云计算厂商、研究实验室以及高校等展开了相关合作。如今,Graphcore所做的产品包括了硬件、软件和IPU的系统解决方案。IPU是Graphcore专为机器智能设计的创新处理器架构,宣称在现有及下一代模型上,性能远超NVIDIAVGPU。例如它能将自然语言处理(NLP)处理速度可提升20%-50%,为图像分类带来6倍的吞吐量而且是更低的时延,在一些金融模型方面训练速度能够提高26倍以上。目前IPU已实现量产,通过访问微软Azure等云计算平台,或者购买戴尔服务器等产品,均可获取IPU资源。在国内,Graphcore也正在与金山云合作,拟上线一个针对中国开发者和创新者的云业务。除了芯片产品走向落地,在过去6-12个月,Graphcore在全球版图快速铺开,迄今有全球员工人,分布在北京、上海、深圳、台北、布里斯托、伦敦、剑桥、挪威、奥斯陆、西雅图、帕拉奥图、纽约、奥斯汀、东京、首尔等地。02以计算图为表征的创新AI芯片架构Graphcore的自研芯片架构诞生的背景,源于过去几年AI算法模型规模呈指数级增长,需要更适宜的全新处理器架构。相较传统科学计算或高性能计算(HPC),AI或者说机器智能有一些特性,包括大规模并行就散、稀疏数据结构、低精度计算,以及在训练推理过程中的数据参数复用、静态图结构。GraphcoreIPU即是针对计算图的处理设计而成,相比传统智能处理器,IPU有三个核心区别:采用MIMD架构、所有模型在片内处理、可解决大规模并行计算处理器核之间的通信效率。具体而言,IPU采用大规模并行MIMD的处理核,抛弃了外部DDR,在片内做到MB的大规模分布式片上SRAM,以打破内存带宽对整体性能构成的瓶颈。相较CPU的DDR2子系统或是GPU的GDDR、HBM来说,IPU这一设计可将性能提升10-倍。与访问外存相比较,时延基本为1%,可忽略不计。当前已量产的IPU处理器为GC2,拥有亿个晶体管,在瓦功耗下,混合精度算力可达TFLOPS。GC2采用台积电16nm工艺,片内包含个独立的IPU处理器核心(Tile),整个GC2包含个线程,支持个程序并行运行。其内存带宽为45TB/s、片上交换是8TB/s,片间IPU-Links为2.5Tbps。为了解决并行硬件的高效编程问题,IPU通过硬件支持BSP协议,并通过BSP协议把整个计算逻辑分成了计算、同步、交换。这对软件工程师和开发者来说非常易于编程,因为不必处理locks这个概念,也不必管任务具体在哪个核上运行。目前IPU是世界上目前第一款BSP处理器,BSP技术在谷歌、Facebook、百度之类的大规模数据中心均有使用。卢涛介绍说,IPU重点面向云端训练以及对精度和延时要求高的推理场景,还有一些训练和推理混合的场景。在精度方面,IPU当前不支持整数int8,主要支持FP16、FP32以及混合精度。当前应用较大的主流计算机视觉类模型以int8为主,而自然语言处理推理以FP16、FP32为主流数据格式,IPU使用FP16精度在ResNeXt、EfficientNet等新兴视觉模型中性能功耗比同样具有优势。未来,Graphcore的推进策略还是训练和推理并行,但会更聚焦于一些对精度和时延要求更低、对吞吐量要求更高的场景。另外,他们也看到在推荐算法等应用出现一些希望同时实现训练和推理的需求。03软件支持容器化部署,上线开发者社区硬件芯片架构是基础,而软件则是提升用户体验的关键利器。对于AI芯片来说,芯片研发出来只是第一部分,要能落地到产业中,还需展现出色的可移植性、可开发性、可部署性,能提供完善的工具链和丰富的软件库,可实现与主流机器学习框架无缝衔接,而整个链条全部打通需要非常大的投入。今年5月26日,全球知名科技分析机构MoorInsightsStrategy曾发表了一篇研究论文《Graphcore的软件栈:BuildToScale》,其中写道:“Graphcore是我们目前已知的唯一一家将产品扩展到囊括如此庞大的部署软件和基础架构套件的初创公司。”卢涛认为,对于AI芯片来说,真正商业化的衡量标准在于三点:是否有平台化软件的支持、是否有大规模商用部署软件的支持、是否能实现产品化的部署。对此,Graphcore的PoplarSDK提供了完整的软件堆栈来执行其计算图工具链,有四个主要特性:(1)开放且可扩展的Poplar库:目前已提供个高性能计算元素的50多种优化功能,修改和编写自定义库。(2)直接部署:支持容器化部署,可快速启动并且运行。标准生态方面,可支持Docker、Kubernetes,还有像微软的Hyper-v等虚拟化的技术和安全技术。(3)机器学习框架支持:支持TensorFlow1、TensorFlow2、ONNX和PyTorch等标准机器学习框架,很快也将支持百度飞桨。(4)标准生态支持:通过微软Azure部署、Kubernetes编排、Docker容器以及Hyper-V虚拟化和安全性,已生产就绪。目前PoplarSDK支持最主要的三个Linux操作系统发行版本:ubuntu、RedHatEnterpriseLinux、CentOS。ubuntu是迄今在AWS上最流行的一个操作系统,RedHatEnterpriseLinux对一些企业级用户做私有云非常重要,而CentOS在中国互联网公司中应用广泛。今年5月,Graphcore推出分析工具PopVisionGraphAnalyser,并上线Poplar开发者文档和社区。使用IPU编程时,可借助PopVision可视化图形展示工具来分析软件运行的情况、效率调试调优等。Poplar开发者文档和社区中提供了大量的Poplaruserguide和文档。开发者可通过