服务器训练端对计算能力要求高,主要使用GPU服务器。服务器进行云识别则主要使用基于FPGA的AI芯片。终端智能设备目前主要采用基于FPGA的智能芯片。基于ASIC的AI芯片未来将在服务器端和智能终端规模应用。
如今的人工智能热潮,主要缘于深度学习的发展,而算力、算法、数据是深度学习的三个关键要素。其中算力作为基础设施,直接影响神经网络的训练和识别速度,对AI产业发展速度有着不小的影响。通过对AI计算领域情况的信息梳理与分析,及与浪潮集团(中国最大的服务器制造商和服务器解决方案提供商)人工智能与高性能计算总经理刘军的交流,亿欧智库对AI计算力的发展情况做了简单盘点,认为AI计算力体系已经形成,用于训练和识别(或称推理)的计算方案趋于成熟,未来或将加速AI在各领域的发展和落地。
用于训练时,AI对计算力的峰值要求高,主要采用GPU服务器,巨头们已经在部署服务器集群,并搭建AI云平台。用于识别时,对峰值性能要求不如用于训练高,但对能效比要求更高,主要采用专用AI芯片,服务器端和智能终端目前已经开始采用基于FPGA(现场可编程门阵列)的半定制AI芯片,未来可能更多的采用ASIC(为专门目的而设计的集成电路)级芯片。
用于训练 - GPU为基础,向集群化AI云发展
对神经网络进行训练时,有的小公司对计算能力要求不高,或受限于资金有限,采用PC加装高端显卡的方式。而对计算能力要求高,资金充裕的大公司,则普遍采用能集成多块GPU板卡的GPU服务器。随着计算规模增长,对GPU服务器的需求也从单机柜向大规模服务器集群发展。
浪潮AI和高性能计算部门,设计开发了多款针对AI应用的GPU服务器,目前可提供包括内含2、4、8、16片GPU加速卡的服务器,以及和百度联合研发的,单机可支持16块、最大可扩展64块GPU的RS-AI整机柜服务器。在GPU服务器基础上,面向深度学习计算集群,浪潮提供包含深度学习集群管理系统等功能的人工智能云解决方案,可以支持多种深度学习框架,对计算集群的计算资源进行统一调度管理,如下图。
据与刘军的交流,浪潮占据了目前BAT们GPU服务器市场的80%,GPU服务器收入已经占到了浪潮整个高性能服务器收入的很大一部分比重,且保持持续增长。浪潮GPU服务器的客户中,BAT、科大讯飞等大公司们贡献了收入的绝对大头,反观融资消息不断的各种明星AI创业公司,贡献占比还有很大的发展空间。
浪潮服务器的销售情况,反应了目前大公司们对GPU集群的布局在加大,BAT等大公司们在AI领域的竞争,已经通过部署AI云计算平台,上升到构建各自的AI生态系统层面:百度发布了AI智能云,包含了GPU服务器及相关数据服务;腾讯云也发布了集开发、训练、预测和部署于一体的一站式深度学习平台DI-X。大公司都在通过计算力的绝对优势,吸引小公司们加入自己的AI生态系统中来。
各种AI云计算平台的构建,降低了AI应用开发者门槛,能够加速企业人工智能产品的研发落地,但也会很大程度上使得企业受制于平台。是与平台进行融合,还是与之抗衡,AI企业需要根据自身情况进行思考。
用于识别 - 专用芯片开始应用
专用芯片潜在市场巨大
训练好的AI程序用于识别,主要通过云端服务和终端本地计算两种方式来进行。具备网络环境、对实时性要求不高的识别场景,主要使用云服务;实时性要求高或不具备网络环境的识别场景,主要使用嵌入式芯片本地计算。云端识别时服务器计算量不大但可能面对高并发请求,使用GPU做识别功耗过高,因此更倾向于使用能效比更高的AI芯片。各种智能硬件、智能机器人、无人设备等智能设备,如下图,都有嵌入AI芯片的可能,潜在市场需求量可能数十倍于智能手机芯片。
巨头与创业公司推出多种方案
面对巨大的潜在市场,国内外各巨头和创业公司,都在加紧布局AI芯片。
Google为其深度学习神经网络打造基于ASIC 的专用TPU ,并用于AlphaGo 的系统中。
NVIDIA的GPU已经广泛用在很多AI公司的训练中,NVIDIA也在持续推出用于AI计算的Tesla P100、DGX-1等计算设备。
AI领域落后一截的AMD将在下一代Navi显卡上集成AI专用内核,强化深度学习的性能。
错失了移动互联网市场的Intel,167亿美元巨资收购FPGA厂商Altera,研发基于FPGA的人工智能芯片,又花费4亿元收购AI芯片创业公司Nervana,在至强处理器中整合Nervana 芯片和软件。Intel收购的Movidious,也推出了用于深度学习的USB计算棒。
IBM 从2008 年开始研究能模拟人类大脑的芯片项目,2014 年就推出首个类脑芯片TrueNorth。
百度联合硬件厂商推出DuerOS智慧芯片,腾讯和阿里也推出了FPGA云解决方案。
国内中小公司也在抢滩AI芯片市场。中科院系的AI芯片公司寒武纪刚刚获得了高达1亿美元的投资,阿里参投;深鉴科技、Kneron推出了各自的AI芯片;中星微发布了“星光一号”NPU;地平线机器人推出了“安徒生”和“雨果”系统;西井科技在研发类脑芯片;比特币矿机厂商比特大陆也将在年内推出他们的AI芯片;嘉楠耘智A轮融资3亿,也将在今年发布ASIC AI芯片。
由于架构和技术路线不同,业界对于AI芯片的认定标准也不完全相同。从技术角度,大概分为DSP(数字信号处理芯片)、基于FPGA半定制、针对深度学习全定制ASIC芯片、类脑芯片等。DSP可编程能力弱,FPGA价格高,绝对计算能力比GPU低,类脑芯片的体系是革命性的,但离广泛商用还有很长的距离。
AI芯片初步投入应用,未来还有很多产品上市
目前在云识别端,混合使用GPU和FPGA已经成为主流。各大互联网巨头,如Google、腾讯AI云平台(上图)等,服务器端都采用了GPU+FPGA的方式。微软的FPGA服务器已经用在Bing引擎。在此基础上,未来深度学习线下训练与线上识别将实现融合,线上数据直接到线下训练,训练完的模型更新线上当前模型,线上与线下将实现统一的深度学习平台。
终端嵌入方面,FPGA目前是主流。深鉴科技的DPU已经在无人机上应用,Kneron的AI芯片则在智能摄像头上应用。虽然潜在市场庞大,但大量下游硬件厂商没有算法研发能力,AI芯片厂商需要针对目标功能,把训练好的算法同芯片一起提供给硬件厂商,对AI芯片厂商提出了更高的要求。
相对FPGA能效比更高的ASIC目前还在发展中。Google的TPU虽然已经量产应用,但暂不对外销售。寒武纪Cambricon-1A在16年开始IP授权,据称订单已经有1亿元。华为即将发布的M10手机据称就将搭载寒武纪IP的AI芯片。之前有业内人士预计寒武纪的商用芯片最快1年后能够流片,最近寒武纪刚刚获得了1亿美元融资后,这个进程或许会加快。其它国内厂商也可能在未来一两年发布AISC级的AI芯片。
不论是用于训练还是用于识别,AI计算力体系和发展路线已经清晰,并且初步落地,未来无疑将继续完善,为上层的各类AI应用发展奠定基础。
暂无评论哦,快来评论一下吧!