AI服务器大行其道 供应链谁能沾边?
来源:DIGITIMES 发布时间:2023-06-26 分享至微信

存在许久的AI与相关的AI服务器,虽然再度跃上舞台,但背后究竟隐藏怎样的秘密,与先前备受关注、甚至被视为市场逆境中唯一成长的服务器产品之间,又有怎样的差异,是在了解AI服务器产业之前,需要先厘清的部分。

服务器冠名AI 定义众说纷纭

与传统服务器以中央处理器(CPU)为主要算力提供者的形式不同,AI服务器一般是指采用异质架构形式的服务器,一般常见可以为CPU+图形处理器(GPU)、CPU+现场可程序闸阵列(FPGA)、CPU+张量处理单元(TPU)、CPU+特定应用IC(ASIC)及CPU+不同类型加速卡等多种形式。由于目前常见AI服务器主要是透过CPU搭配GPU,因此让以GPU起家的NVIDIA一举跃上枝头。

毕竟,目前AI服务器的算力主要落在GPU上,而一台AI服务器上搭载多少GPU,就成了评价AI服务器最直接的标准。能搭载愈多的GPU,代表算力愈强,自然价格也就愈高。

不过,对于AI服务器的定义,是泛指所有搭配GPU卡、加速卡的服务器产品,都可统称为AI服务器;还是必须采用特殊界面及架构的服务器才能算是AI服务器,市场上还存有不同说法。所以,AI服务器供应链或AI服务器供应商,也难免出现参水的成分。

一台AI服务器上搭载多少GPU,成为评价AI服务器最直接的标准。李建梁摄(数据照)

一台AI服务器上搭载多少GPU,成为评价AI服务器最直接的标准。李建梁摄(数据照)

技术不新 但商机无止境

当然,不论是异质架构运算或AI服务器,其实都不是最近才出现的技术、产品,之所以会受到广大关注,主要还是对AI的需求持续提升,从在线游戏到自驾车系统,处处都存在着AI的影子。NVIDIACEO黄仁勳亦表示,AI模型规模预估每年将增10倍,这些模型需要大量服务器效能,预期可拉动硬件需求成长。

根据产业研究机构调查,预估2023年包含搭载GPU、FPGA、ASIC等不同类型的AI服务器,总出货数量将上看120万台,虽然目前AI服务器占整体服务器出货比重还不到10%,但2026年该数字有望达15%。同时,市场也预期相较于云端市场2023~2030年有17%的年均复合成长率(CAGR),AI从2023~2030年的CAGR高达37%。

工业富联董事暨技术长周泰裕曾表示,随着GPT的发展,未来十年内全球数据中心会不断推陈出新,预计有超过60%的云端服务都与AI应用相关。如此庞大的市场成长潜力,也让各家业者觊觎,想从中获得一块属于自己的商机。
 

AI模型规模预估每年增10倍,需要大量服务器效能。符世旻摄(数据照)

AI模型规模预估每年增10倍,需要大量服务器效能。符世旻摄(数据照)

从上到下游 拆解供应链 

如果以目前CPU搭NVIDIA的GPU的主流情况下,上游芯片业者测试完NVIDIA的GPU芯片之后,芯片会往加速卡与GPU模块两个不同的供应链发展,而GPU模块又会进一步成为GPU基板(或称AI模块);至此,又会再次分成NVIDIA自有产品与服务器业者定制化产品两部分,最终导入机柜而后进入数据中心运作。

加速卡的部分,主要采PCIe界面,由于PCIe已经是成熟界面,对一般业者而言,不仅导入成本低、弹性高,与既有的板卡、机架也比较容易整合,甚至可以透过额外增加PCIe板的方式,增加搭载加速卡的数量,透过高速传输界面与主板进行连接,所以对一般服务器业者而言,不仅是最容易切入的形式,也是目前多数业者都有的AI服务器基本架构。

至于往GPU模块的部分,则是先由工业富联协助制作GPU模块,再由工业富联与纬创协助生产GPU基板。先前黄仁勳在COMPUTEX主题演讲中播放的H100自动化生产影片,就是在工业富联全资子公司鸿佰的产线拍摄,生产的就是GPU基板。

而产出的GPU基板一方面会透过特定代工体系,协助NVIDIA生产自有品牌的AI服务器产品(也就是一般市场上DGX系列);大部分则会交由像是广达、英业达、美超微、泰安、华硕、和硕、技嘉、浪潮等不同体系的服务器代工业者,各自协助像是惠普(HP)、戴尔(Dell)等品牌业者,或Google、微软、AWS及其他自家不同的客户,生产依据各自需求而定的AI服务器(市场上所谓的HGX系列),而在COMPUTEX 2023展会期间,相关业者在摊位上展出的AI服务器,多半则属于这类产品。

AI服务器供应链

算力飙涨 电源、散热不缺席

除了终端的系统组装业者外,原本服务器相关供应链业者在这波AI服务器风潮中,也有可能直接、间接受到不同影响,最显着的是在电源与散热领域。AI服务器由于搭载大量的GPU进行运算,因此对电力的需求也大幅提升。据了解,2017年时,第1代HGX产品电力需求就达4.4kW,随着产品持续演进,对电力供应的要求也愈来愈严格。

不仅是电源瓦数的要求愈来愈高,对用电效能与安全性等要求也大幅提升。对此,台达电董事长海英俊曾表示,AI服务器较传统服务器的电源需求增加,台达电针对相关技术都已经做好准备,不会在AI服务器领域缺席。其他像是光宝科、群电、康舒等相关业者,也都表示做好准备。

伴随着高耗能而来的,是对散热的需求也大幅提升,供应链业者表示,只要有电就会有热,凡是有热,就会需要散热。特别是针对具有高运算力的AI服务器而言,不仅对电源的要求更严苛,就连散热方面的设计也趋于复杂。

除了在传统气冷解决方案上,增加风扇数量外,导入水冷也成为近期散热设计上的新趋势。像是鸿佰、双鸿、奇鋐、建准、动力、Cooler Master等业者,也都针对今后绘图卡及AI服务器可能产生的额外散热需求提出解决方案。

虽然目前看来,AI服务器的光环全都聚集在NVIDIA一家业者身上,不过,随着AI相关应用与对大型语言模型(LLM)的需求愈来愈多,亦会有更多业者投入AI服务器领域。像是目前英特尔(Intel)、超微(AMD)甚至ARM等业者,也都分别调整往AI领域发展的策略方向。

供应链业者认为,NVIDIA目前的优势在于对GPU领域的长期投入,以及透过CUDA建构出的庞大完整AI生态系统,但是价格的硬伤,是NVIDIA必须面对的挑战。

[ 新闻来源:DIGITIMES,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!