数据中心AI GPU寿命仅1-3年,高负载导致快速退化
来源:ictimes 发布时间:2024-10-30 分享至微信

据外媒报道,科技大厂购买的数据中心GPU寿命可能仅为1至3年,具体寿命取决于其利用率。Alphabet的高级专家表示,由于GPU承担了AI训练和推理的重任,一直处于高负载状态,导致其比其他部件更快退化。


在云服务提供商(CSP)运营的数据中心中,AI工作的GPU利用率通常在60%至70%之间。Alphabet的生成式AI架构师指出,以这种利用率计算,GPU通常可以存活1至2年,最多3年。然而,这一说法尚未得到进一步确认,仍需时间验证。现代AI和HPC应用的数据中心GPU能耗通常达到700W或以上,长时间工作对芯片构成巨大压力。


延长GPU寿命的方法之一是降低其利用率,但这会导致折旧速度减慢,延长成本回收时间,对业务不利。因此,大多数云服务提供商更倾向于高利用率使用GPU。


2024年初,Meta发布的研究报告指出,Llama 3 405B模型是在由16,384个英伟达H100 80GB GPU驱动的集群上训练的。该集群模型的浮点运算利用率(MFU)约为38%,但在54天训练期间,发生了419次不可预知的故障,其中约30.1%由GPU故障引起,17.2%由HBM3内存故障引起。这些数据表明,英伟达H100 GPU的年化故障率约为9%,3年内的年化故障率约为27%。然而,这些GPU在频繁使用一年后,可能出现故障的频率可能会增加。


[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!