数据中心AI GPU寿命仅1-3年,高负载导致快速退化
来源:ictimes 发布时间:2024-10-30 分享至微信
据外媒报道,科技大厂购买的数据中心GPU寿命可能仅为1至3年,具体寿命取决于其利用率。Alphabet的高级专家表示,由于GPU承担了AI训练和推理的重任,一直处于高负载状态,导致其比其他部件更快退化。
在云服务提供商(CSP)运营的数据中心中,AI工作的GPU利用率通常在60%至70%之间。Alphabet的生成式AI架构师指出,以这种利用率计算,GPU通常可以存活1至2年,最多3年。然而,这一说法尚未得到进一步确认,仍需时间验证。现代AI和HPC应用的数据中心GPU能耗通常达到700W或以上,长时间工作对芯片构成巨大压力。
延长GPU寿命的方法之一是降低其利用率,但这会导致折旧速度减慢,延长成本回收时间,对业务不利。因此,大多数云服务提供商更倾向于高利用率使用GPU。
2024年初,Meta发布的研究报告指出,Llama 3 405B模型是在由16,384个英伟达H100 80GB GPU驱动的集群上训练的。该集群模型的浮点运算利用率(MFU)约为38%,但在54天训练期间,发生了419次不可预知的故障,其中约30.1%由GPU故障引起,17.2%由HBM3内存故障引起。这些数据表明,英伟达H100 GPU的年化故障率约为9%,3年内的年化故障率约为27%。然而,这些GPU在频繁使用一年后,可能出现故障的频率可能会增加。
[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!
ictimes
聚焦于半导体行业芯闻
查看更多
相关文章
印度数据中心市场快速增长,预计2025年达80亿美元
2024-10-30
AI数据中心热潮致运算资源过剩
2024-10-15
AI与数据中心增长促能源转型
2024-10-31
欧洲加速主权AI建设,数据中心需求激增
2024-10-04
热门搜索