AI训练数据告急,马斯克暗示“合成数据”为发展重点
来源:李智衍 发布时间:2 天前 分享至微信

在CES展会上,马斯克在接受采访时抛出了一枚震撼弹:现实世界能用来训练AI模型的资料,已经接近枯竭。


马斯克直言不讳地指出,AI训练已经将人类累计的知识几乎全数耗尽,而这一转折点恰好发生在去年(2024年)。他的这一观点并非空穴来风,而是得到了OpenAI前科学长Ilya Sutskever在NeurIPS机器学习会议上的有力佐证。Sutskever同样认为,AI产业能够消耗的数据已经达到了历史性的顶峰。


面对这一前所未有的困境,马斯克展现出了前瞻性的视野,他暗示合成数据(synthetic data)将成为破解难题的关键。他强调,补充现实世界数据的唯一可行途径就是合成数据,即由AI自行生成用于训练的数据。通过这一方式,AI将能够为自己打分,并展开自我学习的过程,从而在一定程度上摆脱对现实世界数据的依赖。


事实上,这一趋势已经悄然兴起。众多科技巨头如微软、Meta、OpenAI及Anthropic等,已经开始在其AI模型训练中广泛应用合成数据。据科技市场研究机构Gartner估计,2024年AI及分析项目使用的数据中,约60%已经是合成数据。


以微软为例,其在1月8日开源的AI模型“Phi-4”就是通过合成数据结合现实世界数据进行训练的。谷歌的“Gemma”模型也采用了类似的方法,进一步证明了合成数据在提升AI模型性能方面的潜力。此外,Anthropic使用部分合成数据开发了表现卓越的系统“Claude 3.5 Sonnet”,而Meta则运用AI生成数据来微调其最新推出的Llama系列模型,这些案例都充分展示了合成数据在AI领域的广泛应用和显著成效。


[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!