AI训练数据告急，马斯克暗示“合成数据”为发展重点-icspec

AI训练数据告急，马斯克暗示“合成数据”为发展重点

来源:李智衍发布时间:2 天前

分享至微信

在CES展会上，马斯克在接受采访时抛出了一枚震撼弹：现实世界能用来训练AI模型的资料，已经接近枯竭。

马斯克直言不讳地指出，AI训练已经将人类累计的知识几乎全数耗尽，而这一转折点恰好发生在去年（2024年）。他的这一观点并非空穴来风，而是得到了OpenAI前科学长Ilya Sutskever在NeurIPS机器学习会议上的有力佐证。Sutskever同样认为，AI产业能够消耗的数据已经达到了历史性的顶峰。

面对这一前所未有的困境，马斯克展现出了前瞻性的视野，他暗示合成数据（synthetic data）将成为破解难题的关键。他强调，补充现实世界数据的唯一可行途径就是合成数据，即由AI自行生成用于训练的数据。通过这一方式，AI将能够为自己打分，并展开自我学习的过程，从而在一定程度上摆脱对现实世界数据的依赖。

事实上，这一趋势已经悄然兴起。众多科技巨头如微软、Meta、OpenAI及Anthropic等，已经开始在其AI模型训练中广泛应用合成数据。据科技市场研究机构Gartner估计，2024年AI及分析项目使用的数据中，约60%已经是合成数据。

以微软为例，其在1月8日开源的AI模型“Phi-4”就是通过合成数据结合现实世界数据进行训练的。谷歌的“Gemma”模型也采用了类似的方法，进一步证明了合成数据在提升AI模型性能方面的潜力。此外，Anthropic使用部分合成数据开发了表现卓越的系统“Claude 3.5 Sonnet”，而Meta则运用AI生成数据来微调其最新推出的Llama系列模型，这些案例都充分展示了合成数据在AI领域的广泛应用和显著成效。

icspec【芯片求购】https://www.icspec.com/inquiry/index/1/0

[ 新闻来源：李智衍，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]