AI训练数据面临耗尽危机,开发人员需探索新路径
来源:李智衍 发布时间:5 天前 分享至微信

近年来,AI因神经网络规模扩大和海量数据训练而迅猛发展,ChatGPT等大型语言模型(LLM)便是明证。然而,《自然》等杂志指出,AI扩展正逼近极限。


据研究机构预测,到2028年,AI训练数据集或达公共在线文本总量,即4年内将耗尽训练数据。同时,数据所有者收紧访问权限,加剧了数据共享危机。


开发人员需探索变通之道,如收集非公开数据、使用自有数据、专注专业数据集及“制造”数据等,但这些方法尚待验证。斯坦福大学研究表明,模型多次读取给定数据集与从唯一数据中学习效果相当。


因此,合成数据、专门数据集、多次读取及自我反思等因素结合,或将成为推动AI进一步飞跃的关键。


[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!