DeepSeek联合清华大学推出AI模型训练新技术,将开源发布
来源:李智衍 发布时间:2025-04-08 分享至微信
据南华早报和彭博(Bloomberg)报道,深度求索(DeepSeek)与清华大学研究人员合作,开发出一种新的强化学习技术。该技术能够降低AI模型的训练成本,同时提升其性能。

研究人员发布了一篇论文,详细探讨了如何通过延长推理时间来改善大型语言模型(LLM)的回答准确度。在减少运算资源消耗的同时,这一技术能够提供更加贴近人类需求的答案。目前,大多数主流AI模型采用强化学习方法,通过模型与环境的交互以及奖励机制来完成学习。

在此次研究中,DeepSeek和清华大学设计出一种名为DeepSeek-GRM(生成式奖励模型;Generative Reward Modeling)的技术。该技术基于点状生成式奖励模型(pointwise generative reward modeling),能够以统一的方式评估模型的回应。此外,研究人员还提出了一种名为SPCT(Self-Principled Critique Tuning)的训练方法,使DeepSeek-GRM能够针对特定查询和回应自动提出相应原则,并依据这些原则进行评估。

研究结果显示,DeepSeek-GRM在多项基准测试中表现出色,相较于传统奖励模型,其偏差更小。DeepSeek表示,DeepSeek-GRM模型将进行开源发布。

值得一提的是,DeepSeek此前推出的基础模型V3和推理模型R1曾引发科技界的广泛关注。据路透(Reuters)援引知情人士的消息,下一代推理模型R2可能会比原定的5月更早发布,其程序设计能力将大幅提升。

[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!