DeepSeek联合清华大学推出AI模型训练新技术，将开源发布-icspec

DeepSeek联合清华大学推出AI模型训练新技术，将开源发布

来源:李智衍发布时间:2025-04-08

分享至微信

据南华早报和彭博（Bloomberg）报道，深度求索（DeepSeek）与清华大学研究人员合作，开发出一种新的强化学习技术。该技术能够降低AI模型的训练成本，同时提升其性能。

研究人员发布了一篇论文，详细探讨了如何通过延长推理时间来改善大型语言模型（LLM）的回答准确度。在减少运算资源消耗的同时，这一技术能够提供更加贴近人类需求的答案。目前，大多数主流AI模型采用强化学习方法，通过模型与环境的交互以及奖励机制来完成学习。

在此次研究中，DeepSeek和清华大学设计出一种名为DeepSeek-GRM（生成式奖励模型；Generative Reward Modeling）的技术。该技术基于点状生成式奖励模型（pointwise generative reward modeling），能够以统一的方式评估模型的回应。此外，研究人员还提出了一种名为SPCT（Self-Principled Critique Tuning）的训练方法，使DeepSeek-GRM能够针对特定查询和回应自动提出相应原则，并依据这些原则进行评估。

研究结果显示，DeepSeek-GRM在多项基准测试中表现出色，相较于传统奖励模型，其偏差更小。DeepSeek表示，DeepSeek-GRM模型将进行开源发布。

值得一提的是，DeepSeek此前推出的基础模型V3和推理模型R1曾引发科技界的广泛关注。据路透（Reuters）援引知情人士的消息，下一代推理模型R2可能会比原定的5月更早发布，其程序设计能力将大幅提升。

icspec【芯片求购】https://www.icspec.com/inquiry/index/1/0

[ 新闻来源：李智衍，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]