DeepSeek引硅谷恐慌,中国工程院院士揭秘其优势
来源:赵辉 发布时间:2025-01-30 分享至微信

DeepSeek在AI领域的影响力巨大。中国工程院院士、清华大学计算机系教授郑纬民指出其成功的关键。


DeepSeek的两大模型DeepSeek-V3和DeepSeek-R1,技术能力与OpenAI的4o和o1模型相当,但成本仅为十分之一。


更重要的是,DeepSeek开源了这两大模型的技术,促进了AI原生应用的开发。


DeepSeek通过自研的MLA和MOE架构,降低了模型训练成本。MLA架构优化了注意力算子,配合DeepSeek-V3模型中FFN层的改造,实现了稀疏MoE层,这是训练成本低的关键。


同时,DeepSeek还解决了大且稀疏的MoE模型使用的性能难题。


图灵奖得主杨立昆认为,DeepSeek的成功显示了开源模型的价值,而非中国对美国的威胁。他强调,“开源模型正超越专有模型”。


[ 新闻来源:赵辉,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!