DeepSeek引硅谷恐慌,中国工程院院士揭秘其优势
来源:赵辉 发布时间:2025-01-30
分享至微信

DeepSeek在AI领域的影响力巨大。中国工程院院士、清华大学计算机系教授郑纬民指出其成功的关键。
DeepSeek的两大模型DeepSeek-V3和DeepSeek-R1,技术能力与OpenAI的4o和o1模型相当,但成本仅为十分之一。
更重要的是,DeepSeek开源了这两大模型的技术,促进了AI原生应用的开发。
DeepSeek通过自研的MLA和MOE架构,降低了模型训练成本。MLA架构优化了注意力算子,配合DeepSeek-V3模型中FFN层的改造,实现了稀疏MoE层,这是训练成本低的关键。
同时,DeepSeek还解决了大且稀疏的MoE模型使用的性能难题。
图灵奖得主杨立昆认为,DeepSeek的成功显示了开源模型的价值,而非中国对美国的威胁。他强调,“开源模型正超越专有模型”。
[ 新闻来源:赵辉,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

赵辉
开创IC领域,共创美好未来!
查看更多
相关文章
中国工程院院士陈清泉谈新能源与人工智能
2025-01-02
DeepSeek震撼硅谷,Meta紧急应对
2025-01-30
中国DeepSeek模型引热议,CSP支持AI创新
2025-02-05
DeepSeek弯道超车,硅谷巨头受震撼
2025-01-30
热门搜索
英特尔拆分RealSense
CES 2025
华为
台积电
中芯国际
联发科
高通
英特尔
芯片