阿里云发布AI推理模型QwQ,推理能力媲美OpenAI o1
来源:ictimes 发布时间:2024-12-01 分享至微信

阿里云通义团队宣布推出并开源了全新的AI推理模型QwQ-32B-Preview,其科学推理能力达到研究生水平,尤其在数学和编程领域表现卓越,整体推理能力可与OpenAI的o1相媲美。


QwQ是通义千问Qwen大模型的最新实验性研究模型,也是阿里云首个开源的AI推理模型。


QwQ在GPQA评测集中达到65.2%的准确率,展现出研究生水平的科学推理能力;在AIME评测中以50%的胜率证明了其解决数学问题的能力。在MATH-500评测中,QwQ以90.6%的高分超越了o1-preview和o1-mini。在LiveCodeBench评测中,QwQ答对了一半的题目,显示了其在编程竞赛题场景中的出色表现。


QwQ能够在面对复杂问题时进行深度自省,质疑自身假设,并通过深思熟虑的自我对话,仔细审视其推理过程的每一步。例如,在解决“猜牌问题”时,QwQ通过梳理对话和推演,像个擅长思考的人一样,并最终得出正确答案。


QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源,引起全球开发者的热情体验。有开发者认为该模型是今年开源领域最重大的突破,让中国在开源大模型和AI推理上占据先机。尽管QwQ展现了强大的分析能力,但它仍是个供研究的实验型模型,存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限,未来随着研究深入模型迭代,这些问题将逐步得到解决。


[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!