小米大模型团队音频推理技术取得突破,登顶MMAU榜单
来源:龙灵 发布时间:3 天前
分享至微信

小米大模型团队近日在音频推理领域取得重要进展,成功登顶国际权威的MMAU音频理解评测榜单。团队受DeepSeek-R1启发,首次将强化学习算法应用于多模态音频理解任务,仅用一周时间便以64.5%的准确率刷新纪录,并同步开源相关代码和模型参数。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集通过一万条音频样本,测试模型在语音、环境声、音乐等多场景下的推理能力,涵盖27种技能。人类专家在该评测集上的准确率为82.23%,而目前榜单上表现最好的商业闭源模型GPT-4o准确率为57.3%。小米团队的模型在强化学习的加持下,较GPT-4o提升了近10个百分点。
团队在实验中发现,强化学习方法相较于传统的监督学习展现出显著优势。例如,使用清华大学发布的AVQA数据集(仅3.8万条训练样本),通过强化学习微调的Qwen2-Audio-7B模型准确率达到64.5%,而监督学习在更大规模数据集上的表现却逊色许多。此外,显式的思维链输出反而降低了模型性能,准确率下降至61.1%。
此次研究不仅验证了强化学习在音频推理领域的潜力,也为后续探索提供了新方向。小米团队表示,未来将继续优化训练策略,进一步缩小与人类专家水平的差距。
训练代码、模型参数及技术报告已开源,供学术界和产业界参考。

[ 新闻来源:龙灵,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

龙灵
开创IC领域,共创美好未来!
查看更多
相关文章
阿里云通义千问Qwen2.5-Max登顶AI大模型榜单
2025-02-06
Anthropic推出混合推理模型,可自行启动推理能力
2025-03-03
亚马逊开发推理模型Nova
2025-03-05
HKC惠科微间距LED大屏技术取得突破
2025-02-18
富士康推出AI大模型FoxBrain,具备强大的理解与推理能力
2025-03-12
热门搜索
现代汽车韩国新建氢燃料电池系统工厂
陈立武出任英特尔CEO
华为
台积电
中芯国际
联发科
高通
英特尔
芯片