小米大模型团队音频推理技术取得突破,登顶MMAU榜单
来源:龙灵 发布时间:2025-03-17
分享至微信

小米大模型团队近日在音频推理领域取得重要进展,成功登顶国际权威的MMAU音频理解评测榜单。团队受DeepSeek-R1启发,首次将强化学习算法应用于多模态音频理解任务,仅用一周时间便以64.5%的准确率刷新纪录,并同步开源相关代码和模型参数。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集通过一万条音频样本,测试模型在语音、环境声、音乐等多场景下的推理能力,涵盖27种技能。人类专家在该评测集上的准确率为82.23%,而目前榜单上表现最好的商业闭源模型GPT-4o准确率为57.3%。小米团队的模型在强化学习的加持下,较GPT-4o提升了近10个百分点。
团队在实验中发现,强化学习方法相较于传统的监督学习展现出显著优势。例如,使用清华大学发布的AVQA数据集(仅3.8万条训练样本),通过强化学习微调的Qwen2-Audio-7B模型准确率达到64.5%,而监督学习在更大规模数据集上的表现却逊色许多。此外,显式的思维链输出反而降低了模型性能,准确率下降至61.1%。
此次研究不仅验证了强化学习在音频推理领域的潜力,也为后续探索提供了新方向。小米团队表示,未来将继续优化训练策略,进一步缩小与人类专家水平的差距。
训练代码、模型参数及技术报告已开源,供学术界和产业界参考。

[ 新闻来源:龙灵,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

龙灵
开创IC领域,共创美好未来!
查看更多
相关文章
小米发布首个开源AI推理大模型MiMo
2025-04-30
中国科研团队在EUV光源技术领域取得重要突破
2025-04-30
华邦电NOR与NAND闪存技术取得新突破
2025-04-28
清华大学团队突破高频超级电容器技术瓶颈
2025-05-22
台湾新创APMIC与Twinkle AI合作推出繁体中文推理模型
2025-04-07
热门搜索
高通进军数据中心市场
海光信息合并中科曙光
华为
台积电
中芯国际
联发科
高通
英特尔
芯片