小米大模型团队音频推理技术取得突破，登顶MMAU榜单-icspec

小米大模型团队音频推理技术取得突破，登顶MMAU榜单

来源:龙灵发布时间:2025-03-17

分享至微信

小米大模型团队近日在音频推理领域取得重要进展，成功登顶国际权威的MMAU音频理解评测榜单。团队受DeepSeek-R1启发，首次将强化学习算法应用于多模态音频理解任务，仅用一周时间便以64.5%的准确率刷新纪录，并同步开源相关代码和模型参数。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集通过一万条音频样本，测试模型在语音、环境声、音乐等多场景下的推理能力，涵盖27种技能。人类专家在该评测集上的准确率为82.23%，而目前榜单上表现最好的商业闭源模型GPT-4o准确率为57.3%。小米团队的模型在强化学习的加持下，较GPT-4o提升了近10个百分点。

团队在实验中发现，强化学习方法相较于传统的监督学习展现出显著优势。例如，使用清华大学发布的AVQA数据集（仅3.8万条训练样本），通过强化学习微调的Qwen2-Audio-7B模型准确率达到64.5%，而监督学习在更大规模数据集上的表现却逊色许多。此外，显式的思维链输出反而降低了模型性能，准确率下降至61.1%。

此次研究不仅验证了强化学习在音频推理领域的潜力，也为后续探索提供了新方向。小米团队表示，未来将继续优化训练策略，进一步缩小与人类专家水平的差距。

训练代码、模型参数及技术报告已开源，供学术界和产业界参考。