小米大模型团队音频推理技术取得突破,登顶MMAU榜单
来源:龙灵 发布时间:3 天前 分享至微信
小米大模型团队近日在音频推理领域取得重要进展,成功登顶国际权威的MMAU音频理解评测榜单。团队受DeepSeek-R1启发,首次将强化学习算法应用于多模态音频理解任务,仅用一周时间便以64.5%的准确率刷新纪录,并同步开源相关代码和模型参数。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集通过一万条音频样本,测试模型在语音、环境声、音乐等多场景下的推理能力,涵盖27种技能。人类专家在该评测集上的准确率为82.23%,而目前榜单上表现最好的商业闭源模型GPT-4o准确率为57.3%。小米团队的模型在强化学习的加持下,较GPT-4o提升了近10个百分点。

团队在实验中发现,强化学习方法相较于传统的监督学习展现出显著优势。例如,使用清华大学发布的AVQA数据集(仅3.8万条训练样本),通过强化学习微调的Qwen2-Audio-7B模型准确率达到64.5%,而监督学习在更大规模数据集上的表现却逊色许多。此外,显式的思维链输出反而降低了模型性能,准确率下降至61.1%。

此次研究不仅验证了强化学习在音频推理领域的潜力,也为后续探索提供了新方向。小米团队表示,未来将继续优化训练策略,进一步缩小与人类专家水平的差距。

训练代码、模型参数及技术报告已开源,供学术界和产业界参考。

[ 新闻来源:龙灵,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!