小米大模型团队登顶音频推理MMAU榜官微今日发文称,小米大模型团队在音频推理领域

代芹聊趣事 2025-03-17 15:27:32

小米大模型团队登顶音频推理MMAU榜

官微今日发文称,小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集( abs / 2410.19168)是这种音频推理能力的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在 27 种技能,如跨场景推理、专业知识等应用上的表现,期望模型达到接近人类专家的逻辑分析水平。

作为基准上限,人类专家在 MMAU 上的准确率为 82.23%。这是一个很难的评测集,目前 MMAU 官网榜单上表现最好的模型是来自 OpenAI 的 GPT-4o,准确率为 57.3%。紧随其后的是来自 Google DeepMind 的 Gemini 2.0 Flash,准确率为 55.6%。

0 阅读:0
代芹聊趣事

代芹聊趣事

感谢大家的关注