Arena评测的核心机制是「双盲测试」——所有模型身份完全隐藏，由全球真实用户基

Arena评测的核心机制是「双盲测试」——所有模型身份完全隐藏，由全球真实用户基于回答质量即时投票，从底层逻辑上规避了传统评测里“针对特定数据集调优刷榜”的问题，是目前行业里公认的、最能反映大模型真实对话与解决问题能力的标尺之一。这次更新里，MiMo-V2.5-Pro在Text Arena Expert榜单上拿到了全球第六的排名，这也是整个榜单里排名第一的开源模型、同时也是排名最高的国产模型。更值得关注的是实验室维度的排名，小米以大模型研发主体的身份，排在全球第三，仅次于Anthropic和OpenAI，是目前唯一挤入这个顶级梯队的非美系、非闭源玩家。除了Expert硬核榜单，MiMo在其他维度的表现同样能打：覆盖数学、编程、创意写作等综合文本任务的Overall榜单里，位列全球开源模型第二；考察真实前端代码生成能力的Code Arena WebDev榜单，跻身全球开源前三；而在困难任务、英文困难任务、指令遵循、长文任务这四个关键子维度，更是全部拿下了全球开源模型第一的成绩，底层能力没有明显短板。这个成绩的含金量远不止几个排名数字。开源模型要在这种盲测机制里跑赢，难度远高于闭源模型——闭源模型可以无上限堆算力、针对场景定向调优，而开源模型需要在性能、可部署性、泛化能力之间做平衡，还要在用户完全不知道模型身份的情况下，靠硬实力赢过闭源巨头，本质上是小米技术路线连续性的一次验证，也给国产开源AI的发展路线打了样。

DC娱乐网

Arena评测的核心机制是「双盲测试」——所有模型身份完全隐藏，由全球真实用户基

热门分类