Grok 4.1发布即登顶LMArena,思考模式领先Gemini 2.5 Pro达31分
11月18日,马斯克旗下xAI悄然发布Grok 4.1模型,立即向所有用户免费开放。该模型在LMArena排行榜实现双版本霸榜:思考模式以1483 Elo分数位居第一,非思考模式以1465分排名第二。
Grok 4.1思考模式较Gemini 2.5 Pro高出31分,非思考模式在不启用推理情况下超越了其他模型完整推理表现。此前Grok 4在排行榜仅排第33名。
在EQ-Bench情商测试中,Grok 4.1以1586 Elo登顶,展露出色的情绪理解和共情能力。xAI使用前沿智能体推理模型作为奖励模型,将强化学习规模扩大一个数量级。
马斯克在X平台亲自宣传,称新模型在创造力和情感互动方面显著提升。模型支持128K上下文,能精准捕捉用户细微意图,对话更具吸引力。
据xAI数据显示,在为期两周的盲测中,64.78%用户更偏好Grok 4.1。模型幻觉率比前代降低3倍,在FActScore测试中表现显著改善。
Grok 4.1已在官网、X平台及移动端应用上线,支持自动模式和手动选择。xAI研究员Dustin Tran透露,团队通过算法全面改进,利用真实用户对话偏好优化模型表现。
阅读:0
点赞:0