Grok4更新有哪些亮点OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!AI生活指南ai创造营
就在半小时前,马斯克的Grok4终于正式发布了。直播表示,Grok-4“能够进行超人级别的推理”(It can reason at a superhuman level!),并且在多项高难度基准测试上实现了对现有顶尖模型的碾压。
Artificial Analysis 获得早期访问权限并发布了 Grok 4 基准测试,数据着实恐怖。
Grok-4在多个被认为是衡量模型推理能力“天花板”的基准上,交出了一份近乎完美的答卷。
AIME数学竞赛满分: 在AIME25数学竞赛上,Grok-4拿下了满分!这是对模型逻辑推理和数学能力的终极考验。但是图画的很漂亮,满分是调用工具的结果,o3+工具也接近满分。
ARC-AGI基准翻倍: 在私有的AGI能力测试集ARC-AGI v2上,Grok-4成为了首个突破10%门槛的模型,得分高达15.9%,是第二名Claude Opus 4的两倍还多。
Vending Bench夺魁: 在另一个衡量复杂任务解决能力的Vending Bench上,Grok-4同样取得第一,净值是Claude Opus 4的两倍。
马斯克:“AI的终极推理测试,是在现实世界中运行。而这些数据表明,Grok-4正朝着解决真实、复杂问题的通用智能体方向大步迈进。”
更强的Agent能力与未来规划
原生工具调用: Grok-4具备了原生的工具调用能力,这使其Agent形态的性能得到显著提升。
API与上下文: 模型将通过xAI API提供,拥有256K的上下文窗口,并支持实时数据搜索。
多模态能力: 除了文本,Grok-4在语音和视频理解方面也进行了重点改进,语音交互速度提升2倍,为构建更强大的多模态智能体铺平了道路。
关于下一步,xAI的目标非常明确:更快、更智能。编程(Coding)和更强大的多模态Agent将是接下来的核心焦点。