Grok4更新有哪些亮点OpenAI最强对手出现！马斯克发布Grok-4，性能碾

家家说科技 2025-07-10 15:17:39

Grok4更新有哪些亮点OpenAI最强对手出现！马斯克发布Grok-4，性能碾压Claude 4两倍！AI生活指南ai创造营

就在半小时前，马斯克的Grok4终于正式发布了。直播表示，Grok-4“能够进行超人级别的推理”（It can reason at a superhuman level!），并且在多项高难度基准测试上实现了对现有顶尖模型的碾压。

Artificial Analysis 获得早期访问权限并发布了 Grok 4 基准测试，数据着实恐怖。

Grok-4在多个被认为是衡量模型推理能力“天花板”的基准上，交出了一份近乎完美的答卷。

AIME数学竞赛满分：在AIME25数学竞赛上，Grok-4拿下了满分！这是对模型逻辑推理和数学能力的终极考验。但是图画的很漂亮，满分是调用工具的结果，o3+工具也接近满分。

ARC-AGI基准翻倍：在私有的AGI能力测试集ARC-AGI v2上，Grok-4成为了首个突破10%门槛的模型，得分高达15.9%，是第二名Claude Opus 4的两倍还多。

Vending Bench夺魁：在另一个衡量复杂任务解决能力的Vending Bench上，Grok-4同样取得第一，净值是Claude Opus 4的两倍。

马斯克：“AI的终极推理测试，是在现实世界中运行。而这些数据表明，Grok-4正朝着解决真实、复杂问题的通用智能体方向大步迈进。”

更强的Agent能力与未来规划

原生工具调用： Grok-4具备了原生的工具调用能力，这使其Agent形态的性能得到显著提升。

API与上下文：模型将通过xAI API提供，拥有256K的上下文窗口，并支持实时数据搜索。

多模态能力：除了文本，Grok-4在语音和视频理解方面也进行了重点改进，语音交互速度提升2倍，为构建更强大的多模态智能体铺平了道路。

关于下一步，xAI的目标非常明确：更快、更智能。编程（Coding）和更强大的多模态Agent将是接下来的核心焦点。

0 阅读：2

家家说科技

感谢大家的关注

作者最新文章

1

2025彻底过去一半了2025已过183天，还有182天！似乎才刚过完春节没多久

2

【当职场效率遇上旅行自由，你的全能搭档来了】还在为出差时PPT赶工抓狂？还在担心

3

被石晶美学惊艳到了今年年初自己刚装修了一套房子，作为一个装修领域的门外汉，想起

4

AI产品近一半用户来自三线以下城市今天蚂蚁集团发布了《2024年可持续发展报告

5

有3C标识充电宝也不可在飞机上使用央视最新消息，即便是有3C标识的充电宝可以

6

首都民营经济政策宣讲服务团生命科学园占地7.2平方公里，致力建设成为具有全球领

7

首都民营经济政策宣讲服务团诺诚健华是一家聚焦恶性肿瘤和自身免疫性疾病领域创新药

8

小米YU7价格25.35万！！！咱就说这价格谁没心动[好爱哦]颜色选择：9款配色

9

杀到新浪老巢参加“读城艺术研究院”揭牌活动，大公司就是好[色]

10

近日，全新宝马i3和iM3车型的相关配置以及生产规划曝光。据悉，宝马iM3有望配

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

追觅造车了！造扫地机器人的那个追觅没想到啊，造车牌桌上一个接一个退场…这时候竟然

4

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

5

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

6

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

7

罗永浩拉黑俞敏洪王自如对话任何一位，流量肯定爆炸。但聊不到一起，也没必要。甚至都

8

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

9

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

追觅造车了！造扫地机器人的那个追觅没想到啊，造车牌桌上一个接一个退场…这时候竟然

2

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

3

追觅官宣造车，这目前还挺大，对标布加迪威龙。确实我看到大家都注意到一个关键问题，

4

华为新款三折叠正式开启预约我已经预约上了，皓白、槿紫、瑞红、玄黑4个色，16+

5

华为mate70系列大降价，这是要给mate80系列让路了吧。按照惯例，9月

6

已确定，荣耀Magic8mini就是来掀桌子的网络预测mini版本配置超给力

7

小米澎湃OS3这次升级巨无敌大，堪称脱胎换骨，具体的东西不能讲，但我觉得大概有这

8

小米澎湃OS3HyperOS3以“顺”为核，开启体验新章，明天下午3点，小米澎

9

小米澎湃OS3官宣🔥这次升级有点多哦！很突然嗷，小米官宣澎湃OS3系统8月

10

小米澎湃OS3爆料汇总：主要是集中界面设计和AI融合，以及跨设备互联上根据网传的