DC娱乐网

Google I/O 2026 不打模型仗了

文:王智远 | ID:Z201440Google I/O 2026 就这么开完了。两个小时,几十个产品更新,一股脑全砸出

文:王智远 | ID:Z201440

Google I/O 2026 就这么开完了。

两个小时,几十个产品更新,一股脑全砸出来。今天打开任意一家科技媒体都能看到产品清单,我就别跟着念了。

我想说的是另一件事:

Pichai 在 keynote 上放了张图,Google 内部各产品每月处理的 token 量,2024 年 5 月 9.7 万亿,去年 I/O 的时候 480 万亿,今年到了 3.2 千万亿。一年,翻了 7 倍。

你别以为是用户变多,Google 核心产品的用户量级一年下来根本没变,同一批人,开始用 AI 做以前压根不会做的事,这是看懂整场 I/O 最关键的一把钥匙。

Google 这次发的所有东西,模型、Agent、搜索升级、定价调整、基础设施,都在追一个目标:

把 Agent 跑起来的成本压到一条线以下,然后,用自己最大的本钱,把它塞进十几亿人每天都在用的产品里。

这场游戏规则,跟过去两年的模型竞赛,不一个路子。

01

Pichai 这次把一个模型推到了 keynote 最中间。最便宜的那个。

Gemini 3.5 Flash,名字里就带 Flash;按 Google 自己的产品线逻辑,这是轻量款,不是旗舰。旗舰是 3.5 Pro,还没发,Pichai 说夏天见,原话是「内部已经在用,还在打磨」。

先上的却是 Flash,而且给了最中间的位置,排序本身就是态度。

我翻了翻它的基准测试:

3.5 Flash 在 Terminal-Bench 2.1 上跑出 76.2%,3.1 Pro 是 70.3%。

在 GDPval-AA 这个专门衡量「真实经济价值任务」的基准上,3.5 Flash 拿了 1656 Elo,3.1 Pro 是 1314。MCP Atlas 工具调用基准,83.6%。

翻译成人话就是:

一个轻量款模型,在编码和 Agent 任务上,把自家上一代旗舰全干翻了。

这种事以前几乎不会发生,Flash 和 Pro 之间一直有明确的能力代差,你选 Flash 就是要拿能力换速度和价格。3.5 Flash 把这个默认假设砸碎了。

速度这边更夸张,Pichai 在台上报了个数:

每秒输出 289 个 token,是其他前沿模型的 4 倍;在 Antigravity 2.0 里跑优化版本,能到 12 倍,定价每百万 token 输入 1.5 美元,输出 9 美元。

我算了一下,比 3.1 Pro 的输入价格低 40%,输出也低 40%。如果再用上缓存,长上下文场景下的实际成本还能再降一个台阶。

这些数字单看都是参数,放一起看,就讲了一件事:Agent 的边际运行成本,到了一个新的量级。

Pichai 自己把账算给了在场的人听,大意是,一家头部企业每天处理一万亿 token,把 80% 的负载从其他前沿模型迁到 3.5 Flash,一年能省超过 10 亿美元。

这是给 CIO 看的财务测算。

Google 自己已经是最大的受益者,今年 3 月,Google 内部每天处理 5000 亿 token。现在这个数超过 3 万亿,每隔几周翻一倍。

增长的来源就一条:

工程团队全面切到 Antigravity 加 3.5 Flash 的开发流程之后,原来跑不起的任务,突然跑得起了。

这就回到了开头说的数据,token 消耗一年翻 7 倍,是成本降到某条线以下之后,用法自己长出来的。

3.5 Flash 的意义,不在于「又一个更强的模型」,它真正做的事,是把 Agent 从「技术上可行」推到了「经济上可行」。

过去两年大家聊 Agent,聊能不能做得到;这个模型一出来,问题变了,变成谁能把它铺出去。

02

谁能把 Agent 铺出去,Google 的第一个回答叫 Gemini Spark,一个 24 小时挂在云端的个人智能体。

你笔记本合上,手机锁屏,它还在后台干活,底层跑的是 3.5 Flash,框架是 Google 内部的 Antigravity Harness,部署在 Google Cloud 的专用虚拟机上。

入口就在 Gemini 应用里,9 亿月活用户,打开就能摸到,Google Labs 的副总裁 Josh Woodward 在台上演示了几个场景:

给老板发周报,Spark 自己去你的邮箱、文档、表格、演示文稿里把事实拉出来,用你的语气写好草稿。

办邻居聚会,Spark 追踪谁回复了谁没回,自动在在线表格里建一个实时更新的 RSVP 表,给没回的人起草催促邮件。

听起来都是小事,这些小事值得讲,因为全程不需要你盯着。

第一批接入的第三方工具是 Canva、OpenTable、Instacart,走的是 MCP 协议。

意思是 Spark 不只帮你在 Google 自家产品里跑腿,它还能帮你订餐厅、下单买菜;接下来几周会开放更多第三方接入,夏天还会加 Chrome 浏览器集成和 macOS 本地文件访问。

开放节奏值得注意,Spark 现在只给受信任测试者用,下周以测试版推给美国的 AI Ultra 订阅用户,是一层一层放。

这个节奏背后藏着一个问题:用户凭什么把邮箱、日历、购物车交给一个 AI。

Google 这次专门花了时间讲这件事,Spark 在做什么,每一步都展示思考轨迹,用户随时可以打断;执行敏感操作之前会停下来征求许可,比如要发一封邮件、订一个日历会议,它会先问你一声。

Woodward 的原话里还有一句:

你不需要一直开着电脑确认它在跑,这句话既是产品特性,也在回应用户心里那个不安。

Spark 是对消费者的回答。对企业的回答是 Antigravity 2.0;Antigravity 1.0 去年 11 月发的,定位是智能编程环境,对标的是 Cursor,用了半年,Google 说已经有数百万开发者。

2.0 这次换方向了,它从编程工具变成了多智能体编排平台;具体分三层:

第一层,一款独立桌面应用,Google 管它叫「与智能体交互的中枢」。

你可以同时起多个智能体,一个写代码,一个生成品牌素材,一个做产品架构,并行跑,互不干扰;还能设定计划任务,让智能体按时间表自动在后台执行。

第二层,Antigravity 命令行工具,给习惯待在终端里的开发者用;这个工具直接取代了之前的 Gemini 命令行,6 月 18 日旧版停服,所有用户必须迁移。

第三层,Antigravity SDK。

这一层是关键。Google 给的说明是,SDK 让外部开发者可以用编程方式调用驱动 Google 自家产品的同一套智能体框架,跟 Gemini 模型协同优化,部署在自己的基础设施上。

翻译一下:

Google 试着把自己内部正在用的智能体基础设施,以 SDK 的形式交到开发者手里,这是对 Claude Code 和 Codex 的正面对位。

Antigravity 这条线下面还有一个单独发布,叫 CodeMender;一个安全智能体,用 Gemini 的推理能力自动发现并修复关键代码漏洞,直接下笔改代码,不只是报告问题。

Google 的逻辑很直白:智能体写的代码越来越多,安全就得跟上,安全本身也得由智能体来做。

把 Spark 和 Antigravity 2.0 放在一起看,Google 做的事情就很清楚了。

消费者这边,一个 24 小时在线的个人智能体,接着 9 亿月活的 Gemini 应用落地;企业这边,一个从编程工具进化成编排平台的开发者工具,附带 SDK 和命令行,直接竞争 Claude Code。

两条路同时铺,中间跑的都是同一个引擎,3.5 Flash。

所以,谷歌的解法是:准备两条腿一起跑,消费者和开发者一个都不放。

03

铺出去之后,智能体往哪跑?说出来肯定惊到下巴,答案藏在 Google 最老的那个产品里:搜索。

Google 自己给这次搜索框改造下的定义是「标志性搜索框 25 年来最大的一次升级」;智远认为,这话有营销成分,但看完具体改动之后,确实不是小修小补。

先说一个数据:

AI Mode 去年 I/O 才发布,一年时间月活过了 10 亿。上线以来每个季度查询量翻一倍,上季度 Google 搜索的总查询量创了历史新高。

这个数字反直觉,过去几年行业里一直有个叙事:

AI 聊天机器人会蚕食搜索,实际发生的正好反过来;人们发现搜索能做更多事之后,搜索量不降反升,而且涨得很猛。

新搜索框的变化从交互层就开始了,它会随着你输入的内容自动扩展,容纳更长更口语化的问题。

原来的自动补全换成了一套 AI 驱动的查询建议系统,是帮你想清楚你到底想问什么,同时支持多模态输入,文字、图片、视频、Chrome 标签页都能往里丢。

AI Overviews 和 AI Mode 这次合到一起了,你问一个问题,看到 AI 概览,直接在原页面追问就滑入 AI Mode,上下文不断,越聊越深,推荐的链接和来源也越来越精准。5 月 19 日全球同步上线。

这些都是产品层面的更新,真正值得注意的是搜索框里长出来的智能体。

Google 管它叫信息智能体,你可以在搜索里创建一个或者多个后台智能体,24 小时帮你盯着某件事。

比如:

你让它跟踪某个领域的市场变动,智能体会自己制定监控计划,决定该用哪些数据源,包括 Google 的实时金融数据、新闻、博客、社交帖子,条件触发的时候合成一份带链接的更新推给你,今夏上线,先给 AI Pro 和 Ultra 订阅用户。

再往前一步,搜索里还接入了 Antigravity 的编程能力。

Google 管它叫生成式界面,你搜一个问题,搜索不只给你答案,还能现场给你生成一个可交互的迷你应用。

台上演示的例子是一个个性化健身应用,能接入实时天气、读你的日历、知道你的饮食偏好,自动生成饮食计划并附带食谱链接。

这是搜索在帮你造东西。搜索之外,智能体也在进 Google 的其他产品。

Daily Brief 是 Gemini 应用里的第一个开箱即用的智能体。每天早上帮你整理收件箱、日历和待办,排好优先级,给出下一步建议。

它的前身是去年 12 月在 Google Labs 上线的一个实验项目 Cici,很快成了最受欢迎的实验之一,这次直接收编进了正式产品线。

统一购物车是购物场景的智能体,一个跨 Google 搜索、Gemini 应用、YouTube、邮箱工作的统一购物车,能追踪降价、监控库存、查看价格历史,甚至能发现你买的电脑配件之间的兼容性问题。

Ask YouTube 重新定义了视频搜索,你问一个问题,它不给你一排视频列表让你自己翻,而是直接跳到最相关的那个视频里最相关的那个片段。

把这些更新摊开看,一个结论就浮出来了。

模型竞赛时,比谁的基准分数高,纯 AI 公司和平台公司站在同一起跑线上。

智能体竞赛的逻辑完全不同,智能体要连接真实的邮箱、日历、文档、购物车、搜索历史、视频库,谁手里有这些东西,谁就有先天优势。

Google 有 13 个产品超过 10 亿用户,5 个超过 30 亿。这不是技术能补的差距。

Anthropic 和 OpenAI 可以做出很好的模型,可以做出很好的智能体框架;它们做不出邮箱,做不出搜索,做不出 YouTube。

这是 Google 在智能体时代最大的本钱,也是这场 I/O 真正在讲的故事,模型再强也拼不过管道有多粗。

04

管道粗,得有东西在底下撑着。

Pichai 在 keynote 后半段把话题转到了基础设施,开头就甩了一个数字:2022 年 Google 的资本开支是 310 亿美元,今年预计 1800 到 1900 亿。6 倍。四年时间。

这笔钱的一大块砸在了自研芯片上,Google 发布了第八代 TPU,第一次做了双芯片分工。

TPU 8t 专做训练,原始算力接近上一代的 3 倍;TPU 8i 专做推理,速度拉满,两颗芯片的性能功耗比都提升了约 2 倍。

训练这边还有一个值得单独讲的变化。

Google 自己搞了一套训练调度框架,训练任务能跨好几个数据中心跑,全球调度超过 100 万颗 TPU。Pichai 管这叫「世界上最大的训练集群」。

这意味着训练不再被一个机房的物理上限卡住,模型越来越大,训练周期从几个月压到几周。

推理这边,TPU 8i 的设计方向就一个字,快。Pichai 原话提到,Google 做了 27 年搜索,学到的最深的一课就是延迟很重要。

3.5 Flash 每秒 289 个 token 的输出速度,底下撑着的就是这套推理芯片。

把上面几段的逻辑串起来:3.5 Flash 的速度和价格不是凭空来的,是 1800 亿美元的资本开支、自研芯片、全球分布式训练集群共同托出来的。

纯 AI 公司可以在模型层追上来,基础设施层想追上,难度高了一大截。这是另一层「管道」。

05

最后一块拼图是 Gemini Omni,这趴是 DeepMind 的 CEO Demis Hassabis 亲自上台讲的,分量够重。

Omni 能干啥?你给它什么,它给你什么,先从视频开始,以后图片和文字也会跟上来。

第一款上线的叫 Gemini Omni Flash,5 月 19 日开始在 Gemini 应用、Google Flow 和 YouTube Shorts 里能用,所有生成的内容自带水印。

3.5 Flash 解决的是「让智能体跑起来」,Omni 指向的是更远的事:让 AI 不光会写字,还会造东西。

Omni 不是一个独立的新东西,以前 Google 的 Veo 管视频生成,Nano Banana 管图片编辑,各管各的,互不搭嘎;Omni 把这些全塞进 Gemini 一个框里了。

你上传一段自己拍的视频,说一句话让它改,它就能改里面正在发生的事,加个人进去,换个风格,时间线还给你接得上。

或者你纯用文字描述一个想法,Omni 直接给你生成一段带画面带声音的视频。

这个能力单看是个很强的演示,放回整场 I/O 的逻辑里看,它在讲一件更大的事。

我翻了一下时间线:

今年 4 月 29 日,OpenAI 把面向消费者的 Sora 2 应用关了,只留了付费 API;理由是基础设施成本和分发策略要调整。11 天之后,Google 的 Gemini 应用里开始出现 Omni 的影子。

同一个方向,一家因为扛不住成本退了一步,另一家选择往前走。

两家面对的技术难题差不多。差别在哪?Google 有自研的 TPU 推理芯片压成本,有 Gemini 应用 9 亿月活分摊算力,有 YouTube Shorts 这种现成的台子来消化视频生成的产能。

OpenAI 没有;这不只谁的模型更好的问题,是谁的结构撑得住。

把整场 I/O 从头到尾串一遍,Google 讲的就一件事:

模型层,3.5 Flash 用速度和价格把智能体的成本压到谁都接得住的位置。

产品层,Spark 给普通人,Antigravity 2.0 给程序员,搜索里长出来的智能体和生成式界面把搜索变成了入口,统一购物车把智能体塞进了真实交易。

基础设施层,1800 亿美元的资本开支、第八代 TPU、百万颗芯片的训练集群在底下兜着;每一层都不是孤立存在,属于一个系统里的不同齿轮。

Pichai 在 I/O 前的小范围交流里说过一句话:

我们为什么这么执着于做出既强又快又便宜的前沿模型,因为我们要把它带给尽可能多的人。这是我们真正会发光的地方。

这句话的潜台词不难读,Google 认为智能体时代的终局,是谁能把好的模型、大的管道、深的地基绑在一起,让智能体真的跑进普通人的生活。

过去两年,纯 AI 公司掌握着行业叙事的主场,这场 I/O 之后,一个老问题值得重新想想:

当竞争从「做出最好的模型」变成「让智能体跑进真实生活」,窗口在给谁打开,又在给谁关上。