Google I/O 2026 不打模型仗了

文：王智远 | ID:Z201440

Google I/O 2026 就这么开完了。

两个小时，几十个产品更新，一股脑全砸出来。今天打开任意一家科技媒体都能看到产品清单，我就别跟着念了。

我想说的是另一件事：

Pichai 在 keynote 上放了张图，Google 内部各产品每月处理的 token 量，2024 年 5 月 9.7 万亿，去年 I/O 的时候 480 万亿，今年到了 3.2 千万亿。一年，翻了 7 倍。

你别以为是用户变多，Google 核心产品的用户量级一年下来根本没变，同一批人，开始用 AI 做以前压根不会做的事，这是看懂整场 I/O 最关键的一把钥匙。

Google 这次发的所有东西，模型、Agent、搜索升级、定价调整、基础设施，都在追一个目标：

把 Agent 跑起来的成本压到一条线以下，然后，用自己最大的本钱，把它塞进十几亿人每天都在用的产品里。

这场游戏规则，跟过去两年的模型竞赛，不一个路子。

Pichai 这次把一个模型推到了 keynote 最中间。最便宜的那个。

Gemini 3.5 Flash，名字里就带 Flash；按 Google 自己的产品线逻辑，这是轻量款，不是旗舰。旗舰是 3.5 Pro，还没发，Pichai 说夏天见，原话是「内部已经在用，还在打磨」。

先上的却是 Flash，而且给了最中间的位置，排序本身就是态度。

我翻了翻它的基准测试：

3.5 Flash 在 Terminal-Bench 2.1 上跑出 76.2%，3.1 Pro 是 70.3%。

在 GDPval-AA 这个专门衡量「真实经济价值任务」的基准上，3.5 Flash 拿了 1656 Elo，3.1 Pro 是 1314。MCP Atlas 工具调用基准，83.6%。

翻译成人话就是：

一个轻量款模型，在编码和 Agent 任务上，把自家上一代旗舰全干翻了。

这种事以前几乎不会发生，Flash 和 Pro 之间一直有明确的能力代差，你选 Flash 就是要拿能力换速度和价格。3.5 Flash 把这个默认假设砸碎了。

速度这边更夸张，Pichai 在台上报了个数：

每秒输出 289 个 token，是其他前沿模型的 4 倍；在 Antigravity 2.0 里跑优化版本，能到 12 倍，定价每百万 token 输入 1.5 美元，输出 9 美元。

我算了一下，比 3.1 Pro 的输入价格低 40%，输出也低 40%。如果再用上缓存，长上下文场景下的实际成本还能再降一个台阶。

这些数字单看都是参数，放一起看，就讲了一件事：Agent 的边际运行成本，到了一个新的量级。

Pichai 自己把账算给了在场的人听，大意是，一家头部企业每天处理一万亿 token，把 80% 的负载从其他前沿模型迁到 3.5 Flash，一年能省超过 10 亿美元。

这是给 CIO 看的财务测算。

Google 自己已经是最大的受益者，今年 3 月，Google 内部每天处理 5000 亿 token。现在这个数超过 3 万亿，每隔几周翻一倍。

增长的来源就一条：

工程团队全面切到 Antigravity 加 3.5 Flash 的开发流程之后，原来跑不起的任务，突然跑得起了。

这就回到了开头说的数据，token 消耗一年翻 7 倍，是成本降到某条线以下之后，用法自己长出来的。

3.5 Flash 的意义，不在于「又一个更强的模型」，它真正做的事，是把 Agent 从「技术上可行」推到了「经济上可行」。

过去两年大家聊 Agent，聊能不能做得到；这个模型一出来，问题变了，变成谁能把它铺出去。

谁能把 Agent 铺出去，Google 的第一个回答叫 Gemini Spark，一个 24 小时挂在云端的个人智能体。

你笔记本合上，手机锁屏，它还在后台干活，底层跑的是 3.5 Flash，框架是 Google 内部的 Antigravity Harness，部署在 Google Cloud 的专用虚拟机上。

入口就在 Gemini 应用里，9 亿月活用户，打开就能摸到，Google Labs 的副总裁 Josh Woodward 在台上演示了几个场景：

给老板发周报，Spark 自己去你的邮箱、文档、表格、演示文稿里把事实拉出来，用你的语气写好草稿。

办邻居聚会，Spark 追踪谁回复了谁没回，自动在在线表格里建一个实时更新的 RSVP 表，给没回的人起草催促邮件。

听起来都是小事，这些小事值得讲，因为全程不需要你盯着。

第一批接入的第三方工具是 Canva、OpenTable、Instacart，走的是 MCP 协议。

意思是 Spark 不只帮你在 Google 自家产品里跑腿，它还能帮你订餐厅、下单买菜；接下来几周会开放更多第三方接入，夏天还会加 Chrome 浏览器集成和 macOS 本地文件访问。

开放节奏值得注意，Spark 现在只给受信任测试者用，下周以测试版推给美国的 AI Ultra 订阅用户，是一层一层放。

这个节奏背后藏着一个问题：用户凭什么把邮箱、日历、购物车交给一个 AI。

Google 这次专门花了时间讲这件事，Spark 在做什么，每一步都展示思考轨迹，用户随时可以打断；执行敏感操作之前会停下来征求许可，比如要发一封邮件、订一个日历会议，它会先问你一声。

Woodward 的原话里还有一句：

你不需要一直开着电脑确认它在跑，这句话既是产品特性，也在回应用户心里那个不安。

Spark 是对消费者的回答。对企业的回答是 Antigravity 2.0；Antigravity 1.0 去年 11 月发的，定位是智能编程环境，对标的是 Cursor，用了半年，Google 说已经有数百万开发者。

2.0 这次换方向了，它从编程工具变成了多智能体编排平台；具体分三层：

第一层，一款独立桌面应用，Google 管它叫「与智能体交互的中枢」。

你可以同时起多个智能体，一个写代码，一个生成品牌素材，一个做产品架构，并行跑，互不干扰；还能设定计划任务，让智能体按时间表自动在后台执行。

第二层，Antigravity 命令行工具，给习惯待在终端里的开发者用；这个工具直接取代了之前的 Gemini 命令行，6 月 18 日旧版停服，所有用户必须迁移。

第三层，Antigravity SDK。

这一层是关键。Google 给的说明是，SDK 让外部开发者可以用编程方式调用驱动 Google 自家产品的同一套智能体框架，跟 Gemini 模型协同优化，部署在自己的基础设施上。

翻译一下：

Google 试着把自己内部正在用的智能体基础设施，以 SDK 的形式交到开发者手里，这是对 Claude Code 和 Codex 的正面对位。

Antigravity 这条线下面还有一个单独发布，叫 CodeMender；一个安全智能体，用 Gemini 的推理能力自动发现并修复关键代码漏洞，直接下笔改代码，不只是报告问题。

Google 的逻辑很直白：智能体写的代码越来越多，安全就得跟上，安全本身也得由智能体来做。

把 Spark 和 Antigravity 2.0 放在一起看，Google 做的事情就很清楚了。

消费者这边，一个 24 小时在线的个人智能体，接着 9 亿月活的 Gemini 应用落地；企业这边，一个从编程工具进化成编排平台的开发者工具，附带 SDK 和命令行，直接竞争 Claude Code。

两条路同时铺，中间跑的都是同一个引擎，3.5 Flash。

所以，谷歌的解法是：准备两条腿一起跑，消费者和开发者一个都不放。

铺出去之后，智能体往哪跑？说出来肯定惊到下巴，答案藏在 Google 最老的那个产品里：搜索。

Google 自己给这次搜索框改造下的定义是「标志性搜索框 25 年来最大的一次升级」；智远认为，这话有营销成分，但看完具体改动之后，确实不是小修小补。

先说一个数据：

AI Mode 去年 I/O 才发布，一年时间月活过了 10 亿。上线以来每个季度查询量翻一倍，上季度 Google 搜索的总查询量创了历史新高。

这个数字反直觉，过去几年行业里一直有个叙事：

AI 聊天机器人会蚕食搜索，实际发生的正好反过来；人们发现搜索能做更多事之后，搜索量不降反升，而且涨得很猛。

新搜索框的变化从交互层就开始了，它会随着你输入的内容自动扩展，容纳更长更口语化的问题。

原来的自动补全换成了一套 AI 驱动的查询建议系统，是帮你想清楚你到底想问什么，同时支持多模态输入，文字、图片、视频、Chrome 标签页都能往里丢。

AI Overviews 和 AI Mode 这次合到一起了，你问一个问题，看到 AI 概览，直接在原页面追问就滑入 AI Mode，上下文不断，越聊越深，推荐的链接和来源也越来越精准。5 月 19 日全球同步上线。

这些都是产品层面的更新，真正值得注意的是搜索框里长出来的智能体。

Google 管它叫信息智能体，你可以在搜索里创建一个或者多个后台智能体，24 小时帮你盯着某件事。

比如：

你让它跟踪某个领域的市场变动，智能体会自己制定监控计划，决定该用哪些数据源，包括 Google 的实时金融数据、新闻、博客、社交帖子，条件触发的时候合成一份带链接的更新推给你，今夏上线，先给 AI Pro 和 Ultra 订阅用户。

再往前一步，搜索里还接入了 Antigravity 的编程能力。

Google 管它叫生成式界面，你搜一个问题，搜索不只给你答案，还能现场给你生成一个可交互的迷你应用。

台上演示的例子是一个个性化健身应用，能接入实时天气、读你的日历、知道你的饮食偏好，自动生成饮食计划并附带食谱链接。

这是搜索在帮你造东西。搜索之外，智能体也在进 Google 的其他产品。

Daily Brief 是 Gemini 应用里的第一个开箱即用的智能体。每天早上帮你整理收件箱、日历和待办，排好优先级，给出下一步建议。

它的前身是去年 12 月在 Google Labs 上线的一个实验项目 Cici，很快成了最受欢迎的实验之一，这次直接收编进了正式产品线。

统一购物车是购物场景的智能体，一个跨 Google 搜索、Gemini 应用、YouTube、邮箱工作的统一购物车，能追踪降价、监控库存、查看价格历史，甚至能发现你买的电脑配件之间的兼容性问题。

Ask YouTube 重新定义了视频搜索，你问一个问题，它不给你一排视频列表让你自己翻，而是直接跳到最相关的那个视频里最相关的那个片段。

把这些更新摊开看，一个结论就浮出来了。

模型竞赛时，比谁的基准分数高，纯 AI 公司和平台公司站在同一起跑线上。

智能体竞赛的逻辑完全不同，智能体要连接真实的邮箱、日历、文档、购物车、搜索历史、视频库，谁手里有这些东西，谁就有先天优势。

Google 有 13 个产品超过 10 亿用户，5 个超过 30 亿。这不是技术能补的差距。

Anthropic 和 OpenAI 可以做出很好的模型，可以做出很好的智能体框架；它们做不出邮箱，做不出搜索，做不出 YouTube。

这是 Google 在智能体时代最大的本钱，也是这场 I/O 真正在讲的故事，模型再强也拼不过管道有多粗。

管道粗，得有东西在底下撑着。

Pichai 在 keynote 后半段把话题转到了基础设施，开头就甩了一个数字：2022 年 Google 的资本开支是 310 亿美元，今年预计 1800 到 1900 亿。6 倍。四年时间。

这笔钱的一大块砸在了自研芯片上，Google 发布了第八代 TPU，第一次做了双芯片分工。

TPU 8t 专做训练，原始算力接近上一代的 3 倍；TPU 8i 专做推理，速度拉满，两颗芯片的性能功耗比都提升了约 2 倍。

训练这边还有一个值得单独讲的变化。

Google 自己搞了一套训练调度框架，训练任务能跨好几个数据中心跑，全球调度超过 100 万颗 TPU。Pichai 管这叫「世界上最大的训练集群」。

这意味着训练不再被一个机房的物理上限卡住，模型越来越大，训练周期从几个月压到几周。

推理这边，TPU 8i 的设计方向就一个字，快。Pichai 原话提到，Google 做了 27 年搜索，学到的最深的一课就是延迟很重要。

3.5 Flash 每秒 289 个 token 的输出速度，底下撑着的就是这套推理芯片。

把上面几段的逻辑串起来：3.5 Flash 的速度和价格不是凭空来的，是 1800 亿美元的资本开支、自研芯片、全球分布式训练集群共同托出来的。

纯 AI 公司可以在模型层追上来，基础设施层想追上，难度高了一大截。这是另一层「管道」。

最后一块拼图是 Gemini Omni，这趴是 DeepMind 的 CEO Demis Hassabis 亲自上台讲的，分量够重。

Omni 能干啥？你给它什么，它给你什么，先从视频开始，以后图片和文字也会跟上来。

第一款上线的叫 Gemini Omni Flash，5 月 19 日开始在 Gemini 应用、Google Flow 和 YouTube Shorts 里能用，所有生成的内容自带水印。

3.5 Flash 解决的是「让智能体跑起来」，Omni 指向的是更远的事：让 AI 不光会写字，还会造东西。

Omni 不是一个独立的新东西，以前 Google 的 Veo 管视频生成，Nano Banana 管图片编辑，各管各的，互不搭嘎；Omni 把这些全塞进 Gemini 一个框里了。

你上传一段自己拍的视频，说一句话让它改，它就能改里面正在发生的事，加个人进去，换个风格，时间线还给你接得上。

或者你纯用文字描述一个想法，Omni 直接给你生成一段带画面带声音的视频。

这个能力单看是个很强的演示，放回整场 I/O 的逻辑里看，它在讲一件更大的事。

我翻了一下时间线：

今年 4 月 29 日，OpenAI 把面向消费者的 Sora 2 应用关了，只留了付费 API；理由是基础设施成本和分发策略要调整。11 天之后，Google 的 Gemini 应用里开始出现 Omni 的影子。

同一个方向，一家因为扛不住成本退了一步，另一家选择往前走。

两家面对的技术难题差不多。差别在哪？Google 有自研的 TPU 推理芯片压成本，有 Gemini 应用 9 亿月活分摊算力，有 YouTube Shorts 这种现成的台子来消化视频生成的产能。

OpenAI 没有；这不只谁的模型更好的问题，是谁的结构撑得住。

把整场 I/O 从头到尾串一遍，Google 讲的就一件事：

模型层，3.5 Flash 用速度和价格把智能体的成本压到谁都接得住的位置。

产品层，Spark 给普通人，Antigravity 2.0 给程序员，搜索里长出来的智能体和生成式界面把搜索变成了入口，统一购物车把智能体塞进了真实交易。

基础设施层，1800 亿美元的资本开支、第八代 TPU、百万颗芯片的训练集群在底下兜着;每一层都不是孤立存在，属于一个系统里的不同齿轮。

Pichai 在 I/O 前的小范围交流里说过一句话：

我们为什么这么执着于做出既强又快又便宜的前沿模型，因为我们要把它带给尽可能多的人。这是我们真正会发光的地方。

这句话的潜台词不难读，Google 认为智能体时代的终局，是谁能把好的模型、大的管道、深的地基绑在一起，让智能体真的跑进普通人的生活。

过去两年，纯 AI 公司掌握着行业叙事的主场，这场 I/O 之后，一个老问题值得重新想想：

当竞争从「做出最好的模型」变成「让智能体跑进真实生活」，窗口在给谁打开，又在给谁关上。

DC娱乐网

Google I/O 2026 不打模型仗了

热门分类