对于谷歌(Google)而言,刚刚过去的一周可以看作其人工智能战略转型的关键节点。随着 Gemini 3 的正式发布,以及名为 Nano Banana Pro 的新模型在社交媒体与开发者社区中迅速走红,这家科技公司正在重新找回自己在 AI 领域的节奏与底气。
在 Google DeepMind 发布的最新一期《Release Notes》播客中,Alphabet 兼谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)与主持人洛根·基尔帕特里克(Logan Kilpatrick)进行了一次持续近一个小时的对话。
这次访谈既回顾了 Gemini 系列模型的演进,也透露出谷歌在基础设施、终端系统和长周期项目上的布局思路。
图丨相关播客(来源:Youtube)
在对话中,皮查伊不断强调,当前的集中发布并不是“突然爆发”,而是基于过去近十年围绕全栈 AI 所做的投入与调整。在外界看来,谷歌近两年的动作常常被放进与竞争对手的“军备竞赛”叙事之中,但在他的表述里,谷歌试图构建的是一个由 Gemini 串联起的庞大生态系统,让 AI 像基础设施一样渗透进搜索、云计算、Waymo 自动驾驶以及各类终端设备。
从“AI-first”到“被迫加速”
皮查伊喜欢把今天的一切追溯到 2012 年那篇“识猫”论文。Google Brain 团队当时用深度学习识别 YouTube 视频里的猫,被视为业界第一次具有标志意义的大规模深度网络实验;2014 年,谷歌收购 DeepMind;2016 年年初,AlphaGo 击败李世石;同年 5 月,第一代张量处理器 TPU(Tensor Processing Unit,张量处理芯片)发布。
图丨相关论文(来源:Google)
“2016 年我要求整个公司转向‘AI-first’,”他在播客里回忆,当时已经能“很清楚地感觉到我们正在经历一个新的平台迁移”。
在这个判断背后,是一次关于技术栈的押注:从自研芯片到云端基础设施,再到搜索、Android、YouTube 等应用层产品,都要按照 AI 优先的思路重新搭建。
问题在于,当 ChatGPT 在 2022 年底突然出现在公众面前时,这个“AI-first”并没有在面向消费者的产品形态上体现出预期中的领先。
OpenAI 把一个尚会“胡说八道”的聊天机器人首先推向大众,而谷歌内部类似项目仍被困在“安全风险”和“社会影响”的内部审查流程中。相关报道显示,在 ChatGPT 发布后,谷歌高层启动了一个 100 天冲刺计划,希望用 Bard 迅速回应微软-OpenAI 联盟的攻势。
为了赶在 Bing 新版发布前一天抢先亮相,Bard 在 2023 年 2 月匆忙开放测试,却在营销示例中搞错了詹姆斯·韦伯太空望远镜的“第一张系外行星照片”,引发股价大跌和内部士气波动。
负责审核的团队随后抱怨,生成式产品“以任何代价上线”的压力,使得原本层层把关的流程被压缩甚至绕过;从 Bard 到早期版本的 Gemini 图像生成器,再到 AI Overviews,外界看到的,是一个频繁在细节上出错的谷歌。
这与皮查伊在最初几年强调的稳健形成了鲜明对比——多年来,谷歌正是因为担心偏见、幻觉和监管风险,而迟迟不愿像初创公司那样在未经充分验证的情况下大规模放出产品。
这种反差最终逼迫公司做出结构性调整。2023 年,谷歌将 Brain 与 DeepMind 合并为新的 Google DeepMind(GDM),由 Demis Hassabis 统一负责基础模型研发,明确以 Gemini 为核心路线,把此前分散在各个团队的语言、视觉、多模态研究整合到一个旗舰项目之下,同时大幅增加在基础设施、数据中心以及 TPU 和 GPU 上的投入在山景城,GDM 搬进了全新的高安全等级圆顶建筑 Gradient Canopy,与皮查伊的办公室在同一层。
联合创始人谢尔盖·布林(Sergey Brin)成为这里的常客,管理层也要求更多的线下协作时间。与谷歌惯常的开放氛围不同,大多数其他员工不被允许进入 Gradient Canopy,也无法访问 GDM 的关键训练代码。
图丨 Gradient Canopy(来源:Google)
在这栋建筑里,一度重新出现了类似谷歌草创时期的氛围。皮查伊特别提到其中一个被称为“蓝色微厨房”(Blue MK)的空间,他将其视为谷歌 AI 创新的缩影。
“那里让我想起了 Google 的早期。Sergey(谢尔盖·布林)、Jeff Dean、Sanjay 等人以前常在那里自己做浓缩咖啡,讨论并行程序。那里充满了思想的碰撞。”在他看来,这种在同一空间内的高密度沟通,是后续技术路线逐渐收敛、节奏逐步统一的重要推动力。
这些变化在 2023 年底 Gemini 1.0 发布时开始显现成效,并在随后一年中通过 Gemini 1.5 的长上下文(Long Context)能力逐步追平对手。在长文档理解、代码分析等场景中,Gemini 的表现明显改善。
而到了 2025 年末,随着 Gemini 3 的问世,皮查伊终于有足够理由表示,谷歌不仅完成了追赶,而且开始尝试重新设定比赛的节奏。
Gemini 3 作为“统一线程”
如果单纯从公开的技术指标来看,Gemini 3 的确是一代跨越幅度较大的模型。根据谷歌披露的数据,它在 WebDev Arena、SWE-bench 等编码和工具使用基准上,相比 Gemini 2.5 Pro 有明显提升,在多类综合推理基准上也刷新了前沿模型的表现。
不过,对谷歌而言,这一代模型更重要的意义,在于它被塑造成谷歌产品线的“统一线程”。在公司内部的规划中,Gemini 不再只是某个聊天机器人或独立 API,而是贯穿多个层级的基础组件。
在消费端,搜索中的 AI 模式和 AI Overviews 已逐步切换至由 Gemini 3 提供支持;Gemini 应用以及 Android 系统中的部分智能功能,也以这一代模型为主。
在企业端,Workspace 中的写作助手、文档摘要、演示文稿生成等功能,统一基于 Gemini 模型系列。在云端,Vertex AI 和 Gemini API 面向开发者开放同一组模型,既服务于聊天应用,也支持代码、搜索和数据处理等多种场景。
图丨 Google 搜索中的 Gemini 3(来源:Google)
这种“同步切换”的方式,直接反映了谷歌在分发上的优势。单从独立应用的下载量看,Gemini 仍落后于 ChatGPT,但谷歌通过搜索、浏览器和 Workspace 将生成式功能嵌入既有入口,使得 Gemini 能在较短时间内覆盖庞大的存量用户群。
根据公司对外披露的数据,AI Overviews 已经在数十个市场落地,覆盖数十亿级用户;Gemini 在 Workspace 中的付费使用者和 API 调用量,也成为 Google Cloud 新增收入的重要来源之一。
在皮查伊的叙述中,这背后依托的,是谷歌多年来构建的“全栈”能力。所谓全栈,指的是从底层芯片(TPU)、到数据中心基础设施、再到中间层模型(Gemini)、以及最上层应用(Search、YouTube、Waymo)的高度一体化与可控性。
“人们往往只看到应用层的热闹,却忽略了底层的积累,”他在节目中说,“如果你退一步看,正是这种全栈方法,让每一层的创新都能贯穿整个系统,最终流向顶层。”
最典型的例子是 TPU(Tensor Processing Unit,张量处理单元)。早在十多年前,谷歌就开始针对自家 AI 负载设计专用芯片,这在当时被视为一种投入巨大的“偏执选择”。而在英伟达(Nvidia)GPU 供应紧张、价格居高不下的今天,TPU 成为了谷歌最重要的战略资产之一。
这项资产不仅支撑了谷歌自身对 Gemini 的训练和部署,也开始对外释放影响力。近期有消息传出,Meta 正在与谷歌洽谈,计划自 2027 年起在其数据中心中使用谷歌的芯片。
这不仅意味着 Google Cloud 在重点客户上的一次扩展,也标志着谷歌从过去相对封闭的算力生态,逐步走向面向同行开放的芯片和基础设施供应商角色;与 Anthropic 高达数十亿美元的 TPU 合作协议,更是这一趋势的直接例证。
“当你控制了全栈,你就拥有了乘数效应,”皮查伊在访谈中总结,“你改进了基础设施,预训练就更快;你在模型层面的优化,又能直接反映在产品的生成式界面上。”
从太空算力到 Aluminium OS:全栈向两端延伸
在访谈中,皮查伊还谈及了谷歌在更长周期上的探索。在基础设施一端,2025 年 11 月,公司在研究博客中公布了 Project Suncatcher 的初步设想:通过在近地轨道部署由太阳能驱动的卫星,在太空中构建一个由 Trillium TPU 组成的小型算力集群。
根据公开信息,首批搭载四颗 TPU 的试验卫星预计在 2027 年发射,远期目标是扩展到由几十颗卫星构成的阵列。
从成熟度看,这仍处于早期研究阶段,距离规模化落地还有相当距离。但项目本身折射出谷歌对未来约束条件的判断:如果大模型训练与推理长期维持高能耗、高成本特征,那么单纯在地面扩建数据中心的方式会遇到愈发明显的瓶颈,利用太空中的持续太阳能和不同的散热条件,至少为下一阶段算力布局提供了一种可探索的路径。
此外,在更贴近用户的一端,近期有消息传出谷歌正在推进一个代号为 Aluminium OS(ALOS)的新系统。根据公开招聘信息和相关报道,这一项目以 Android 为基础,吸收 ChromeOS 的部分能力,目标是为手机、平板和 PC 设备提供统一的平台。
招聘启事中明确写明,Aluminium 将“以 AI 为核心构建”,未来将运行在笔记本、可拆卸设备、平板和电视盒子等多种形态之上,并在相当一段时间内与 ChromeOS 并存,逐步完成迁移。
如果这一规划按预期推进,Gemini 将不再只以应用形式出现,而是成为操作系统的一个基础能力:窗口管理、通知体系、文件与搜索、输入方式和助手功能,都将围绕 AI 重新设计。
对谷歌而言,这相当于在桌面和笔记本电脑上,再做一次类似 Android 在智能手机时代扮演过的角色,只是这一次,AI 能力被前置到了更接近系统底层的位置。
另一方面,基于 Gemini 多模态能力的 Gemini Robotics 项目,则试图将这套模型进一步扩展到物理世界,让机器人能够在云端统一“视觉-语言-动作”表示,理解自然语言指令并执行相对复杂的操作。
谷歌已经在仓储、实验室和模拟家居环境中进行了一系列实验,验证将大模型作为机器人“高层控制器”的可行性。
图丨 Gemini Robotics 项目(来源:Google)
横向展开来看,这些项目构成了皮查伊所说“全栈战略”的不同侧面:底层是 TPU 以及未来可能部分上移到太空中的新型算力;中间是包括 Gemini 3 在内的一系列模型及其云端服务;上层则是搜索、YouTube、Workspace、地图、Android/Aluminium OS 与 Waymo 等面向终端的产品。
这种全栈布局的直接好处在于,谷歌可以在更大程度上掌控技术和产品的节奏。一方面,谷歌不必完全依赖外部芯片供应商,可以自主安排模型训练与推理能力的演进节奏;另一方面,它掌握着全球范围内最重要的一批分发入口,即便 Gemini 应用本身的下载量暂时落后,搜索、Chrome、Gmail 和 Android 等入口仍牢牢掌握在自己手中。
反超之后的问题
当然,这一切并不意味着谷歌已经没有压力。
除去其他 AI 巨头在模型和平台上的竞争不谈,搜索业务作为谷歌立身之本,很难不受到生成式搜索形态的影响。AI Overviews 让用户在搜索结果页上就能获得高度概括的答案,显然会减少一部分外链点击。
出版商和内容网站担心,哪怕总查询量上升,他们获得的流量却在下降;Cloudflare 首席执行官甚至警告,如果不改变现有模式,“网络的商业模式难以为继”。
对监管者而言,谷歌一方面是“可能被 AI 浪潮冲击的既有巨头”,另一方面又是“有能力利用 AI 巩固既有优势的平台”。
美国最新一轮反垄断诉讼最终并未走向拆分,这在一定程度上是因为监管机构也把 OpenAI 和其他新玩家视为对谷歌市场力量的制衡因素。但一旦 AI 搜索和 AI 助手成为新的流量入口,围绕数据使用、广告展示与平台责任的博弈,很可能会以新的形式回到台面上。
在这些不确定性面前,皮查伊的回应仍然是“拉长时间轴”。他在访谈中反复提到,十年前押注 AI、YouTube 和云服务,是现在局面的前提;未来十年,他同样看好量子计算、航空航天算力和机器人等更长线的方向。
“量子有一天会像今天的 AI 一样令人兴奋,”他说,“Sun Catcher、AlphaFold、Wing 无人机、机器人,这些都是需要二十年视角的项目。”
他也仍然愿意用 Waymo 做类比:“记住,现在你看到的是 Waymo 有史以来‘最差’的一刻,它只会越来越好。”在他看来,用 Gemini 3 做 Vibe Coding、用 Nano Banana Pro 生成信息图、让机器人执行自然语言命令的今天,同样是这些工具“最差的一刻”——真正的临界点还没有到来。
从 2016 年那句“AI-first”到今天的 Gemini 3、Vibe Coding 和全栈战略,谷歌用近十年的时间证明了一件事:在平台迁移时期,拥有全栈技术和全球分发网络本身并不能保证胜利,但至少可以避免过早被排除出局。
那些关于“谷歌会被 ChatGPT 淘汰”的判断,已经显得与现实不符。不过,在如何重塑搜索、如何为网络生态和开发者提供相对公平的空间、以及如何在巨额算力投资与气候成本之间寻找平衡这些问题上,这家公司仍未给出定论。
皮查伊显然相信,只要那条从 TPU、太空数据中心、Gemini 模型一直延伸到 Vibe Coding 和日常搜索框的技术链路保持完整,谷歌就有机会在下一个十年继续“厚积薄发”。而对于整个行业而言,更值得关注的问题是:当一个掌握全栈的参与者再次加速时,留给其他公司寻找差异化路径的时间,还剩多少。
参考资料:
1.https://www.youtube.com/watch?v=iFqDyWFuw1c
2.https://www.wired.com/story/google-openai-gemini-chatgpt-artificial-intelligence/
3.https://www.businessinsider.com/google-openai-gemini-chatgpt-ai-search-future-web-2025-11
运营/排版:何晨龙