2024年12月,在跟媒体的私下聚会上,AirbnbCEOBrianChesky跟大家滔滔不绝地说起他刚刚提出的、在硅谷引发了激烈讨论的“foundermode”(创始人模式)。
他举的例子是:Google永远不可能在AI领域赶上OpenAI。他了解他的好朋友SamAltman如何亲历亲为、高效地,以权谋和手腕,推动着人类历史上最野心勃勃的创业项目。而Google,则是官僚主义和大公司病的代表。
那会儿Gemini2还没发布,硅谷巨头在大模型领域的成功代表是因为Llama而备受赞誉的Meta,Google不被看好。
而今年10月再见到BrianChesky,他对OpenAI的抱怨已溢于言表:他觉得OpenAI想垄断一切面向消费者端的AI,但并不能做到。同时他承认:Google已经追上来了,Gemini很厉害。
而当Gemini3问世之时,外界的看法普遍是:Google不但追上来了,而是已经超越了OpenAI。正是因为Google的反超,OpenAI拉响了红色警报。
20年以来,你大爷Google一直都是你大爷。
2023年2月6日,Google在ChatGPT席卷全球的压力下仓促推出Bard大语言模型的时候,乏善可陈的性能表现很快让它成为被群嘲的对象。
一切是在2024年12月Gemini2的推出开始改变的。Gemini2和Gemini2.5的出色表现,让Gemini成为美国AppStore排行榜第四的热门应用,人们也开始重新审视Google的AI家底。而NanoBanana病毒式传播的精彩亮相,让Google甚至展现了创业公司般的灵活性。
因此,Gemini3被外界寄予了极高的预期——这通常是一个危险的信号。当外界对一款模型的预期过高的时候,它是很容易翻车的——GPT-5就是个典型,它其实没那么差,只是不如人们想象的“神奇”,就成了被群嘲的对象。而Gemini3居然打破了这个魔咒,它几乎惊艳了所有人。
Gemini3的多模态的动态交互让ChatGPT开创的“聊天框AI”显得黯然失色;它在编程能力上也快速补齐,不再像一个文科生;而内化在Gemini3里的新版NanoBanana已经成了一个完整的Agent,不仅是视觉呈现,而且在推理方面也极具想象力。
而且,Google还第一次公开宣称完全采用自己的TPU而不是英伟达的GPU训练Gemini,而且,Meta已经从英伟达“倒戈”转而采购了Google的TPU。显然,这挑战了OpenAI、英伟达和甲骨文苦心孤诣建立起来的AI金融秩序,打压了硅谷已经明显泛滥的AI泡沫。
这一切是怎么发生的?Google还是那个规模庞大、业务无所不包、官僚主义仍随处可见的巨头——甚至两年前被股东和员工呼吁下台为AI布局失利担责的CEOSundarPichai也还在台上,还坐得更稳了。
在最近的一场对谈中,GoogleCEOPichai将这解释为“长期主义”的胜利。Google积累了数十亿用户的使用习惯,多模态数据的闭环,从芯片到产品的全栈掌控,以及前沿研究的转化机制……
“长期主义”是个筐,什么好处都能往里装,什么问题也都能用它掩饰。如果“长期主义”能解释一切,那Google一度留不住最聪明的研究人员,任由他们流向OpenAI和Anthropic是怎么回事?Bard模型一开始的拉垮又是怎么回事?Gemini3今天大放异彩,真的是因为Google从2017年Transformer诞生以来做的一切都是对的么?
我们还是从Gemini3本身寻找答案。
“生成式UI”:探索了20年
跳出“ChatGPT式”的一问一答和聊天框,让人们一句话创建沉浸式的视觉体验和交互界面,如网页、游戏、工具和应用程序,让不断变化和跳动的界面在人们眼前飞舞滚动,而这就是一个视觉元素丰富、可以直接交互和操作的结果。它以视觉布局和动态视图的形式呈现,很炫酷,也很颠覆。
这是Gemini3初一登场最让人眼前一亮和感到兴奋的功能。
问题是,为什么是Google能这么做?为什么Google能想到该这么做。如果我说Google已经这么做了20年了,你信么?
它还真的做了20年了——2005年,Google上线了KnowledgeGraph,从此,Google搜索返回的,不再只是蓝色的链接,而是从多个数据源自动组装的信息卡片;2012年,Google推出FeaturedSnippets,开始提取并重组网页内容,搜索直接生成答案;2016年Google推出了各种垂直widgets——天气、航班、计算器等等,让你不用点击任何链接,就能完成任务。
这些功能都跟AI没什么关系,但它体现的是Google对生成式UI的执念。
世界是视觉构成的,文字只是视觉的抽象。人类天生更亲近视觉,而视觉可以通过搜索引擎自动生成。Google至少花了10年时间,让人们尽可能不跳转到别的网页,甚至不用下拉Google的搜索结果,就能在排在最前面的插件里,直接解决问题。
而Gemini3的生成式UI,只是把这个逻辑推到了极致。
你问“三体问题的物理原理”,它即时生成一个交互式模拟器,让你自己调整变量,观察引力相互作用;你让它“比较两种抵押贷款方案”,它即时创建定制化计算器,直接算给你看。用户可能觉得它太炫酷了,可Google过去20年一直在做的就是生成结果的UI化,无论是不是大语言模型驱动的。
不是因为Gemini3酷,而是因为Google的UI酷了20年了,这次被搬到了Gemini上。这当然需要想象力,但更重要的是经验和直觉。
只是没人讨论这一点——搜索引擎时代的成功经验已经被大多数人认为是过时的、可以抛诸脑后的经验了。如果说GoogleAI翻盘靠的真的是“长期主义”,这是为数不多的、也是最直接有力的例证。
“双子星”与原生多模态的启示
一句话生成一个世界的生成式UI,离不开多模态的能力,想想看一个三体的交互模拟器里面有多少文字、动画,甚至视频的元素。这也是Gemini3最令人称道的部分:原生的多模态能力。
它天生是感官互通的:当有人问“这个YouTube视频里讲的方法,能解决我在这份PDF文档里遇到的问题吗?”——很多模型的做法是:先将YouTube视频里的内容抽象成文字,再将PDF文档里的文本和图表抽取出来变成文字,然后再将两者关联进行推理,然后输出源源不断的文字结果。
而Gemini3的做法是:直接理解视频里的视觉和声音,再理解PDF里的文本和图表,然后进行跨模态的推理,再将推理结果以生成式UI的插件、动画和动态页面呈现出来。整个过程是多模态的,没有文字和文本赚差价。
更好的例子是NanoBananaPro。它已经不是简单的生图应用了,而成了基于Gemini3能力的视觉Agent。它能把白板上字迹潦草的涂鸦补全成信息含量更高的视觉表格,把一部视频直接变成形象和风格高度一致的漫画,独立完成复杂的信息补齐、推理与风格建构,它真正理解了世界的结构,而不是理解了图像。
Gemini3+NanoBananaPro画的小人书
多模态的推理能力,意味着多模态的架构原生。很多人以为多模态就是能模型看图、能听音频,而它真正的意义是在不同模态之间直接建立语义关联。它也意味着:Gemini3的训练过程中,文本、图像、视频、音频和代码是统一表征的。
准确地说,从Gemini1开始,它就在不同的模态上进行预训练,再用额外的多模态数据进行微调,以进一步提升效果——这帮助Gemini从根本上无缝理解和推理所有类型的输入。它与大部分多模态模型先训练文本模型,再把视觉和音频等能力接上去——文本和图像在模型内部分开处理,再拼接起来的训练方式完全不同。
问题是:为什么从Gemini1开始,原生多模态的训练方法才被启用?是灵光乍现这么简单么?
让我们看看原生多模态的核心技术栈包含了哪些研究层面的成果:首先是2021年的Perceiver,它是一个处理任意模态的通用架构;继而是2022年的Flamingo,一项视觉-语言模型的开创性工作;以及同一年的Gato,通用智能体架构。
可以说,Gemini3展现的极强的理解物理世界结构的跨模态推理能力,生成式UI的出色表现,以及它本身自带的通用Agent功能,都来源于以上三项重要的研究成果。它们在一开始的时候是论文,现在已经变成了Gemini的核心技术。
而这些原创的研究成果,都来自2014年被Google纳入麾下的DeepMind团队。
开创Transfomer架构,奠定了当前大语言模型发展主线的是GoogleBrain团队,灵魂人物是JeffDean;而推动Gemini彻底翻盘的多模态能力成果属于DeepMind,灵魂人物是DemisHassabis。这两个团队在Bard失利之后迅速整合,磨合了两年多,终成正果。
GoogleDeepMindCEODemisHassabis
可以说,没有DeepMind的原创性贡献,就没有Gemini一骑绝尘的原生多模态。Transformer是Google对整个AI学术界和产业界的最大贡献,它自己却并非最大的受益者。但DeepMind带来的原生多模态研究成果,毫无疑问被Google优先占有了——Gemini3甚至连一篇最言简意赅的综述性论文也没奉送。
这可不是什么长期主义,GoogleBrain和DeepMind在2023年4月合并成为GoogleDeepMind,是一次代际性的革故鼎新。
要知道,“Gemini”这个词的意思就是“双子星”。一颗星是GoogleBrain,贡献了Transformer架构和大规模训练的工程能力,以及越来越重要的TPU基础设施;另一颗星是DeepMind,贡献了视觉-语言模型以及多模态智能体的概念基础,并将它落地。
从Android到DeepMind,两次伟大的整合,与Google的两次重塑
回看过去10年硅谷层出不穷的并购,你会发现,Google2014年对DeepMind的收购,毫无疑问是最成功的那个。
历史上Google的并购最被诟病的一点就是:整合做得太差。这10年最经常被提及的,是Google对明星硬件公司Nest,以及对智能手机厂商摩托罗拉的收购,都是花了大钱没办成事的那种。
可人们是不是忘了?Android也是Google在2005年收购而得的团队。正是那场收购,让Google凭借Android在移动浪潮中有了坚实阵地,让Google的软件全家桶横扫几十亿台智能手机。
事关全局战略的并购与整合,Google是有成功经验的。
2023年以来,Google对DeepMind的整合,与近20年前整合Android在很多方面都如出一辙——
Google保持Android和DeepMind日常运营相当程度的独立性,团队保持不变,“番号”继续存在,有独立的办公区域甚至门禁。DeepMindCEO今天的角色,就非常像当年Android的创始人AndyRubin。
保持团队独立性的同时,Google将Android和DeepMind的核心资产,都全方位、无缝地整合进Google庞大的生态体系。Google的软件生态超过一半建立在Android上;而DeepMind带来的物理模型和原生多模态能力,与Google的AI、搜索和浏览器也融在了一起。
更重要的,Android和DeepMind,都成了重塑Google核心竞争力的关键——没有Android,Google就得被苹果按在地上打,错失10年的发展机遇,走向百度的那条路;而没有DeepMind,OpenAI过去两年按着Google打,可能就真把它打趴下了。
其它的并购成功与否不重要,Android并购整合的成功经验在15年之后复刻在DeepMind上,这就足够了。
实现这种史诗性的整合,背后的推手一定是Google的两位联合创始人。
2005年收购Android的关键决策,是Google的联合创始人LarryPage做出的,2008年推动Android操作系统的主要决策人也是他。当时,Google的CEO是EricSchmidt。
2014年收购DeepMind的时候,关键决策者仍是已经回归CEO角色的LarryPage,一年后他把CEO一职交给了曾主导Chrome的高级副总裁SundarPichai。
而据媒体报道,在推动DeepMind与GoogleBrain整合过程中扮演关键角色的,是Google的另一位联合创始人SergeyBrin。
Google联合创始人LarryPage和SergeyBrin
近日,在接受自家的视频播客GoogleforDevelopers视频采访时,DeepMindCTO、GoogleAI首席架构师KorayKavukcuoglu强调:一个过去被低估的事实是,Gemini3不是“模型团队”的胜利,而是工程、产品、模型和安全“第一次从第一天起就被捏在一起”的推进。
它是Google对OpenAI完成反超的结构性基础。
Koray也承认:规模越大,一致性越难,但规模本身就是推进力。在这场艰难的整合中,Google强大但臃肿的“基础设施”被激活了。智能的规模化不是靠天才,而是靠管线——这是Google同时推进统一模型、多产品落地、跨部门协作、全球化数据管线、超大规模训练与部署,以及TPU的集中采用等一系列超级复杂任务的基础。
规模是Google的最大难题,但现在成了最大的武器。你很难想象这背后没有创始人的亲历亲为。
在硅谷的人都知道,SergeyBrin已经常态化出现在MountainView的Building43,亲自写代码;偶尔在一些Gemini主题的开发者活动上出其不意露个脸,跟开发者互动;在播客访谈时,Brin也抱怨过“大公司病”甚至让Gemini不能编程有了充分的理由,以至于他不得不亲自下场打破这些陈规旧俗。
过去的两年,在“创始人模式”下,Google完成了一次彻底的再造,它完成了继Android的再一次公司层面的高强度组合,让Google庞大的技术工程栈不再是负累,反而成了火箭助推器。以及非常重要的,这个过程中,Google的“组织能力”变得前所未有强大了。
创始人SergeyBrin重回一线,CEOSundarPichai协调关键资源,DeepMind的灵魂人物DemisHassabis和新上任的Gemini产品负责人JoshuaWoodward密切协作,Google对Transformer核心作者、Character.ai的联合创始人NoamShazeer的成功反向雇佣收购……
比起Meta近期反向雇佣收购Scale联合创始人AlexandrWang引发的YannLecun离职等一系列鸡飞狗跳的事,以及OpenAI自2023年底开始的持续宫斗和接连不断的离职潮,Google这场整合有多厉害,应该不难体会吧。
如果没有Google20年以来对交互生成方式的迷恋,就没有生成式UI在Gemini3上的精彩表现。
如果不是GoogleBrain和DeepMind在关键时刻捆绑在了一起,就没有Transformer开启的大规模工程技术栈与DeepMind世界模型前沿研究碰撞而成的原生多模态架构。
如果当年Google没有过整合Android的成功经验,DeepMind团队成为Gemini3的灵魂就可能踩到更多的坑,就可能遭遇不可测的人才震荡,面临极高的整合成本……
你大爷之所以是你大爷,是因为它是历史和未来的一部分。