每次Google开发布会,都会有一堆新东西。
新模型、新功能、新名字,一个接一个。看完发布会,你记住了几个关键词,回头想想,好像也没什么特别不一样的地方。
但这次,有点不一样。
2026年5月19日,Google I/O发布会结束后,科技圈讨论最多的就是Google这次到底在做什么?

这一天,Google同时发布了两个模型。一个叫Gemini Omni,一个叫Gemini 3.5 Flash。名字听起来像兄弟,但它们解决的是两个完全不同的问题。搞清楚这两个问题,你才能看懂Google这盘棋。
先说Gemini Omni。
它的核心卖点,官方叫"任意输入→任意输出"。听起来很抽象,用大白话翻译一下:
你可以给它一张图,让它生成一段视频。你可以给它一段音频,让它写出一篇文章。你可以给它文字+图片+视频混在一起,让它理解后输出任何你要的东西。
这不是现在的AI就能做到的吗?其实差很远。
以前的AI,处理不同类型的内容,靠的是把好几个专门的模型拼在一起——处理图片的归处理图片,处理语音的归处理语音,最后再拼凑输出。
Gemini Omni不一样。它是一个模型,原生理解所有模态。能同时"看得见、听得到、读得懂"。
再说Gemini 3.5 Flash。
如果说Gemini Omni解决的是"AI能理解什么",那3.5 Flash解决的是另一个问题:
AI能执行什么。
以前的AI,基本逻辑是这样的:你问,它答。你让它帮你规划一个旅行,它给你列一个清单。然后呢?然后你自己去订机票、订酒店、查攻略。它给了你答案,但事情还是你来做。
Gemini 3.5 Flash想做的,是跳过"你自己来做"这一步。
你说"帮我订下周去上海的机票,找个离外滩近的酒店,顺便查一下周末天气"——它不只是给你一个清单,而是自己去查、自己去比价、自己把结果整理好,甚至直接帮你完成预订。
Google官方给它的定位,叫"前沿智能+自主行动"。
它内置了两种思考模式。遇到复杂问题,它会深度推理;遇到需要连续执行的任务,它会切换成"行动模式",一步一步把事情做完。

现在把两件事放在一起看。
Gemini Omni:能理解和生成任何形式的内容。Gemini 3.5 Flash:能自己思考、自己执行、自己把任务做完。
一个负责"感知世界",一个负责"在世界里行动"。
发现没有,这两件事放在一起,感觉突然不一样了。
如果一个AI既能理解你给它的任何内容,又能自主把你要的事情从头做到尾,它就不再只是一个"工具"了。
它更像一个能干的同事。
你把需求丢给它,它自己理解、自己规划、自己执行,遇到问题自己解决,最后把结果交给你。
Google真正在做的,是把Omni的感知能力和3.5 Flash的行动能力,嵌进它所有的产品里。
这不是在做一个更聪明的聊天窗口。
这是在搭一套能自己运转的AI基础设施。
但这里有一个问题,值得认真想一想。
AI越来越能干,是好事。
但仅此而已吗?
以前你用AI,是你在主导,你提问,它回答,你决定要不要用这个答案。主动权在你手里。但当AI开始自己执行任务、自己做决定。
你从"使用者",慢慢变成了"审核者"。
区别在哪?使用者是主动的,审核者是被动的。你不再是发出指令的那个人,你变成了检查结果的那个人。听起来更轻松了,但你对整个过程的掌控却少了。
这不是说AI自主行动是坏事。它当然能帮我们省掉大量重复的、机械的、耗时间的工作。但有一件事需要想清楚:你愿意让AI替你做决定吗?
而且随着AI越来越能干,这条线会不断被往后推。今天它帮你订机票,明天它帮你规划职业路径,后天它帮你决定哪条新闻值得看。
每一步,都是你主动权的一次转让。
你觉得AI自己干活这件事,是解放还是失控?