DC娱乐网

Google Omni到底有多"全能","任意输入→任意输出"是什么意思?

每次Google开发布会,都会有一堆新东西。新模型、新功能、新名字,一个接一个。看完发布会,你记住了几个关键词,回头想想

每次Google开发布会,都会有一堆新东西。

新模型、新功能、新名字,一个接一个。看完发布会,你记住了几个关键词,回头想想,好像也没什么特别不一样的地方。

但这次,有点不一样。

2026年5月19日,Google I/O发布会结束后,科技圈讨论最多的就是Google这次到底在做什么?

这一天,Google同时发布了两个模型。一个叫Gemini Omni,一个叫Gemini 3.5 Flash。名字听起来像兄弟,但它们解决的是两个完全不同的问题。搞清楚这两个问题,你才能看懂Google这盘棋。

先说Gemini Omni。

它的核心卖点,官方叫"任意输入→任意输出"。听起来很抽象,用大白话翻译一下:

你可以给它一张图,让它生成一段视频。你可以给它一段音频,让它写出一篇文章。你可以给它文字+图片+视频混在一起,让它理解后输出任何你要的东西。

这不是现在的AI就能做到的吗?其实差很远。

以前的AI,处理不同类型的内容,靠的是把好几个专门的模型拼在一起——处理图片的归处理图片,处理语音的归处理语音,最后再拼凑输出。

Gemini Omni不一样。它是一个模型,原生理解所有模态。能同时"看得见、听得到、读得懂"。

再说Gemini 3.5 Flash。

如果说Gemini Omni解决的是"AI能理解什么",那3.5 Flash解决的是另一个问题:

AI能执行什么。

以前的AI,基本逻辑是这样的:你问,它答。你让它帮你规划一个旅行,它给你列一个清单。然后呢?然后你自己去订机票、订酒店、查攻略。它给了你答案,但事情还是你来做。

Gemini 3.5 Flash想做的,是跳过"你自己来做"这一步。

你说"帮我订下周去上海的机票,找个离外滩近的酒店,顺便查一下周末天气"——它不只是给你一个清单,而是自己去查、自己去比价、自己把结果整理好,甚至直接帮你完成预订。

Google官方给它的定位,叫"前沿智能+自主行动"。

它内置了两种思考模式。遇到复杂问题,它会深度推理;遇到需要连续执行的任务,它会切换成"行动模式",一步一步把事情做完。

现在把两件事放在一起看。

Gemini Omni:能理解和生成任何形式的内容。Gemini 3.5 Flash:能自己思考、自己执行、自己把任务做完。

一个负责"感知世界",一个负责"在世界里行动"。

发现没有,这两件事放在一起,感觉突然不一样了。

如果一个AI既能理解你给它的任何内容,又能自主把你要的事情从头做到尾,它就不再只是一个"工具"了。

它更像一个能干的同事。

你把需求丢给它,它自己理解、自己规划、自己执行,遇到问题自己解决,最后把结果交给你。

Google真正在做的,是把Omni的感知能力和3.5 Flash的行动能力,嵌进它所有的产品里。

这不是在做一个更聪明的聊天窗口。

这是在搭一套能自己运转的AI基础设施。

但这里有一个问题,值得认真想一想。

AI越来越能干,是好事。

但仅此而已吗?

以前你用AI,是你在主导,你提问,它回答,你决定要不要用这个答案。主动权在你手里。但当AI开始自己执行任务、自己做决定。

你从"使用者",慢慢变成了"审核者"。

区别在哪?使用者是主动的,审核者是被动的。你不再是发出指令的那个人,你变成了检查结果的那个人。听起来更轻松了,但你对整个过程的掌控却少了。

这不是说AI自主行动是坏事。它当然能帮我们省掉大量重复的、机械的、耗时间的工作。但有一件事需要想清楚:你愿意让AI替你做决定吗?

而且随着AI越来越能干,这条线会不断被往后推。今天它帮你订机票,明天它帮你规划职业路径,后天它帮你决定哪条新闻值得看。

每一步,都是你主动权的一次转让。

你觉得AI自己干活这件事,是解放还是失控?