谷歌今日正式推出了 Gemini Omni 系列模型,首款模型 Gemini Omni Flash 同步上线,定位谷歌首个原生全模态统一生成模型。该模型核心理念为『任意输入生成任意输出』,告别此前理解与生成分离架构,首次实现理解+生成一体化,主打持续世界建模能力。它支持文本、图片、音频、视频多模态输入,可直接输出音画同步的完整视频,还能稳定保持角色、场景与物理逻辑一致,大幅减少人脸漂移、场景错乱等行业通病。Gemini Omni Flash 最大亮点是对话式视频编辑,用户用自然语言即可一键修改视频,比如更换角色服装、调整天气、推进镜头、替换背景,模型在原素材上迭代优化,无需重新生成。同时支持视频重混、多轮连续修改、场景记忆等功能,创作更高效灵活。目前 Gemini Omni Flash 已在 Gemini、Google Flow、YouTube Shorts 上线可用,后续将开放 API。


