就在2026年1月初，上海交通大学陈俊逸、何通等研究者联手快手Kling团队和南

就在2026年1月初，上海交通大学陈俊逸、何通等研究者联手快手Kling团队和南洋理工大学，推出了一项重磅AI技术——VINO。这东西直接把图像生成、视频制作、图片改图、视频剪辑这些原本需要好几个工具才能干的事，全塞进一个模型里搞定！

以前大家做视觉内容，总是东拼西凑：这个工具只管文字出图，那个专攻视频生成，还有的只负责编辑。结果风格对不上、来回切换超级麻烦，参考图和描述一多就容易乱套。VINO彻底改了玩法，它用一个统一的扩散框架，同时吃得下文字、图片、视频这些不同输入，像人脑一样把它们混在一起理解，然后一口气输出想要的图像或视频。
最牛的地方在于，它不光能从零开始生成，还特别擅长根据已有素材做精准修改。比如你给它几张参考照加一段话，它就能保持人物长相、物体特征不变，顺畅做出动态视频。测试数据亮眼：在参考驱动生成上，身份一致性比很多商业工具还强；编辑任务里，哪怕训练步数很少，也轻松超过专攻编辑的老模型；视频编辑连贯性、指令听从度都拿到用户更喜欢的评价。
这个突破的核心思路是：与其做一堆专精小能手，不如养一个啥都会的全才。团队用三步渐进训练，从视频基础模型出发，先对齐理解和生成，再扩展各种指令风格，最后全面融合多任务。加上学习型查询令牌、分隔标记这些巧妙设计，避免信息混淆，确保多参考输入时各司其职。
VINO证明了统一模型不只可行，还能让不同能力互相加成，未来内容创作很可能不再需要切来切去多个软件，一个工具走天下成为现实。普通创作者很快就能享受到这种方便，真正把脑洞直接变现！

DC娱乐网

就在2026年1月初，上海交通大学陈俊逸、何通等研究者联手快手Kling团队和南

热门分类