就在2026年1月初,上海交通大学陈俊逸、何通等研究者联手快手Kling团队和南洋理工大学,推出了一项重磅AI技术——VINO。这东西直接把图像生成、视频制作、图片改图、视频剪辑这些原本需要好几个工具才能干的事,全塞进一个模型里搞定! 以前大家做视觉内容,总是东拼西凑:这个工具只管文字出图,那个专攻视频生成,还有的只负责编辑。结果风格对不上、来回切换超级麻烦,参考图和描述一多就容易乱套。VINO彻底改了玩法,它用一个统一的扩散框架,同时吃得下文字、图片、视频这些不同输入,像人脑一样把它们混在一起理解,然后一口气输出想要的图像或视频。 最牛的地方在于,它不光能从零开始生成,还特别擅长根据已有素材做精准修改。比如你给它几张参考照加一段话,它就能保持人物长相、物体特征不变,顺畅做出动态视频。测试数据亮眼:在参考驱动生成上,身份一致性比很多商业工具还强;编辑任务里,哪怕训练步数很少,也轻松超过专攻编辑的老模型;视频编辑连贯性、指令听从度都拿到用户更喜欢的评价。 这个突破的核心思路是:与其做一堆专精小能手,不如养一个啥都会的全才。团队用三步渐进训练,从视频基础模型出发,先对齐理解和生成,再扩展各种指令风格,最后全面融合多任务。加上学习型查询令牌、分隔标记这些巧妙设计,避免信息混淆,确保多参考输入时各司其职。 VINO证明了统一模型不只可行,还能让不同能力互相加成,未来内容创作很可能不再需要切来切去多个软件,一个工具走天下成为现实。普通创作者很快就能享受到这种方便,真正把脑洞直接变现!
