又一个类Sora文生视频开源了,全华人团队出品

开心盖土 2024-04-03 05:21:00

前几天才报道了Open-Sora,一个类Sora的开源文生视频,这不到一个星期,一个全华人团队就发布了他们复刻Sora的文生视频方案的论文。

Mora's demo

这个叫Mora的复刻Sora方案由来自理海大学的微软研究院和AIR实验室的华人团队发布。读完其21页论文,发现这个Mora是一个利用现有模型和技术,采用多智能体multi-agent协作复刻Sora的工作方案,并没有什么开创性的发明。从其视频1024*576的分辨率来看,核心视频模型还是SVD。

Mora's demo

btw:理海大学Lehigh University,又称利哈伊大学,很多人没听过,其实它是美国一所以工程科学著称的小型私立大学。清末中国留美幼童中第一批的黄仲良、王凤喈以及陈荣贵就进入理海大学学习土木工程和采矿。黄仲良后参与中国早期铁道工作。陈荣贵在开平矿务局工作,王凤喈成为外交官。清政府庚子赔款的留美学生中,著名化学家王琎、电工专家、教授易鼎新、中国工矿业先驱周抡元和张景芬都先后就读于该校。理海大学的自主与智能机器人(AIR)实验室研究涵盖机器人控制、机器学习、操纵、空中机器人、自动驾驶等。

Mora 使用多智能体框架,将视频生成分解成多个子任务,每个子任务由一个专门的智能体负责。这种模块化设计使得 Mora 能够灵活地完成各种视频生成任务。Mora 中定义了五种基本角色的智能体:

1.提示词选择和生成智能体:使用 GPT-4 和 Llama 等大型语言模型来生成和选择高质量的提示词。负责处理和优化用户提供的文本提示,以提高生成图像的相关性和质量。

2.文本到图像生成智能体:使用 Stable Diffusion XL 等文本到图像模型来生成初始图像。负责将文本描述转换为高质量的初始图像。

3.图像到图像生成智能体:使用 InstructPix2Pix 等图像到图像模型来编辑图像。负责根据文本指令修改给定的源图像。

4.图像到视频生成智能体:使用 Stable Video Diffusion 等图像到视频模型来生成视频。负责将静态图像转换为动态视频序列。

5.视频连接智能体:使用 SEINE 等视频到视频模型来连接视频。负责将两个视频片段无缝连接起来。

Mora方案架构

Mora通过多智能体框架基本实现了Sora的几个功能:文本到视频生成,文本条件图像到视频生成,扩展生成的视频,视频到视频编辑,连接视频,模拟数字世界。

大部分功能完成质量跟Sora比较接近,就是视频链接完全翻车没法看。下面看看官方Demo:

文本到视频生成

A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

文本条件图像到视频生成

原图

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

Mora

Sora

原图

An image of a realistic cloud that spells “SORA”.

Mora

Sora

扩展生成的视频

Mora

Sora

视频到视频编辑

原视频

Change the setting to the 1920s with an old school car. make sure to keep the red color.

Mora

Sora

Put the video in space with a rainbow road

Mora

Sora

连接视频

Mora

Sora

模拟数字世界

Mora

Sora

评估结果:

在文本到视频生成任务中,Mora 的性能优于现有的开源模型,仅次于 Sora。在其他任务中,Mora 也取得了具有竞争力的结果,突显了该框架的多功能性和通用能力。

局限性:

与 Sora 相比,Mora 在视频生成质量和能力方面存在差距,尤其是在涉及大量物体运动的场景中。Mora 在生成超过 12 秒的视频时,质量会明显下降。Mora 在解释和渲染提示词描述的运动动态方面存在困难。Mora 的实验结果可能并不总是与人类的视觉偏好一致。

总之,Mora 是一个创新的通用视频生成框架,在视频生成领域取得了显著的进步。 尽管与Sora相比存在一些差距,但 Mora的开源性质和模块化设计使其成为一个强大的工具,可以推动AI视频生成领域的进一步发展。

参考链接:

https://github.com/lichao-sun/mora

https://arxiv.org/abs/2403.13248

https://wordpress.lehigh.edu/robotics/

0 阅读:0

开心盖土

简介:感谢大家的关注