阿里发布肖像视频生成框架EMO

学学看科技 2024-03-01 22:08:53

来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架 EMO(Emote Portrait Alive),相关论文同步发表于 arXiv。

输入一张参考图像和声音音频,该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。

EMO 的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

这个过程相当于,AI 先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。

EMO 的技术报告中称:实验结果表明,EMO 不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,显著优于现有的先进方法,如 DreamTalk、Wav2Lip 和 SadTalker,无论是在表现力还是真实感方面。

目前,研究团队认为该模型的潜在应用方向将集中在:提高数字媒体和虚拟内容生成技术水平,特别是在需要高度真实感和表现力的场景中。

然而在另一些人看来,EMO 模型却很可能成为别有用心的人手中的犯罪工具。

0 阅读:0

学学看科技

简介:感谢大家的关注