阿里发布肖像视频生成框架EMO

来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架 EMO（Emote Portrait Alive），相关论文同步发表于 arXiv。

输入一张参考图像和声音音频，该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。

EMO 的工作过程分为两个主要阶段：首先，利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征；然后，利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。

这个过程相当于，AI 先看一下照片，然后打开声音，再随着声音一张一张地画出视频中每一帧变化的图像。

EMO 的技术报告中称：实验结果表明，EMO 不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，显著优于现有的先进方法，如 DreamTalk、Wav2Lip 和 SadTalker，无论是在表现力还是真实感方面。

目前，研究团队认为该模型的潜在应用方向将集中在：提高数字媒体和虚拟内容生成技术水平，特别是在需要高度真实感和表现力的场景中。

然而在另一些人看来，EMO 模型却很可能成为别有用心的人手中的犯罪工具。

DC生肖网