让照片唱歌说话的腾讯开源项目AniPortrait，拼得过阿里的EMO吗？

这里所有文章均来自

微信公众号“火星AIGC”

想要看到更多更新的AI前沿信息、AI资讯和AI工具实操，请关注微信公众号“火星AIGC”。

腾讯“知己”游戏工作室前不久开源的 AniPortrait 项目，能让照片对准嘴型说话唱歌，正是对标阿里的 EMO 项目。早就想写一下这个项目和分享一下玩法，一直耽搁着。这两天好好玩了一下，一是踩一下坑，二是想看看究竟能不能拼过阿里的 EMO。

AniPortrait 是音频驱动的真实肖像动画合成。它是一种新的框架，用于生成由音频和参考肖像图像驱动的视频，还可以提供视频来实现人脸重演。这是官方的三种生成方式的演示效果：

自驱动

脸部重演

音频驱动

AniPortrait 框架由两个模块组成，即 Audio2Lmk 和 Lmk2Video。前者是从音频输入中捕捉复杂的面部表情和嘴唇运动，提取三维面部网格和头部姿态，然后将这两个元素投影到二维关键点中。后者利用这个地标序列生成具有时间性稳定一致的高质量的肖像视频。技术图示如下：

项目地址：github.com/zejun-yang/aniportrait

试玩地址：huggingface.co/spaces/ZJYang/AniPortrait_official

论文地址：arxiv.org/abs/2403.17694

阿里的 EMO 同样是让照片说话唱歌，它的效果非常好，但是目前只能在通义千问的APP上玩，而且只能生成限定的音频，这就限制了可玩度。

AniPortrait 可以部署在本地电脑上随意生成，但是特别说明一下的是本地部署需要N卡，最好是16系列以上的，毕竟视频生成非常耗资源，这两天玩的时候，我的显卡不时的嗷嗷叫。

目前有三种方法玩 AniPortrait ，一是抱抱脸上，前面已经列出了地址，只是有时长限制。二是下载模型用 Comfyui 工作流玩，这种可控性最高，玩法更多，但是各种模型、节点下载和配置非常麻烦，不熟悉 Comfyui 的朋友上手较难。我用的最后一种方法，就是用B站大神的一键运行包，下载下来点开就可以玩了，文后附下载地址。

跟官方一样的三种生成方式，视频驱动、面部表情驱动和音频驱动。看一下我用EMO生成的视频跟 AniPortrait 生成结果进行对比。

效果怎么说呢，很接近 Emo 了。我估计Emo每个驱动的音频都是进行调教过的，所以效果才那么惊艳。

最后说一下这个一键运行包操作方法需要注意的事。再说一下这个需要N卡，有小伙伴在网上问我的7900为什么运行报错。下载后解压文件夹不能是中文名。参考图片是JPG格式，PNG格式会报错，这个坑是我踩过后才发现的，找遍网上都没人说。视频高宽默认512X512，最好不要改，其他分辨率生成效果不好，不信邪的可以多尝试一下。生成视频最大帧数需要看你的参考视频的帧率，乘以需要生成时长，就是生成帧数。EMO 生成视频的帧率是15帧，我要生成10秒的视频，生成视频的帧数就是150。

祝大家玩得愉快。公众号私信发送“aniportrait”回复下载地址。

DC生肖网

让照片唱歌说话的腾讯开源项目AniPortrait，拼得过阿里的EMO吗？

开心盖土