阿里HappyHorse-1.0视频模型宣布开源一匹黑马悄悄杀进AI视频赛道，

阿里HappyHorse-1.0视频模型宣布开源
一匹黑马悄悄杀进AI视频赛道，连名字都没打，直接登顶全球榜首！
这就是HappyHorse-1.0干的事。
在第三方AI评测平台Artificial Analysis的视频竞技场排行榜上，这个当时连厂商都没标注的匿名模型，以1333的Elo分数空降第一，把字节跳动的Seedance 2.0、快手的可灵AI、谷歌的Veo 3 Fast全部踩在脚下。
今天，它宣布开源了。
背后的团队，是前快手副总裁张迪带队，原属淘天集团未来生活实验室，现已独立归属于阿里ATH事业群的AI创新事业部。
阿里也在今天正式"认领"了它。
说说这个模型到底牛在哪里，我帮你拆开来看。
【核心亮点：视频和音频一次性生成】
传统开源视频模型的路子是：先出画面，再找别的模型配音，再做口型对齐，三道工序叠下来，误差也跟着叠。
HappyHorse-1.0直接把这条流水线拍碎了。
它用一个统一的Transformer同时处理视频和音频，一次推理直接输出带声音的成片，口型、脚步声、环境音全在同一个过程里生成，没有任何后期拼接的痕迹。
【架构设计：极简但精妙】
参数量150亿，40层纯自注意力Transformer，采用"三明治"布局：头尾各4层负责各自模态的输入输出，中间32层所有模态共享参数，跨模态推理就发生在这32层里。
文本、图像、视频、音频的token全部拼成同一个序列，让模型在去噪过程中自己学会跨模态对齐。
每个注意力头还配了一个可学习的标量门控，专门用来稳定音频损失和视频损失同时反传时容易"打架"的梯度问题。
【速度：单张H100，38秒出1080p】
用了DMD-2蒸馏技术，去噪步数从通常的25到50步压缩到8步，去掉无分类器引导后计算量直接砍近一半，再加上MagiCompiler全图编译带来约1.2倍额外加速，最终在单张H100上生成一段1080p视频只需约38秒，256p预览版2秒左右就能出来。
【多语言口型同步：7种语言原生支持】
英语、普通话、粤语、日语、韩语、德语、法语，这七种语言的口型和语音时序是和视频联合训练出来的，不是事后贴上去的效果。
目前HappyHorse-1.0已正式开源，支持文本生成和图片生成两种方式体验视频生成。
API接口预计4月30日上线，官方表示后续还有更多产品陆续推出。
顺带提醒一下，随着热度上涨，网上已经出现了多个假冒"官网"，阿里方面已明确表示：HappyHorse目前没有网站，请认准官方微博和X平台的认领声明，别被钓鱼了。

DC娱乐网

阿里HappyHorse-1.0视频模型宣布开源一匹黑马悄悄杀进AI视频赛道，

评论列表

热门分类

阿里HappyHorse-1.0视频模型宣布开源 一匹黑马悄悄杀进AI视频赛道，

评论列表

热门分类

阿里HappyHorse-1.0视频模型宣布开源一匹黑马悄悄杀进AI视频赛道，