阿里HappyHorse-1.0视频模型宣布开源
一匹黑马悄悄杀进AI视频赛道,连名字都没打,直接登顶全球榜首!
这就是HappyHorse-1.0干的事。
在第三方AI评测平台Artificial Analysis的视频竞技场排行榜上,这个当时连厂商都没标注的匿名模型,以1333的Elo分数空降第一,把字节跳动的Seedance 2.0、快手的可灵AI、谷歌的Veo 3 Fast全部踩在脚下。
今天,它宣布开源了。
背后的团队,是前快手副总裁张迪带队,原属淘天集团未来生活实验室,现已独立归属于阿里ATH事业群的AI创新事业部。
阿里也在今天正式"认领"了它。
说说这个模型到底牛在哪里,我帮你拆开来看。
【核心亮点:视频和音频一次性生成】
传统开源视频模型的路子是:先出画面,再找别的模型配音,再做口型对齐,三道工序叠下来,误差也跟着叠。
HappyHorse-1.0直接把这条流水线拍碎了。
它用一个统一的Transformer同时处理视频和音频,一次推理直接输出带声音的成片,口型、脚步声、环境音全在同一个过程里生成,没有任何后期拼接的痕迹。
【架构设计:极简但精妙】
参数量150亿,40层纯自注意力Transformer,采用"三明治"布局:头尾各4层负责各自模态的输入输出,中间32层所有模态共享参数,跨模态推理就发生在这32层里。
文本、图像、视频、音频的token全部拼成同一个序列,让模型在去噪过程中自己学会跨模态对齐。
每个注意力头还配了一个可学习的标量门控,专门用来稳定音频损失和视频损失同时反传时容易"打架"的梯度问题。
【速度:单张H100,38秒出1080p】
用了DMD-2蒸馏技术,去噪步数从通常的25到50步压缩到8步,去掉无分类器引导后计算量直接砍近一半,再加上MagiCompiler全图编译带来约1.2倍额外加速,最终在单张H100上生成一段1080p视频只需约38秒,256p预览版2秒左右就能出来。
【多语言口型同步:7种语言原生支持】
英语、普通话、粤语、日语、韩语、德语、法语,这七种语言的口型和语音时序是和视频联合训练出来的,不是事后贴上去的效果。
目前HappyHorse-1.0已正式开源,支持文本生成和图片生成两种方式体验视频生成。
API接口预计4月30日上线,官方表示后续还有更多产品陆续推出。
顺带提醒一下,随着热度上涨,网上已经出现了多个假冒"官网",阿里方面已明确表示:HappyHorse目前没有网站,请认准官方微博和X平台的认领声明,别被钓鱼了。



