DC娱乐网

京东刚在 GitHub 开源了个大家伙,我看到的时候愣了一下:京东?那个 京东?

京东刚在 GitHub 开源了个大家伙,我看到的时候愣了一下:京东?那个 京东?
下午正在刷 GitHub trending,突然看到一个项目叫 JoyAI-Echo,Stars 一天就冲到了 1000 多。我定睛一看,contributors 列表里明晃晃写着 jd-opensource。京东?那个卖货的京东?他们开源了一个 AI 模型?
本着「来都来了」的精神,我点进去看了一下。这一看不要紧,好家伙,口气是真的大。官方介绍是这么写的:JoyAI-Echo: Pushing the Frontier of Long Audio-Visual Generation——翻译成人话就是:JoyAI-Echo,推动长音频视频生成的前沿。什么叫前沿?前沿就是最厉害的那一批呗。什么叫长音频视频生成?简单说就是,让 AI 根据一段音频就能生成对应的视频,而且时间要长——不是那种 3 秒、5 秒的短视频,是几十秒甚至几分钟的长视频。
这个技术意味着什么?意味着以后做视频,可能真的不需要真人了。你给一段文字,AI 给你生成一段声音;你给一段声音,AI 给你生成一个会说话、会做表情、会眨眼、会点头的人。配上之后,这就是一个完整的视频了——不需要摄像机、不需要演员、不需要剪辑软件,一条龙服务。
以后的短视频账号,可能都是 AI 在做。AI 生成一个虚拟主播,24 小时不间断播新闻、读文章、聊八卦。电商带货也用 AI,主播形象可以是任何人,你想让谁播就让谁播。教育培训也是,AI 老师讲得比真人还流利,还不会累。
从 README 来看,这个模型有几个亮点值得关注:第一,它强调「长」——现在的 AI 视频生成普遍只能做几秒钟,它要做更长。第二,它强调「音频驱动」——用声音来控制视频里人物的动作和表情,这个比纯文字驱动更难,但也更自然。第三,从名字里的 Echo 来看,可能是跟语音合成相关的技术。
实不相瞒,看到这个我心里咯噔一下。现在 AI 圈子的竞争已经激烈到什么程度了?连京东都入场了。而且一来就做最前沿的东西——虽说很多互联网大厂都有开源团队,但京东在 AI 领域的存在感一直不强,冷不丁放出这么一个大招,是要干嘛?
讲道理,现在的 AI 视频赛道,已经卷到没眼看了。OpenAI 有 Sora,Runway 有 Gen-2,Pika 有 Pika 1.0,国内字节、腾讯、阿里也都在做。现在又来了一个京东。只能说,这个赛道的未来一定是美好的,但过程一定是血腥的——不知道要有多少公司、多少项目倒在这条路上。
有懂行的朋友说说,这个 JoyAI-Echo 跟 Sora、Pika 相比,大概是什么水平?评论区蹲一个测评,我也好决定要不要入坑。