京东刚在 GitHub 开源了个大家伙，我看到的时候愣了一下：京东？那个京东？

京东刚在 GitHub 开源了个大家伙，我看到的时候愣了一下：京东？那个京东？
下午正在刷 GitHub trending，突然看到一个项目叫 JoyAI-Echo，Stars 一天就冲到了 1000 多。我定睛一看，contributors 列表里明晃晃写着 jd-opensource。京东？那个卖货的京东？他们开源了一个 AI 模型？
本着「来都来了」的精神，我点进去看了一下。这一看不要紧，好家伙，口气是真的大。官方介绍是这么写的：JoyAI-Echo: Pushing the Frontier of Long Audio-Visual Generation——翻译成人话就是：JoyAI-Echo，推动长音频视频生成的前沿。什么叫前沿？前沿就是最厉害的那一批呗。什么叫长音频视频生成？简单说就是，让 AI 根据一段音频就能生成对应的视频，而且时间要长——不是那种 3 秒、5 秒的短视频，是几十秒甚至几分钟的长视频。
这个技术意味着什么？意味着以后做视频，可能真的不需要真人了。你给一段文字，AI 给你生成一段声音；你给一段声音，AI 给你生成一个会说话、会做表情、会眨眼、会点头的人。配上之后，这就是一个完整的视频了——不需要摄像机、不需要演员、不需要剪辑软件，一条龙服务。
以后的短视频账号，可能都是 AI 在做。AI 生成一个虚拟主播，24 小时不间断播新闻、读文章、聊八卦。电商带货也用 AI，主播形象可以是任何人，你想让谁播就让谁播。教育培训也是，AI 老师讲得比真人还流利，还不会累。
从 README 来看，这个模型有几个亮点值得关注：第一，它强调「长」——现在的 AI 视频生成普遍只能做几秒钟，它要做更长。第二，它强调「音频驱动」——用声音来控制视频里人物的动作和表情，这个比纯文字驱动更难，但也更自然。第三，从名字里的 Echo 来看，可能是跟语音合成相关的技术。
实不相瞒，看到这个我心里咯噔一下。现在 AI 圈子的竞争已经激烈到什么程度了？连京东都入场了。而且一来就做最前沿的东西——虽说很多互联网大厂都有开源团队，但京东在 AI 领域的存在感一直不强，冷不丁放出这么一个大招，是要干嘛？
讲道理，现在的 AI 视频赛道，已经卷到没眼看了。OpenAI 有 Sora，Runway 有 Gen-2，Pika 有 Pika 1.0，国内字节、腾讯、阿里也都在做。现在又来了一个京东。只能说，这个赛道的未来一定是美好的，但过程一定是血腥的——不知道要有多少公司、多少项目倒在这条路上。
有懂行的朋友说说，这个 JoyAI-Echo 跟 Sora、Pika 相比，大概是什么水平？评论区蹲一个测评，我也好决定要不要入坑。

DC娱乐网

京东刚在 GitHub 开源了个大家伙，我看到的时候愣了一下：京东？那个京东？

热门分类

京东刚在 GitHub 开源了个大家伙，我看到的时候愣了一下：京东？那个 京东？

热门分类

京东刚在 GitHub 开源了个大家伙，我看到的时候愣了一下：京东？那个京东？