
最近几天,科技圈里最热闹的一件事,莫过于李飞飞团队发布了一个叫 RTFM 的新模型。
名字听起来有点技术宅,全称是 Real-Time Frame Model,中文可以叫“实时帧模型”。
但真正让人关注的不是名字,而是它能做到的事:
用一块 H100 GPU,目前市面上最主流的高端 AI 芯片之一,就能实时生成一个看起来“真实存在”的 3D 世界,并且这个世界还能“记住”你去过哪里、看过什么,不会因为你转个身就消失。
听起来有点玄?其实没那么复杂。
我们可以打个比方:以前你用手机拍一张照片,照片就是一张平面图,你只能从一个角度去看。
现在,RTFM 能根据这张照片,自动“脑补”出这个场景的前后左右、上下高低,甚至光影变化,让你像走进一个真实房间一样自由走动。
而且,你今天进去逛一圈,明天再进去,房间里的东西还在原来的位置,不会变,这就是所谓的“持久性”。
这背后,其实是一整套对“空间智能”的重新理解。
过去几年,AI 的主流是大语言模型,比如 ChatGPT、文心一言、通义千问,它们擅长处理文字、回答问题、写文章。
但人类生活在三维世界里,光会说话远远不够。机器人要走路、自动驾驶要识别道路、AR 眼镜要叠加虚拟信息到真实环境,这些都需要 AI 能“看懂”空间:
不只是识别物体,还要理解物体之间的位置关系、光影变化、物理规律,甚至预测接下来会发生什么。
李飞飞团队做的,就是让 AI 在这个方向上往前迈了一步。
关键在于,他们没走传统图形学的老路。
几十年来,计算机生成 3D 场景靠的是“显式建模”,比如用三角形网格、点云、材质贴图等一堆人工设计的数据结构,一点点拼出一个虚拟世界。
这种方法很精确,但也很笨重,需要大量人力和算力,而且很难泛化。
换个场景,就得重新建模。
RTFM 完全绕开了这条路。
它不显式构建 3D 模型,而是直接从大量视频中学习:
给你一帧画面,它能预测下一帧应该长什么样;
给你一个角度的照片,它能生成另一个角度的视图。
整个过程就像一个“会学习的渲染器”,通过观察海量真实世界的视频,自己摸索出光影、遮挡、反射、透视这些规律。
更厉害的是,它把“世界”存在了神经网络的激活状态里,技术上叫 KV cache,而不是存在硬盘或内存里。
这意味着,只要键型还在运行,这个世界就一直“活着”,不会因为切换视角就崩掉。
用户可以无限时间地探索,系统会记住你走过的每一步。
当然,这还不是完美的“数字孪生”。
目前 RTFM 生成的场景更多是“合理”而非“精确”,适合游戏、虚拟社交、内容创作等对物理精度要求不那么高的场景。
但它的意义在于:
第一次在单卡 GPU 上实现了“可交互、持久、3D 一致”的世界生成,把原本需要超级计算机才能跑的东西,拉到了普通开发者也能尝试的门槛。
这背后,其实是对算力效率的极致追求。
要知道,如果按传统思路生成一段 4K、60 帧的交互视频,每秒可能要处理超过 10 万个 token,相当于每秒“写”完一本《哈利·波特》。
一小时下来,上下文长度轻松破亿。
这在今天既不现实,也不经济。
李飞飞团队显然清楚这一点,所以他们从一开始就设定了一个目标:
不做“未来才用得起”的技术,而是做“今天就能跑起来”的原型。
他们优化了整个推理链路,从模型架构到蒸馏策略,再到缓存调度,每一环都抠细节。
最终,一块 H100 就能支撑交互级帧率。
这不是靠堆资源,而是靠聪明的设计。
这种思路,其实和李飞飞一贯的风格一致。
当年她推动 ImageNet,不是靠砸钱,而是靠构建一个清晰、可比、开放的数据集,让全世界的研究者能在同一个起跑线上竞争。
现在她做 World Labs,也在试图定义一个新的基准,不是比谁的 GPU 多,而是比谁更能理解空间、时间与物理。
有意思的是,World Labs 成立才半年多,已经拿到了 2.3 亿美元融资,投资人包括 a16z、英伟达风投、AMD、Adobe 等一众巨头。
这说明,大家看到的不只是一个技术 demo,而是一个可能成为下一代 AI 基础设施的方向。
目前,RTFM 的 demo 已经开放体验,任何人都能进去试试。
你上传一张照片,它就能生成一个可漫游的 3D 空间。
虽然细节还有瑕疵,比如某些角落会模糊、物体边缘偶尔错位,但整体体验已经足够让人惊讶,尤其是考虑到它只用了一块 GPU。
那么,这东西能用来做什么?
最直接的应用是内容创作。
想象一下,设计师不用再花几周时间建模,只要拍几张产品照片,AI 就能生成一个可交互的展示空间;
游戏开发者可以用它快速搭建关卡原型;
教育领域可以让学生“走进”古罗马广场或细胞内部;
房地产中介能用手机拍一套房,立刻生成 VR 看房体验。
再往远一点看,它可能是具身智能(embodied AI)的关键拼图。
所谓具身智能,就是让 AI 不只是“思考”,而是“行动”,比如机器人要在家里拿杯子,它得知道杯子在哪、桌子多高、手该怎么伸。
这些都需要对三维空间有深刻理解。
RTFM 这类模型,未来可以作为机器人的“空间大脑”,帮它构建对环境的内部表征。
李飞飞本人也提到,World Labs 的下一步是支持 AR,再之后是机器人和自动驾驶。
这其实是一条清晰的技术演进路径:
先让 AI 看懂静态空间,再理解动态变化,最后能与物理世界互动。
当然,现在还早。
RTFM 距离真正落地到工厂、汽车或家庭机器人,还有很长的路要走。
但它提供了一个重要的信号:
AI 正在从“语言智能”向“空间智能”扩展。未来的人工智能,不仅要会聊天,还要会“看”、会“走”、会“操作”。
这背后,也反映出整个 AI 行业的一个趋势:
从追求参数规模,转向追求任务效率。
过去几年,大家比谁的模型大、谁的训练数据多。
但现在,越来越多团队开始思考:
能不能用更小的模型、更少的算力,解决更具体的问题?
李飞飞团队的另一个项目 S1 模型,只有 321 个参数在数学竞赛中表现惊艳,也印证了这一点:
高质量数据 + 聪明训练方法,有时候比蛮力更有效。
回到 RTFM,它的真正价值或许不在于技术本身有多“先进”,而在于它重新定义了“世界模型”的可行性边界。
以前大家觉得,要构建一个持久、可交互的 3D 世界,必须依赖昂贵的图形引擎和海量算力。
现在,一个创业公司用一块 GPU 就做到了初步验证。
这就像当年智能手机刚出现时,没人相信它能取代相机、GPS、MP3。
但一旦体验过“随时随地拍照分享”的便利,人们就再也回不去了。
RTFM 可能就是那个“第一步”,它不一定完美,但它让很多人第一次意识到:
原来 AI 也可以这样理解世界。
最后说点现实的。
目前 RTFM 还处于早期阶段,主要面向开发者和研究者。
普通用户能做的,就是去 demo 网站试试,感受一下这种“从 2D 到 3D”的跨越。
而对行业来说,更大的机会在于如何把这种能力嵌入到现有工作流中。
比如,和 3D 扫描结合,提升重建效率;
和游戏引擎对接,降低开发门槛;
或者作为机器人感知模块的前端,提供轻量级空间理解。
李飞飞曾在一次演讲中说:
“我们正处在一个文明性的转折时刻:
语言、空间、视觉、具身智能等多种 AI 技术正在融合。”
这句话听起来有点宏大,但如果你亲自试过 RTFM,就会觉得它没那么遥远。
技术的进步,往往不是突然炸裂,而是一点一点渗透进我们的工具、工作和生活。
这一次,李飞飞团队没有喊口号,也没有画大饼,而是默默拿出一个能跑起来的东西。
这或许才是最值得期待的地方,不是预言未来,而是把未来的一部分,提前摆在了我们面前。
如果你对 AI、3D 内容、虚拟空间感兴趣,不妨去试试 RTFM 的 demo。
不需要专业知识,只要一部手机或一台电脑,就能走进一个由 AI 生成的“永不消失的世界”。
也许,这就是下一代人机交互的起点。
评论列表