[LG]《Zero-shot World Models Are Developm

[LG]《Zero-shot World Models Are Developmentally Efficient Learners》K L Aw, K Kotar, W Lee, S Kim… [Stanford University] (2026)

在视觉认知领域，如何从一个孩子有限的第一人称经验中涌现出深度感知、物体追踪、直觉物理等多种能力，是一个悬而未决的难题。现有的自监督视觉模型在婴儿级别的数据上训练后，性能远不及在精心策划的大规模数据集上训练的同类模型，且每项下游任务都需要额外的标注训练，使其既不高效也不灵活。

本文的核心洞见是：把"预测下一帧"重新看作一种因果推断的接口。通过让模型在完整可见的第一帧与高度遮蔽的第二帧之间进行预测，模型被迫将外观与运动解耦；之后，对输入做最小扰动并比较输出差异，即可零样本地"套取"出光流、深度、物体分割等视觉量，而无需任何额外标注。这些简单提取可进一步组合，构建出直觉物理等更复杂的推断。

这项工作真正留下的遗产是：证明了正确的归纳结构（而非海量数据）才是视觉认知高效涌现的关键——仅用一名儿童132小时的日常录像，即可在多项基准上媲美有监督专用模型。它为后来者打开的新门是：视觉版"大语言模型式"零样本泛化在远小于语言模型的数据量下即可实现，为机器人、医疗影像等标注稀缺领域提供了新路径。但尚未跨过的门槛是：该框架尚不涉及语义概念的发展，且作为确定性回归模型，在未来不确定时会产生模糊预测，难以支撑长时程规划。

arxiv.org/abs/2604.10333

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《Zero-shot World Models Are Developm

热门分类