[CV]《Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories》W Jang, S Liu, S Sanyal, J C Perez… [Meta AI] (2026)
在视频生成与相机位姿估计领域,两条流水线长期割裂:位姿估计器(如COLMAP)的失败直接拖垮下游的新视图合成,而稀疏输入恰恰是两者共同的软肋——各自需要对方的输出才能正常工作。
本文的核心洞见是:把相机参数重新看作一种"可以被图像编码器处理的像素"。将每条相机光线的方向与原点叠加为三通道图像(raxels),使相机轨迹与视频帧共享同一个VAE潜空间;由此,单一扩散模型得以同时对视频和相机轨迹去噪,解锁了正向(给定轨迹生成视频)与逆向(从视频恢复轨迹)两种推断路径的联合建模。
这项工作真正留下的遗产是:证明非视觉模态可以通过"伪装成图像"无缝嵌入预训练视觉骨干,无需架构大改。它为后来者打开的新门是:联合分布支持闭环自洽验证,以及将相机感知纳入具身智能感知体系的可行路径。但尚未跨过的门槛是:训练数据局限于静态场景与平滑轨迹,动态物体与急速运动下的泛化能力仍是悬案。
arxiv.org/abs/2604.09429
机器学习 人工智能 论文 AI创造营






