[CV]《Rays as Pixels: Learning A Joint Di

[CV]《Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories》W Jang, S Liu, S Sanyal, J C Perez… [Meta AI] (2026)

在视频生成与相机位姿估计领域，两条流水线长期割裂：位姿估计器（如COLMAP）的失败直接拖垮下游的新视图合成，而稀疏输入恰恰是两者共同的软肋——各自需要对方的输出才能正常工作。

本文的核心洞见是：把相机参数重新看作一种"可以被图像编码器处理的像素"。将每条相机光线的方向与原点叠加为三通道图像（raxels），使相机轨迹与视频帧共享同一个VAE潜空间；由此，单一扩散模型得以同时对视频和相机轨迹去噪，解锁了正向（给定轨迹生成视频）与逆向（从视频恢复轨迹）两种推断路径的联合建模。

这项工作真正留下的遗产是：证明非视觉模态可以通过"伪装成图像"无缝嵌入预训练视觉骨干，无需架构大改。它为后来者打开的新门是：联合分布支持闭环自洽验证，以及将相机感知纳入具身智能感知体系的可行路径。但尚未跨过的门槛是：训练数据局限于静态场景与平滑轨迹，动态物体与急速运动下的泛化能力仍是悬案。

arxiv.org/abs/2604.09429

机器学习人工智能论文 AI创造营

DC娱乐网

[CV]《Rays as Pixels: Learning A Joint Di

热门分类