[CV]《PhysInOne: Visual Physics Learning

[CV]《PhysInOne: Visual Physics Learning and Reasoning in One Suite》S Zhou, H Wang, H Cheng, J Li… [vLAR Group] (2026)

在视频生成与物理推理领域，AI模型普遍缺乏真正理解物理规律的能力——生成的视频中物体会向上坠落、速度无故突变。根本原因在于：现有训练数据最多仅涵盖数千个样本，且局限于简化场景与单一物理现象，无法为模型提供学习真实物理世界所需的规模与多样性。

本文的核心洞见是：把"物理法则"重新看作可编程的场景生成规范。通过将71种日常物理现象（力学、光学、流体、磁力）系统化地编排为15.38万个多物体、多物理量交互的三维场景，并以13路摄像机同步录制，最终产出200万条带精确标注的动态视频——其规模比此前最大同类数据集高出数个量级。

这项工作真正留下的遗产，是为物理感知世界模型的训练提供了一套工业级基础设施，并用PMF（物理运动保真度）这一新指标替代了无法衡量物理合理性的传统像素级评估。它为后来者打开的新门是：在视频生成、未来帧预测、物理属性估计等任务上建立了可量化的基准起点。但尚未跨过的门槛是：复杂多体动力学建模与内在物理属性的精确估计，现有方法在面对真实复杂场景时仍远未达标。

arxiv.org/abs/2604.09415

机器学习人工智能论文 AI创造营

DC娱乐网

[CV]《PhysInOne: Visual Physics Learning

热门分类