入职第三年，团队连斩CVPR三奖：南加州王越的PSI Lab做对了什么？

机器之心发布

在南加州大学，王越的 PSI Lab（Physical Superintelligence Lab）是过去两三年里具身智能方向上升最快的年轻团队之一。

王越 2022 年从 MIT EECS 博士毕业，毕业前曾在 NVIDIA 自动驾驶研究组做研究科学家；2023 年入职 USC 计算机系任助理教授，并随即创办 PSI Lab。读博期间，他曾获得 2020 年 NVIDIA Graduate Fellowship；任教之后，又陆续获得 Toyota Young Faculty Researcher、Powell Faculty Fellowship 等荣誉。

他的早期代表作包括点云理解经典工作 DGCNN、DCP，以及自动驾驶 3D 感知方法 DETR3D。其中，DGCNN 是点云深度学习里绕不开的一篇论文，也长期位列 ACM Transactions on Graphics 高引用论文前列。

PSI Lab 成立时间不长，但学生团队的产出密度很高。过去两三年，组内学生已经拿到 NVIDIA Fellowship、Qualcomm Fellowship、Capital One、Annenberg、Amazon 等多项奖学金和研究资助，本科生也获得过 CRA 杰出本科研究者相关荣誉。对一个年轻实验室来说，这样的获奖和产出密度并不常见。

这条路径也解释了 PSI Lab 的位置：它不是从纯 CV 突然转向机器人，也不是只做控制，而是站在 3D 世界理解、物理世界感知和真实机器人任务的交叉点上。实验室现在的方向覆盖人形机器人、灵巧操作、从人类视频学习机器人策略，以及面向真实部署的数据和学习系统。

PSI Lab 主页

在今年 CVPR 2026 的具身智能 Workshop 上，王越带领的 PSI Lab 和合作者一口气拿下三项奖。

Psi-0 拿了 3D-LLM/VLA Workshop 的 Best Paper，PhysWorld 则是同一个 Workshop 的 Best Paper Runner-up，Humanoid Everyday 也拿到 Embodied AI Workshop (EAI) 的 Best Paper。三篇之后也都进了各自方向的主会：Psi-0 被 RSS 2026 录用，PhysWorld 和 Humanoid Everyday 均被 ICRA 2026 录用。

它们正好落在人形机器人当前最缺的三个环节。Humanoid Everyday 解决的是数据 —— 开放世界里人形机器人的日常操作数据，以及配套的评测基准；Psi-0 往上一层，要训练一个能迁移到人形身体上的基础动作模型；PhysWorld 再往前一步，让模型不止” 看懂” 眼前的世界，还能预测一个动作做下去之后、世界会变成什么样。

如果把人形机器人当成一个需要长期搭建的系统，而不是一次性的 demo，这三件事其实串成了一条相对完整的路径：先拿到足够真实、足够多样的数据，再用这些数据训出能落到机器人身体上的基础模型，最后让模型具备对动作后果的预测能力。

王越老师

Psi-0：人形机器人的基础模型框架

Psi-0 的全称是 Ψ₀：An Open Foundation Model Towards Universal Humanoid Loco-Manipulation。

Loco-manipulation，指的是移动和操作结合在一起的任务。比如推车、递送、倒水、清洁、开水龙头、拉椅子。机器人不是固定在桌前抓取一个物体，而是要移动身体、协调双臂和手部动作，并在长程任务中持续处理场景状态变化。

这类任务更接近人形机器人未来要面对的真实应用，也比桌面操作更复杂。

一个直接的问题是：人形机器人基础模型应该用什么数据训练。

过去一种思路，是把人类视频、机器人轨迹和其他多模态数据放在一起训练。但人和机器人并不是同一个 embodiment。人的手臂长度、关节范围、手指灵活性、运动方式，都和人形机器人不同。人类视频中包含丰富的操作经验和物体交互过程，但它们不能直接等同于机器人可执行动作。

Psi-0 采用的是分阶段训练。

第一步，用约 829 小时 EgoDex 第一人称人类视频做预训练。第一人称视频更接近操作发生时的视角，能够提供手如何接近物体、物体如何被移动、视野如何随动作变化等人类操作先验。这里学习是宽泛的视觉、交互和任务过程先验。

而且这类数据天然易于规模化：不靠遥操作、也不需要专门采集设备，一部头戴相机甚至一部手机就能录，量级远大于真机示教数据。

第二步，用约 31 小时 Humanoid Everyday 人形机器人轨迹做后训练。这个阶段的作用，是把预训练阶段学到的操作和交互先验，进一步对齐到人形机器人的身体结构、动作空间和真实控制约束上。

第三步，再用少量目标任务数据做适配。模型不是为每个任务从零开始学习，而是在已有的人类视频先验和人形机器人动作能力基础上，继续调整到具体任务。

因此，Psi-0 关心的不是简单扩大机器人数据规模，而是如何组织不同来源的数据。人类第一视角视频提供规模化的操作先验，真实人形机器人轨迹提供 embodiment 对齐，少量目标任务数据完成具体适配。

这篇工作的意义在于，它把人形机器人 foundation model 的训练问题，拆成了更清楚的阶段：先从人类数据中学习可迁移的交互先验，再通过机器人数据把这些先验落到可执行动作上。

不是把所有数据直接混在一起，而是让人类视频和机器人轨迹在不同阶段承担不同角色。

PhysWorld：世界模型开始负责物理

PhysWorld 的论文名是 Robot Learning from a Physical World Model。

在机器人语境里，世界模型关心的是：给定当前状态和可能的动作，世界接下来会怎么变化。

过去一年，很多世界模型工作主要以视频预测或视频生成的形式出现。给定一张图、一个任务指令，模型生成一段未来视频。视频越稳定、越真实，往往越像是在 “理解世界”。

但对机器人来说，视觉上合理还不够。

一个视频模型可以生成 “手把杯子推走” 的画面，但这不等于它已经掌握了机器人真正需要的物理信息：杯子的位姿如何变化，接触点是否成立，摩擦和支撑关系是否合理，生成的运动能不能由机器人自己的身体执行。

PhysWorld 处理的正是这个中间环节。它不是把世界模型停在未来视频生成上，而是尝试把视频生成、物理世界重建和机器人策略学习连接起来。

流程可以拆成三步：先给定图像和任务指令，生成任务相关视频；再从视频中重建背后的物理世界，形成以物体为中心的场景表示；最后通过 object-centric residual reinforcement learning，把视觉预测进一步转化为机器人可执行的轨迹。

这里的 object-centric，指的是围绕物体来组织场景和动作信息。机器人操作里，真正重要的通常不是整张图，而是目标物体的位置、姿态、运动，以及它和机器人、桌面、其他物体之间的接触关系。

Residual RL 可以理解成在已有视觉指导的基础上，再通过强化学习做物理层面的修正，让动作更符合机器人动力学和环境约束。

所以，PhysWorld 真正关心的不是视频质量本身，而是 physical actionability：世界模型预测出来的未来，能不能进一步转成机器人可执行的轨迹。

如果一个世界模型只能生成视觉上合理的未来，它主要还是一个生成模型；只有当这些预测能够进入机器人训练和控制链路，它才开始接近机器人真正需要的世界模型。

Humanoid Everyday：开放世界人形操作的数据与评测底座

Humanoid Everyday 是一个面向开放世界人形操作的数据集和评测平台，全称是 A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation。

它关注的是人形机器人学习里一个基础问题：如何构建覆盖真实场景、复杂任务和多模态感知的数据基础设施。

相比固定机械臂和桌面操作任务，人形机器人面对的是更开放的任务设置。它不仅要感知物体，还要协调身体、双臂和移动能力，在家庭、办公、工业等日常环境中完成长程、接触丰富的操作任务。移动后操作、搬运、工具使用、柔性物体操作、铰链物体操作、人机交互和高精度操作，都属于这类问题。

Humanoid Everyday 在这个背景下提出。数据集覆盖 260 个任务、7 类任务、1.03 万条轨迹、超过 300 万帧数据，模态包括 RGB、深度、LiDAR、触觉和自然语言标注。它不仅提供训练数据，也提供云端评测平台，让不同方法可以在统一控制环境中部署和评估。

云端评测平台是这项工作的一个重要部分。

机器人学习长期面临一个评测难题：不同论文往往使用不同机器人、不同环境、不同物体和不同任务定义，方法之间很难直接比较。对于开放世界人形操作，这个问题会更明显，因为任务本身包含移动、接触、双臂协同和长程执行，任何环境差异都可能影响结果。

标准化评测的意义，是为模型能力提供一个更稳定的比较坐标。它让研究者不只是展示某个策略在特定场景中的表现，而是能够在统一任务和控制设置下，比较不同方法的泛化能力、鲁棒性和执行效果。

因此，Humanoid Everyday 的价值不只是数据规模，而是把开放世界人形操作放进一个可训练、可评测、可复现的研究框架里。

它是人形机器人基础模型训练中很关键的一层：面向真实日常任务的多模态数据集，以及可以持续比较模型能力的评测基础设施。

数据、模型、世界预测，被放进同一条链路

Humanoid Everyday 更接近数据基础设施。它关心的是：如果要训练开放世界中的人形机器人操作能力，真实、可复现、可评测的数据从哪里来。

Psi-0 更接近基础模型框架。它关心的是：人形机器人能否先从大规模人类第一视角视频中学习操作先验，再通过真实人形机器人数据完成后训练，从而获得更可迁移的移动操作能力。

PhysWorld 则把问题推进到世界模型。它关心的是：世界模型生成的未来，能否进一步转化为机器人可执行的轨迹，而不只是停留在视觉上合理的视频预测。

这三篇工作的对象不同，但可以放进同一个问题链条里理解：

数据如何构建。能力如何学习。动作后果如何被预测和利用。

这也是人形机器人相比一般 VLA 任务更复杂的地方。机器人不是只在图像和语言之间建立对应关系，也不是简单输出一个动作 token。它要在真实物理环境中移动、接触、调整姿态，处理物体、地形、身体约束和长程任务中的误差累积。

因此，对人形机器人来说，单纯扩大端到端模型规模，未必能覆盖全部问题。更重要的是，数据、模型训练和物理世界预测之间能否形成有效配合。

从这个角度看，Humanoid Everyday、Psi-0 和 PhysWorld 分别落在这条链路的不同位置。它们没有给出一个单一答案，而是共同指向一个更系统的问题：人形机器人基础能力的形成，可能需要数据底座、机器人原生模型和物理世界预测一起推进。

两个判断

第一个判断：人形机器人需要一套为它重新设计的基础模型框架 —— 这里包括预训练、后训练、部署等环节。

机器人要解决的问题，和 VLM、世界模型本质上并不是一回事。后者的落点是理解和生成，机器人最终要的，是在物理世界里把一个动作做对、做完。把语言或视觉模型那套范式直接搬过来，大概率不合身，更值得做的是一套 robotics-native 的基础模型，每个环节都按机器人自己的需求来设计。

Psi-0 的路线，就是先从人类视频里学先验，再用机器人数据落地。这个判断不会只出现在 Psi-0 里。EgoScale、DreamDojo 这些方向也都在指向同一件事：机器人必须先向人类数据借力，再想办法跨过 embodiment gap。

第二个判断：世界模型最重要的问题不是视频质量，而是物理可执行性。

如果世界模型只是在比谁生成的视频更清晰、更长、更稳定，那它离机器人还差一步。机器人需要的不是漂亮视频，而是可执行的未来：杯子会不会滑，接触点对不对，物体会不会翻倒，动作能不能由机器人自己的身体完成，这些才是真正决定任务成败的问题。

PhysWorld 指向的正是这个悬而未决的问题：世界模型生成的未来，能不能进入控制闭环。换句话说，世界模型对机器人真正有用的时刻，不是它生成了一段好看的视频，而是它能帮助机器人判断下一步怎么做。

这也是王越团队这组三篇工作的核心脉络。Humanoid Everyday 解决数据从哪里来，Psi-0 解决人形机器人的基础动作能力怎么学，PhysWorld 解决动作之后的物理后果怎么预测。三篇放在一起看，它们不是在讲一个更大的端到端模型，而是在搭一条更完整的链路。

人形机器人的基础能力，可能不会只来自模型规模的继续放大。它更可能来自数据底座、机器人原生模型和物理世界预测之间的系统闭环。

Psi-0 项目页：https://psi-lab.ai/Psi0/
PhysWorld 论文：https://arxiv.org/abs/2511.07416
Humanoid Everyday 项目页：https://humanoideveryday.github.io/
PSI Lab 实验室：https://psi-lab.ai/

文中视频链接：https://mp.weixin.qq.com/s/yWKGcFKVgXbJGUSb77J9Yg