陈源培不是一个传统意义上的“学霸”。
在进入大学之前,他最投入的事情是打游戏。FPS、MOBA,他什么都玩,有些游戏时长达几千小时。甚至高考前一天,他还在宿舍打牌。现在回头看,陈源培依然不觉得这是一段需要被纠正的经历。相反,他认为游戏带给他一个重要的认知:只要一个人持续投入一件事,不断试错、升级、复盘,最后就会变得越来越好。
这套逻辑也贯穿了他之后的人生轨迹。本科期间,土木专业出身的陈源培几乎从 0 开始进入机器人领域,利用课余时间学习相关知识和算法,参加各类机器人大赛;后来进入北京大学杨耀东教授团队,他在零基础的情况下,用三个月时间独立完成一项强化学习研究,最后成果发表在人工智能顶级会议上;凭借出色的表现,他获得了斯坦福大学李飞飞实验室访问学习的机会,参与完成利用人类数据训练机器人双臂灵巧操作的开创性研究。
再之后,他又投入了一个新的“副本”:回国创业。
2024 年 9 月, 23 岁的他和京东系创始人王启斌博士、柴晓杰博士一起创办了灵初智能(Psi Bot)。不到两年,这家公司累计融资超过 20 亿元。该公司聚焦机器人世界模型与具身大脑研发,希望让机器人能够理解物理世界、规划动作,并在不同场景中完成长程操作任务。为了实现这一目标,灵初选择从人类操作数据出发训练模型。
而这条路线的形成,可以追溯到陈源培过去几年在强化学习、仿真和灵巧操作领域的研究经历。
从物体轨迹到人类数据
陈源培最早是一个很典型的强化学习和仿真派。
在北大杨耀东团队时,他参与了双手灵巧操作方向的研究。这项工作的意义不只在于算法,更在于证明了一件当时尚未被广泛验证的事情:借助 GPU 并行仿真,高自由度双手操作任务是可以被训练出来的。
当时,仿真效率是机器人强化学习发展的核心瓶颈之一。2019 年,OpenAI 用 Shadow Hand 完成魔方复原曾引发轰动,但背后依赖的是大规模 CPU 集群。陈源培则较早接触到英伟达尚未正式发布的一套 GPU 机器人仿真平台。虽然早期版本 bug 很多,经常跑不起来,但他很快意识到,利用 GPU 同时运行大量仿真环境,将显著降低机器人训练成本。
图 |OpenAI Shadow Hand(来源:OpenAI)
后来行业的发展证明,这一判断是正确的。GPU 并行仿真逐渐成为机器人强化学习的重要基础设施,也让许多过去成本高昂的实验变得更加可行。
不过,在斯坦福进行灵巧操作研究期间,陈源培也逐渐看到了仿真的边界。仿真环境可以提供海量数据,但真实世界中的摩擦、碰撞、柔性物体以及复杂接触,却很难被完全复刻。无论仿真做得多逼真,机器人最终仍然要面对真实世界。
于是,他决定转向另一条路:从真实的人类操作中学习。
陈源培开始在斯坦福参与利用人类动作数据训练机器人灵巧操作的研究。这背后有两个关键变化:第一,数据来源从机器人遥操作转向人类双手操作;第二,任务表达从“机器人该如何运动”,转向“物体该如何变化”。
在陈源培看来,许多看似复杂的操作,本质上都可以被描述为物体状态的变化。把手机从桌上拿起,是手机沿着一条轨迹移动;打开笔记本电脑,是屏幕绕铰链旋转;开门、整理物品、放置工具,也都可以被抽象为物体从一个状态到另一个状态的转变。
这种视角的好处在于,它提供了一种更统一的任务描述方式。过去,不同任务往往需要单独设计奖励函数;而如果以物体轨迹为核心,抓取、放置、开合、移动等行为便拥有了共同的表达语言。
这一思路后来成为灵初智能技术路线的重要基础。
与许多依赖机器人遥操作数据的方案不同,灵初希望直接从人类操作中提取通用知识,再结合模仿学习和强化学习迁移到机器人身上。按照陈源培的理解,人类操作数据中既包含目标物体的位置、接近方式和操作意图等通用信息,也包含手指发力、关节运动等与人体结构强相关的细节。前者可以直接被模型学习,后者则由机器人在自身硬件上通过强化学习完成适配。
这也是灵初坚持布局灵巧手的重要原因。相比夹爪,五指手在结构上更接近人手,能够更充分地承接人类双手操作数据,降低从人到机器人的迁移成本。陈源培并不否认夹爪在固定工业场景中的成本和稳定性优势,但他认为,如果目标是跨场景、跨任务的通用操作能力,机器人最终仍然需要拥有“手”。
围绕这一思路,灵初自研了 Psi-SynEngine 数据采集引擎,其核心是一套动捕手套方案。相比传统真机遥操作方式,数据采集成本可降低至十分之一左右。
值得注意的是,这套数据体系并非服务于某一种固定硬件。灵初同时设计了高自由度和低自由度两种手部构型:前者面向复杂灵巧操作,后者在成本和稳定性上更接近夹爪,可覆盖对灵巧性要求较低的工业场景。
图 | 动捕手套(来源:灵初智能)
从人类数据到世界模型
如果说斯坦福时期的研究让陈源培相信,人类操作数据能够为机器人提供比仿真更丰富的学习素材,那么创业之后,一个新的问题很快出现了:仅仅拥有数据,并不等于机器人获得了能力。
原因在于,人和机器人并不生活在同一个身体里。同样是拿起一个杯子,人类会使用几十块肌肉协同完成动作;而机器人则拥有完全不同的关节结构、驱动方式和控制逻辑。即便看到了同样的操作过程,也无法简单复现人类动作。这种从人到机器人的差异,被行业称为 Embodiment Gap(具身鸿沟)。
在陈源培看来,人类数据真正有价值的部分,并不是具体的手指轨迹,而是隐藏在操作过程中的目标、策略和世界规律。问题变成:机器人如何从海量人类操作数据中提取这些知识?
他和灵初给出的答案,是世界模型。
2026 年,灵初发布新一代具身模型 Psi-R2。与传统 VLA 主要学习“看到什么就执行什么动作”不同,Psi-R2 被定义为 World Action Model(世界动作模型)。对于机器人而言,一个动作是否正确,往往取决于它对未来的预判。当机器人准备完成一项任务时,它不仅需要知道手应该如何移动,还需要预测当前动作会如何影响后续步骤,以及自己是否正在接近目标状态。
换句话说,它既要学会行动,也要学会预测行动的后果。
例如,在拆开纸盒包装任务中,机器人需要连续完成识别纸盒结构、调整抓取姿态、展开纸盒、抓取物品等多个步骤。这并不是几个彼此独立动作的简单拼接,而是一项具有明确目标的长程操作任务。对于 Psi-R2 来说,它不仅要决定下一步应该如何移动机械手,还需要持续理解任务进度,并根据当前状态规划后续动作,最终完成整个操作流程。相比传统策略模型,它更像一个同时理解任务目标和未来状态变化的行动规划系统。
另一套模型 Psi-W0 则承担着对未来世界进行推演的任务。按照灵初的定义,Psi-W0 是一个 Action-Conditioned World Model。它接收当前状态和候选动作,并预测未来可能出现的结果。
从表面上看,这与许多世界模型的思路类似。但灵初认为,Psi-W0 最重要的价值并不是生成未来视频,而是完成策略评估与数据转化。原因在于,Psi-R2 的训练数据几乎全部来自成功样本。模型能够学习“正确的操作应该是什么样子”,却很难知道“错误操作会导致什么结果”。而对于强化学习而言,恰恰需要大量成功与失败的反馈,才能不断优化策略。
因此,Psi-W0 被赋予了一个额外角色:机器人的内部评测系统。
以倒酒任务为例,机器人可能存在多种不同的执行方案。杯子的倾斜角度是否合理?液体是否会溢出?当前动作是否会影响后续操作?Psi-W0 会提前推演这些可能出现的未来状态,对不同动作方案进行评估与比较。机器人不必把所有尝试都放到真实世界中完成,而是能够先在模型构建的“想象世界”中完成推演,再选择更优策略执行。
更重要的是,Psi-W0 还承担着跨越具身鸿沟的任务。
在人类和机器人之间,存在天然的本体差异。同样一个操作任务,人类依靠手掌、手指和手腕协同完成,而机器人拥有完全不同的关节结构、自由度和动力学特性。因此,人类数据无法直接转化为机器人能力。
在灵初展示的双手协同操作任务中,左侧是人类通过外骨骼手套采集得到的操作轨迹,右侧则是机器人执行后的结果。两者完成的是同一个任务,但使用的身体结构却完全不同。对于 Psi-W0 而言,它学习的并不是人类具体如何运动手指,而是任务过程中物体状态如何发生变化。当模型理解了这种状态变化规律之后,再结合强化学习寻找符合机器人自身动力学特性的实现方式,从而完成从人类经验到机器人经验的迁移。
这也是灵初构建世界模型的重要目的之一:让人类操作数据不再只是训练样本,而能够持续转化为机器人自身的数据和能力。
在灵初的设想中,人类数据只是整个系统的起点。人类操作数据首先用于训练 Psi-R2;Psi-W0 对策略进行评估与推演,并将人类经验转换为机器人数据;强化学习进一步优化策略;新的机器人数据再反哺下一轮模型训练。最终形成一个持续扩张的数据飞轮。
图|数据飞轮示意(来源:灵初智能)
这也是陈培源认为的,具身智能真正需要解决的问题,并不是某一种算法是否更先进,而是如何建立这样一个能够持续产生新数据、新能力的系统。只有当机器人能够像大模型一样形成规模化学习闭环时,具身智能才有可能出现属于自己的 Scaling Law。
三重世界模型
过去一年,走世界模型路线的公司,显然不止灵初智能一家。
但陈源培认为,当前大多数讨论仍停留在概念层面。世界模型本身并不直接创造价值,真正重要的是,它能否帮助机器人在真实场景中完成任务。无论是视频生成模型、VLA,还是各种预测模块,仅仅被冠以“世界模型”的名称,并不意味着找到了具身智能的新范式。
他提到了灵初另一位首席科学家温颖提出的“三重世界模型”框架。按照他的理解,人对世界的认知大致可以分为三层:最底层是客观世界本身,也就是物理规律;最上层是主体的决策与行动,可以理解为对未来行为及结果的预期;而两者之间,还存在一层更关键的机制。它负责判断哪些信息与当前任务相关,哪些只是背景噪声。
图|三重世界模型示意(来源:温颖)
以抓取手机为例,机器人并不需要理解桌面上的一切。它真正需要关注的是手机的位置、形状、可抓取区域,以及当前动作会如何改变手机的状态。至于旁边的麦克风、桌面纹理,甚至背景环境中的大量视觉信息,对当前任务而言可能并不重要。
未来具身模型的核心能力之一,恰恰是这种主动筛选信息的能力。真正有效的模型,不是无差别地接收所有输入,而是能够识别哪些信息值得关注,哪些信息应该被忽略。
陈源培还将这一问题与大模型训练中的数据信噪比联系起来。模型能力较弱时,大量低质量数据或许仍能带来收益;但随着模型能力提升,继续引入信噪比较低的数据,反而可能稀释有效信息。具身智能同样如此。视觉、动作、触觉、人类操作轨迹等多模态数据并非越多越好,更重要的是模型能否提取其中真正与任务相关的知识。
如果把灵初的系统放回“三重世界模型”的框架里,Psi-W0 更接近对物理世界变化的模拟和预测,Psi-R2 则面向真实动作输出,而中间的关键,是模型能否主动筛选与任务相关的信息,把人类数据中的有效知识迁移到机器手上。
这也是陈源培对“世界模型热”的真正态度。他不是反对世界模型,而是反对把世界模型当成口号。在他看来,具身智能需要的不是一个单独的模型名字,而是一套可验证的闭环:数据从哪里来,如何被筛选和表征,模型如何训练,策略如何在真实硬件上验证,失败结果如何反哺下一轮数据和训练。
具身智能的迷雾森林
2026 年,具身智能已经成为全球资本最密集的 AI 赛道之一。但资本热度并不意味着技术路线已经收敛。
仿真派和真实数据派在争论,夹爪派和灵巧手派在争论,VLA 和世界模型也尚未形成共识。陈源培用“迷雾森林”来形容当下的行业状态:大致知道方向在哪里,但具体哪条路能够最终走通,没有人能够提前给出答案。正因为如此,他并不认为未来会由某一个算法概念决定胜负。
无论是世界模型、VLA,还是其他不断出现的新框架,它们都可能推动行业进步,但很难单独构成长期壁垒。一个算法被提出之后,同行往往能够较快复现;真正难以复制的,是把算法落到真实机器人系统中的能力。这包括数据采集质量、数据处理流程、模型训练经验、仿真环境搭建、硬件设计、控制器调试、真机评测,以及这些环节之间的协同优化。
这套判断来自他过去的科研经验。无论是双手强化学习,还是斯坦福时期的长程灵巧操作,他最后得到的结论都是:很多时候不是别人不知道算法,而是系统没有调到足够好。仿真环境、reward 设计、3D 视觉、pose estimation、柔顺控制、真机部署,每个环节都要足够细,最后才可能做出别人做不到的效果。
灵初因此把硬件、数据和模型放在同一个系统里。硬件不是孤立产品,而是为了更好采集和承载人类操作数据;数据不是一次性资产,而是持续训练模型的燃料;模型也不是静态交付物,而要在真实任务中不断被评测、修正和迭代。如果这些问题成立,具身智能公司的价值就不只是做某个场景里的自动化设备,而是成为机器人时代的基础模型公司。
当然,灵初的路线也存在一定的未知。人类操作数据能否成为具身智能规模化学习的起点,世界模型与强化学习能否持续将其转化为机器人自身的数据与经验,最终形成类似大模型时代的数据飞轮,这些问题都还需要时间验证。
陈源培没有回避这种不确定性。在他看来,如果未来某条路线被证明更有效,灵初需要有能力快速吸收和切换。他并不相信任何一个当下流行的概念可以直接通向终局。具身智能最终会走向哪里,还要靠实验、数据和真实系统一点点验证。
某种程度上,这也是他自己的人生态度。从打游戏到回国创业,他很少为自己设定一个遥远而明确的终点。相比宏大的规划,他更在意眼前的问题是否值得投入,以及自己是否真正享受解决问题的过程。
或许这也是这一代创业者最特别的地方。他们成长于大模型和机器人快速演进的时代,没有现成的地图,也没有被验证过的结局。他们能做的,只是在一次次实验、失败和迭代中,和自己所相信的技术一起寻找答案。
参考链接:
1.https://cypypccpy.github.io/tech-blog.github.io/
2.https://yingwen.io/zh/blog/what-is-a-world-model-modeling/
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成