近日,小鹏机器人IRON走猫步的画面引发广泛关注。

宇树G1习武的视频也在网络热议。从走路、跳舞到武术、洗碗、跑酷,过去三年,人形机器人已成为最受瞩目的科技焦点之一。

就在前几天,马斯克与特斯拉签下了一份史无前例的“万亿薪酬”对赌协议。协议细节显示,特斯拉市值需达到8.5万亿美元,马斯克才有可能获得其中12%的股票。8万亿美元市值是什么概念?仅靠卖车能否实现?毫无疑问,必须依靠xAI,让特斯拉机器人真正走进千家万户。

从马斯克宣布Optimus V3将于明年量产,到Figure AI发布最新Figure 03原型机,再到OpenAI投资的NEO家居机器人开放预订,中国企业也紧随其后——优必选的工业人形机器人Walker S2、傅利叶GRx系列、宇树H1、小鹏IRON等纷纷亮相。据统计,截至2025年上半年,全球人形机器人企业已超过300家,其中中国企业超过110家,连小米、vivo、大疆等消费电子巨头也涌入这一领域。

繁荣之下,观点各异。有人认为人形机器人是科技终结者,也有人视其为AI的最佳载体,能带领人类走向科技自由。同时也有声音指出,该产业仍停留在“展演”阶段,存在过度炒作与高估。抛开理想与争议,人形机器人的未来究竟在何处?它会走进日常生活,还是止步于实验室与发布会的聚光灯下?

一、为什么机器人一定要做成“人形”?
首先思考一个基础问题:为什么机器人非得是“人形”?自动驾驶是否需要机器人坐在驾驶室?建筑、外卖、工业、医疗等领域,是否必须由人形机器人参与?机器人模仿人类外形,究竟是功能必需,还是人类的情感偏好?

机器人技术发展五十余年,采用人形设计并非偶然,而是社会心理学、功能适配性与数据学习曲线综合权衡的结果。
1. 社会心理学:人类更期待机器像“人”
人形机器人的吸引力,往往不只来自技术本身,更在于它与人类社会在心理上的“无缝对接”。软银的研究显示,在老年护理场景中,拟人化的机器人能提供更有效的情感支持。UCLA报告也指出,从人机交互角度看,人类对人形机器人的信任度可比普通机器人提升30%-50%。

这符合我们的直观感受:一个多足多臂的机器人在家中劳动或许更高效,却也容易带来“异类入侵”的不适感。人类经过数千年进化,除了语言,手势、表情乃至细微的眼神变化都能传递丰富信息。未来智能机器人作为全球性商品,要在养老、育儿等敏感场景中被不同文化、年龄的用户接纳,人形设计具备天然优势。

2. 功能适配性:并非替代,而是协同
人形机器人常被称为“终极通用机器”,但它真的是最优解吗?尤其在工业制造中,汽车装配、电子生产线等标准化场景已大量使用专用机器人,它们高效且经济。在这些领域,人形机器人并非必需。

但这里存在一个常见误解:人形机器人旨在取代传统机器人吗?恰恰相反,其最大优势并非效率,而是多任务切换能力,核心场景也非替代现有工业体系,而是快速融入人类已有的分工环境,尤其在于人机共存的工作场景。

从商业角度看,未来人形机器人更可能扮演“人类助手”或“协作伙伴”的角色。例如在工厂中,它们可承担搬运、包装、柔性制造与小批量试验等“最后一公里”任务。优必选Walker S1在极氪工厂中,便能直接使用为人类设计的工具,快速融入产线。同时,因其运动轨迹相对可预测,安全性也更高。
在家庭与护理场景中,如浇花、洗碗、整理房间、陪伴宠物等非结构化任务,兼顾安全性与通用性的,也往往是通用型人形机器人。

3. 数据与学习曲线:人类行为是天然的“数据宝库”
当前通用机器人最缺乏的是什么?不是算力、机械结构或感知能力,而是数据。数据从何而来?算法模拟?特斯拉提出的“数字梦境”?其实,人类自身的行为与海量结构化数据才是关键的“万能钥匙”。

随着短视频兴起,全球每日上传视频量已超过4亿条。仅烹饪类内容,在2025年累计视频时长就达26亿小时,涵盖不同菜系、工具使用及切菜、搅拌、摆盘等精细操作,均可为机器人提供学习样本。其他如修车教程、家居维修(粉刷、换灯泡等)视频,也构成丰富的技能数据库。

从模仿中学习,从学习中进化——人类本身就是世界上最全面、最丰富的结构化数据来源,而人形,正是打开这座宝库的那把钥匙。
二、人形机器人离我们还有多远?
理解人形机器人的未来,需先认清其核心实现路径:从数据收集、标注、训练神经网络,到任务评估与动作执行。每一个环节看似清晰,实则面临指数级增长的复杂度。

直观来说,通用人形机器人的实现难度,远高于L5级自动驾驶。2025年,L2-L2+级智驾在全球的渗透率仍不足15%,尚无车企敢宣称能在短期内实现L5的商业化普及。L5自动驾驶面对的是道路场景:规范的车道、明确的标识、固定的规则、单一的目标与丰富的数据。

而人形机器人面对的则是整个“物理世界的投影”:模糊的指令、即兴的使用、多因素干扰、现实世界的不可预测性,以及多维的物理认知。它需要处理的信息复杂度远超当前AI系统,绝非仅学会行走、搬运或完成简单动作那么简单。
目前大多数机器人仍停留在动作执行层面,不少需通过手柄遥控操作。Figure 03虽能“打开可乐瓶”,但在《时代》杂志的实测中,折叠T恤仍屡屡失败,常需人工干预。当前主流演示多在固定封闭场景中进行,离真正自主应对复杂环境尚有距离。

需明确的是,步行模拟、电力续航提升、液压系统进步、多模态传感器应用等“工程障碍”,仅是人形机器人落地的第一步。在价值链中,硬件至多占20%,AI大脑则主导其余80%。从演示场景跨越至真实世界,实现每秒内的环境感知、决策与执行,其信息处理复杂度远超现有AI系统。从“遥控”到“自主”,仍有长路要走。
三、未来路径:渐进式的渗透
人形机器人不会一蹴而就地进入生活,其发展将是渐进过程。回顾传统机器人,它们依赖结构化数据,擅长规则化操作,却难以应对开放世界的强推理任务。当前大多数人形机器人仍未突破这一局限,主要依赖第一人称视频、仿真模拟与动作捕捉示范。

以Optimus和Figure 03为例,这些前沿原型虽能流畅执行行走、开瓶等动作,适应能力仍显薄弱。当前大语言模型与人形机器人的结合,虽展现出解决开放性问题的潜力,但仅处于潜力阶段。
从时间线看:
2025‑2027/28年:重点仍在数据积累。从工业场景入手,在固定、安全的环境中小规模部署,打通数据链路,降低硬件与训练成本,为规模化铺垫。
2030年左右:训练转向半结构化服务场景。数据构成中,10%来自第一视角真实视频,80%依赖高效仿真合成,10%通过物理微调优化。机器人可初步适应商用辅助或工作助手角色,实现从“封闭执行”到“灵活响应”的跨越。
2035年之后:随着数据飞轮加速,人形机器人有望渗透至大众生活,成为家庭助理或社区护理伙伴。
从特定场景起步,逐步扩展至工业生产、商业服务,最终走入家庭——人形机器人的未来之路已在脚下,只待时间与技术共同铺就。