2025年,一个曾被学术界热议数十年的概念——“具身智能”,首次写进中政府工作报告中。
几乎同时,大洋彼岸的科技巨头们也早已开始布局。英伟达黄仁勋断言:“AI的下一个浪潮将是具身智能”;特斯拉的人形机器人已进入快速迭代期;仅2025年9月,Figure AI单轮融资便超过10亿美元。
这已不是单纯的技术竞赛,而是中美科技竞争的关键战役。
最近,艾瑞咨询发布的《2025年中国商用具身智能白皮书》揭示:这场战争的胜负,将决定未来十年全球智能产业的格局。

身体觉醒:AI不再只是“大脑”,它开始拥有“手脚”
“具身智能”,这个充满哲学意味的词汇,正迅速从实验室走向产业前线。
简单来说,它是让AI从虚拟的算法世界“下载”到物理实体中——拥有身体,与环境真实交互。不再是躲在服务器里下棋的AlphaGo,而是能在工厂搬运零件、在酒店递送物品、甚至在未来家庭中料理家务的“实体智能”。
白皮书显示,中国正以前所未有的速度推进这场“身体革命”。2025年,国内发布的人形机器人数量达到51个,远超美国的35个。政策层面,中央与地方联动,撬动超1800亿元资金;产业层面,从灵巧手关节到AI大模型,全链条创新正在爆发。
“这不是简单的‘AI+机器人’。”一位参与报告撰写的专家指出,“这是智能范式从‘离身’到‘具身’的根本转变。它要求机器能看、能听、能触、能思考,还能动手执行——是真正的感知-思考-行动闭环。”
商用与工业场景正成为首批试验场。餐厅里,机器人穿梭送餐;工厂中,机械臂精准装配;甚至在上海一家智慧酒店,8台机器人已组成服务团队,自主完成迎宾、配送、清洁等任务。
这场觉醒背后,是深刻的战略考量。“具身智能关乎科技自立自强。”白皮书直言,在中美科技竞争背景下,这是中国实现“弯道超车”的关键赛道。
进化阵痛:5亿美元的数据饥渴与灵巧手的“不可能三角”
然而,让AI“长出身体”,远比训练它聊天对话要艰难得多。
首当其冲的挑战,是数据的极度饥渴。
与ChatGPT可吞咽整个互联网文本不同,具身智能需要的是物理世界的“多模态养分”——视觉、触觉、力觉,以及这些感知与动作的精确对应关系。
这类数据极其稀缺。
报告披露了一个惊人数字:特斯拉Optimus仅数据采集成本预计高达5亿美元。原因残酷而现实:高质量的真实操作数据几乎像黄金一样珍贵。
当前,行业普遍采用“1条真实数据+9条仿真数据”的混合训练模式,但效果有限——真实环境任务成功率仍低于80%。这如同用模拟飞行数据培训飞行员,首飞风险可想而知。
“灵巧手”则是另一座技术珠峰。
人手拥有21-27个自由度,要在机器人上复现这种灵巧,工程师必须在方寸之间集成电机、减速器、传感器等数十个部件,堪称“机械工程的艺术品”。
更棘手的是“不可能三角”:高性能、高可靠性必然导致成本飙升。一只科研级灵巧手价格超过10万美元,而要实现产业化,成本必须降至数千美元级别。
“我们面临的是系统工程挑战。”国内灵巧手领先企业因时机器人负责人表示,“不仅是技术突破,更是工程化、成本控制、供应链管理的全面考验。”
模型暗战:VLA共识下,中美架构的路线分野
在软件与算法层面,一场关于“机器人大脑”的竞赛同样激烈。
行业已形成明确共识:VLA模型将是未来主流。这类模型能将视觉、语言、动作信息统一处理,让机器人真正理解“把桌子擦干净”这样的复杂指令。
谷歌、英伟达等美国巨头是这一路径的早期定义者。从RT系列到PaLM-E,再到开源的GROOT,美国企业凭借顶尖的算法研究能力,试图确立行业标准。
但中国玩家并未简单跟随。
白皮书揭示了一个关键趋势:混合智能架构正成为主流解决方案。这种架构将系统分为“大脑”与“小脑”——高层由VLA模型负责认知与规划,底层则由传统控制算法确保执行可靠。
“纯粹端到端的模型虽然智能,但在工业场景中‘幻觉’问题太危险。”节卡机器人技术负责人解释,“我们的方案是让大模型做‘指挥官’,传统算法做‘特种兵’,既保持灵活性,又确保安全性。”
Figure AI的Helix模型印证了这一思路:其System 2以低频处理语义理解,System 1以200Hz高频控制动作执行——类似人类的“思考”与“反射”协同。
这场架构分野,本质上是不同产业环境的选择。美国依托强大的基础研究,追求通用智能的突破;中国则扎根丰富的应用场景,强调**落地可靠性与工程化效率**。
商用黎明:从“机器替人”到“价值创造”的临界点
白皮书给出了清晰的路线图:当前行业整体处于L2向L3过渡阶段——已能自主移动,正探索低技能操作。类比自动驾驶,正在从“辅助驾驶”走向“有条件自动化”。
但转折点即将到来。分析预测,未来2-3年行业可能达到**能力爆发的临界点**。届时,具身智能将不再仅仅是“替代人力”,而是开始创造新的商业价值。
商业化正沿着一条清晰的“价值阶梯”攀登:
第一阶梯:高ROI的确定性场景——工业上下料、仓储搬运、餐饮配送等。这些任务结构化、重复性强,机器人已能胜任。当前大部分商用订单集中于此。
第二阶梯:高价值的战略性场景——精密装配、复杂质检、设备维护等。这些需要更强感知与决策能力,正在技术突破前夜。
第三阶梯:通用服务与家庭场景——最终极的想象空间,也是技术难度最高的领域。
付费模式也在进化。从早期的整机销售,到“机器人即服务”租赁模式,未来可能走向“按效果付费”——客户不为机器本身买单,而为完成的任务付费。
“这意味着商业模式从‘卖硬件’转向‘卖价值’。”分析师指出,“这需要技术足够可靠,能明确度量产出价值。”
中国路径:全产业链优势与差异化的破局智慧
面对美国在算法与芯片领域的传统优势,中国具身智能产业如何破局?
白皮书揭示了中国企业的三条差异化路径:
擎朗智能选择了“场景驱动”。从餐饮、酒店等服务场景切入,凭借全球数万台部署设备,构建了真实的数据飞轮——每天产生数亿条场景数据,持续反哺算法优化。这种“部署-学习-优化”的闭环,形成了独特的竞争壁垒。
节卡机器人深耕“工业Know-how”。在汽车、电子等高端制造领域深度布局,将行业知识转化为算法优势。其创新的分层架构,既利用了大模型的智能,又确保了工业场景的绝对可靠。
因时机器人专注“核心部件突破”。早在2016年就前瞻布局微型伺服电缸,实现了灵巧手核心部件的自主可控。2024年出货量近2000台,市占率超60%,打破了国外垄断。
这些路径背后,是中国制造业的深层优势:全球最完整的工业体系、最具弹性的供应链、丰富的应用场景。正如光伏、电动车产业走过的路,具身智能在中国同样拥有从追赶到领先的产业基础。
白皮书数据显示,2025年中国服务机器人已占全球商用市场出货量的84.7%;工业机器人出口同比增长61.5%。出口不仅是产品出海,更是技术标准与商业模式的输出。
终局与洗牌:万亿赛道的前夜,谁能穿越周期?
资本早已嗅到血腥味。
2025年,中美具身智能融资额屡创新高。Figure AI估值达390亿美元,中国多家企业单轮融资超1亿美元。白皮书统计,仅上半年国内近亿美元融资就有4笔以上。
狂热背后,隐忧已现。
“产品同质化开始显现。”报告警告,“第一轮行业洗牌不会太远。”回顾电动车产业,从百家企业混战到如今寥寥数家主导,具身智能很可能重复这一过程。
高昂的研发投入、复杂的供应链管理、艰难的规模化量产——这些门槛最终会将大部分玩家挡在门外。
“未来可能只剩下几类玩家:掌握核心技术的平台型企业、深耕垂直场景的专家、以及自带场景需求的生态巨头。”投资界人士分析。
初创企业如何生存?
白皮书建议:要比巨头看得更准、跑得更快、效率更高。更重要的是,找到能提供长期赋能的战略资本,而非仅仅追逐估值的财务投资。
结语
目前,北京、上海等地,首批具身智能数据采集训练场正在建设;世界模型技术能生成更逼真的仿真数据;5G与边缘计算让实时响应成为可能。
当我们讨论具身智能时,我们谈论的不仅仅是机器人,而是一个智能与物理世界深度融合的新纪元。它关乎生产效率,关乎产业安全,更关乎人类如何与日益智能的机器共存。
特斯拉马斯克预测,2025年底人形机器人将开始销售;中国政策全力推动产业创新;全球资本疯狂下注——这场关于“机器身体”的竞赛,已进入最关键的中盘。
可以预见,当机器真正“觉醒”并融入我们的物理世界,它改变的将不仅是工厂与仓库,更是我们每个人的工作方式、生活空间,乃至对人类智能本质的重新思考。