2025,具身智能迎来“ChatGPT时刻”了吗?
2025年,人形机器人正以前所未有的速度闯入公众视野。想象一下:4月,全球首场人形机器人半程马拉松鸣枪开跑,形态各异的机械选手在真实跑道上奋力前行;5月,机器人格斗大赛震撼上演,勾拳、侧踢、闪避,动作流畅得仿佛科幻电影;8月,首届人形机器人运动会即将开幕,田径、体操、足球项目一应俱全。这些曾经只存在于科幻中的场景,正密集地在我们眼前成为现实。
这波席卷全球的具身智能热潮,起点究竟在哪? 答案指向一个名字:特斯拉。2021年,当马斯克高调宣布“Tesla Bot”人形机器人计划,并在次年推出Optimus(擎天柱)原型机时,整个行业的游戏规则被彻底改写。紧随其后,Figure AI等新锐力量崛起,目标直指将机器人送进工厂流水线。几乎同时,智元机器人、银河通用、逐际动力等中国团队也纷纷押注这一赛道。
为什么是现在?为什么执着于“人形”?
硬件瓶颈的突破是基础。峰瑞资本执行董事刘鹏琦在播客中分析:“过去十年,新能源车、消费电子、工业自动化等产业的爆发式增长,意外地为机器人产业铺平了道路。” 电机、传感器、电池等核心部件因规模化生产而成本骤降,搭建一个机器人的门槛前所未有地降低。
更关键的催化剂在软件层。2022年底开始,大模型的横空出世,点燃了行业对“通用智能”的无限遐想。“它为解决机器人感知和决策的世纪难题,提供了一种全新的可能路径。” 刘鹏琦强调。
那么,为何一定要执着于“人形”?四足机器人、工业机械臂不也能出色完成任务吗?
普世想象的召唤: 从《超能陆战队》的“大白”到无数科幻经典,人形承载着人类对机器人伙伴最深层的期待。
技术能力的象征: 双足行走、灵活操作的人形,代表着当前机器人技术的尖端水平,是技术实力的“金字招牌”。
场景适配的潜力: 虽然轮式底盘足以应对80%的移动需求,但“人形”的核心价值在于其上半身的操作潜力——能开门、能拧瓶盖、能使用人类工具。这恰恰是撬动家庭、实验室等复杂场景的万能钥匙。
“通用”是终极梦想,但现实需要“收敛”
业界对“通用机器人”的终极形态充满向往,但刘鹏琦点破了其中的关键矛盾:“追求通用性,就像攀登AGI(通用人工智能)高峰,但现实世界的资源永远是有限的。” 这迫使从业者必须在“不可能三角”——成功率、通用性、成本——之间艰难权衡。
工厂要效率: 在汽车制造线上,一个拧螺丝的机械臂,99.9%的成功率和低廉成本远比它能“顺便泡杯咖啡”重要。
家庭需全能: 扫地机器人可以偶尔漏掉角落,但如果它还能帮你拿药、关灯、扶老人,即使慢一点、贵一点,价值也截然不同。
硬件:借他山之石,攻机器人玉
拆解一个人形机器人,硬件大致包括:
机械骨骼(躯干与四肢)
感知系统(视觉、触觉等“五官”)
控制系统(“大脑”与“小脑”)
能源与通信模块
这些模块的发展天差地别。刘鹏琦指出:“成熟硬件,多是成熟产业外溢的‘礼物’。”
拿来即用型: 关节减速器(源自工业自动化)、激光雷达/毫米波雷达(受益于自动驾驶和扫地机产业),成本低廉,性能可靠。
亟待突破型: 灵巧手及其配套的触觉、力觉传感器是典型。这类部件过去主要用于假肢或科研,直到具身智能热潮兴起,才吸引大量资金和人才涌入。
因时机器人 的故事极具启发性。峰瑞资本在2021年投资时,其核心产品是应用于新能源和医美行业的微型伺服电缸(线性关节)。虽然当时灵巧手营收占比不高,但正是电缸技术的成熟和成本下降,为其后来在灵巧手领域的领先地位(出货量领先)奠定了基石。“这印证了一个关键逻辑:人形硬件早期发展,极度依赖其他成熟产业的‘哺育’。单靠自身,举步维艰。” 刘鹏琦总结道。乐森机器人从伺服电机转向玩具赛道并大获成功,也是“能力迁移”的生动案例。
软件:两条路线之争,端到端是终极答案吗?
机器人“大脑”的进化路径,目前存在两大阵营:
端到端架构 (VLA模型): 类似特斯拉汽车的FSD系统,让AI大模型直接处理从感知(摄像头画面)到行动(控制指令)的全流程,结构简洁,潜力巨大。
分层控制系统: 将任务拆解为感知、决策、规划、控制等模块,可灵活嵌入AI大模型提升各环节能力,技术更成熟。
刘鹏琦认为两者并非泾渭分明:“现实中存在大量混合与折中方案。企业选择哪条路,核心取决于其定位、场景和商业模式。” 他更以自动驾驶为镜:“特斯拉的FSD也并非一步到位实现端到端。它先通过分层模型积累海量真实道路数据,再反哺训练端到端模型。数据闭环,才是技术跃迁的隐形推手。”
端到端模型的核心优势在于其理论上的简洁与强大。 若有近乎无限的数据和算力支撑,它可能依托Scaling Law(规模法则)展现出惊人性能。但魔鬼在细节中:在要求严苛的物理世界交互中(如机器人操作),其成功率、响应速度(需高达上千赫兹)能否达到实用标准?现有的大模型Transformer结构对此力有不逮。
具身智能的本质,是一个在物理世界中行动的AI智能体(Agent)。 它必须具备:
环境感知与记忆
复杂推理与决策
关键的核心能力:工具使用(Tool use)
大模型的飞速进步能显著提升前两项,但与物理世界交互的“工具使用”能力,仍是横亘在前的巨大鸿沟。
商业化:热潮下的冷思考与“沿途下蛋”
站在2025年节点,人形机器人的商业化落地处于何种阶段?刘鹏琦直言:“从技术角度看,许多前沿方向(如端到端模型)仍处于非常早期的研究阶段。 很多公司的首要目标并非立刻盈利,而是争夺资源、推进技术边界。”
资本市场的热度更印证了这一点。具身智能领域明显过热,正处于Gartner技术成熟度曲线的“期望膨胀期”峰值。这种“热”是把双刃剑:
利: 加速技术成熟与产业链完善(如灵巧手方案的快速涌现)。
弊: 催生泡沫。即使未来行业经历低谷调整,也会产生宝贵的“沿途下蛋”机会——具身智能研发中诞生的算法、模型、核心部件(如新型传感器、更灵巧的机械臂设计),将外溢赋能现有行业,例如:
让仓储物流中的AMR(自主移动机器人)具备更复杂的抓取能力。
使工业机械臂摆脱固定工位束缚,在更动态环境中执行多任务。
量产落地的核心挑战是PMF(产品与市场匹配)的缺失。 当前产品多服务于科研或演示需求。在硬件上,机械性能、稳定性与成本的平衡尚未解决;在软件上,机器人“上半身”的操作能力(灵巧性、适应性)亟待突破。
未来落地的关键:破解“不可能三角”,寻找高附加值场景
人形机器人要真正走进实用,必须在成功率、通用性、成本构成的“不可能三角”中找到立足点。刘鹏琦指出了可能的突破口:
生物医药实验室: 黄金试验场!实验操作流程相对规范固定(降低通用性要求),机器人操作可带来更高精度与一致性(提升成功率)。实验员通常需高学历背景,人力成本较高(对机器人成本容忍度相对高)。用机器人替代高技能、高成本人力,经济账更容易算平。
海外高人力成本市场: 在仓储物流等劳动力密集型场景,国内因人工成本优势,机器人替代动力不足。但在欧美等高人力成本地区,需求更为迫切。
工业领域尝试: 目前机器人更多承担质检、非核心搬运等辅助角色。“真正融入汽车制造等核心生产环节,道阻且长。”
中美机器人企业呈现出迥异生态:
美国: 巨头领航(特斯拉、Figure AI),新兴玩家少但单笔融资额巨大。更聚焦软件与算法(“大脑”)的突破,较少自研机器人本体硬件,追求技术制高点。
中国: 玩家众多(2025年估计达数百家),梯队林立。普遍追求“软硬兼修”,既要炫酷技术Demo,也积极布局落地场景。中国拥有独特优势:全球最完备的产业链基础、庞大的内需市场、强有力的政策支持以及广阔的出海前景。
家庭场景:梦想很丰满,现实需耐心
当被问及“机器人进家庭”的愿景,刘鹏琦坦言:“这确实需要更长时间。” 除了要克服“不可能三角”,家庭环境的高度非结构化、长尾任务需求(从整理玩具到紧急看护)对通用性提出极致要求,更涉及复杂的伦理与隐私问题。让机器人安全、可靠、有“同理心”地融入人类最私密的空间,是技术与社会层面的双重长征。
ChatGPT时刻尚未到来,但浪潮已起
那么,具身智能是否已迎来如ChatGPT般的革命性拐点?刘鹏琦的回答冷静而清晰:“我认为还远远没到。 与一年前相比,行业热度飙升,更多团队和资本涌入,但不变的是整体仍处于早期。机器人马拉松固然出圈,但商业化落地依然寥寥。”
未来几年的机会,他预见将集中在:
硬件深水区: 力/触觉传感器、更先进的灵巧手持续迭代。
数据基石: 服务于机器人“小脑”(运动控制)的遥操作、动作捕捉、仿真合成数据平台将兴起。
核心突破点: 机器人“大小脑”(认知与运动控制结合)的算法是最大瓶颈。破局之道在于:选定一个能平衡成功率、通用性、成本的细分场景,用现有技术打造闭环解决方案,积累宝贵的场景数据,以此驱动新一代算法的进化。
终极展望:钢铁侠的启示
如果把目光投向更远的未来,刘鹏琦给出了一个充满科幻色彩却发人深省的比喻:“人形机器人终极形态的实现,可能会晚于量子计算和核聚变技术的成熟。 想象漫威中的钢铁侠战甲:它以微型核聚变装置为澎湃动力之源,以量子计算单元处理海量信息与复杂决策。或许,只有当能源与算力发生颠覆性革命时,真正的通用人形机器人才能挣脱枷锁,降临现实。”
当机器人选手在世界级的跑道上奋力冲刺,当机械臂在实验室里精准操作试管,我们看到的不仅是技术的跃进,更是人类拓展自身能力边界的又一次伟大尝试。具身智能的浪潮已汹涌而至,它注定不会一蹴而就,但每一次跌倒后的爬起,每一次笨拙后的精进,都在为那个机器与人共生的未来,铺下一块坚实的基石。
这场机器人进化的马拉松,没有终点线,只有下一个需要翻越的山丘。你准备好见证下一个里程碑了吗?