?上个月又飞了一趟硅谷 , 与具身智能领域的科学家和创业者们进行了一些交流 。 总结起来一个核心的体感是:具身智能这个宏大的故事 , 还需要我们有个「五年耐心」 。 这个判断 , 源于对它当下所处阶段、核心瓶颈以及未来演进路径的拆解 。
火热的「产线故事」与冰冷的现实
具身智能赛道最热的毫无疑问是人形机器人 。
而人形机器人进产线 , 是国内很多具身智能公司都在讲的故事和前景 。 但我和几位国内外不少具身智能领域的创始人深聊过 , 大家普遍的担忧是:拿一个尚不成熟的通用机器人 , 硬塞进一个以精准和效率为核心的工业产线里 , 这件事现在的挑战其实非常大 。
机器人追求通用 , 就必须走出过去机械臂等「专用」的编程控制的技术路线 , 需要机器人有大脑和小脑 , 有自主的推理和控制 。 而把机器人做成「人形」 , 最大的好处也是为了「通用」人类已有的工具设施、社会环境和生产场景 。 但是今天机器人的大脑还没有发展到位 , 当前的技术即便可以做到「运动像人」(Motion like a human) , 但还远远做不到「决策像人」(Decision like a human) 。 机器人可以在受控环境下模仿出流畅、拟人的动作 , 但在面对真实世界的动态变化和意外情况时 , 其决策能力还非常脆弱 。
这个时候的通用机器人 , 本质上是用「通用性」在交换「精准性」和「效率」 , 而由于生产线上的以精准和效率优先的机械臂早就批量应用了 , 所以远未成熟的人形机器人进产线 , 把「通用性」用到最需要高精准、高效率的场景中 , 多少是有些错位的 。
基本可以断言的是 , 今天的通用机器人进入所有需要把「精准」、「效率」、「成本合算」作为底线的场景 , 挑战都非常大 。 很多时候创业公司宣传的落地某个场景大多是「展示性」、「实验性」 , 甚至「融资支撑性」的 , 并不真的是足够理性、市场化和算得过账的交易 。
说得坦诚一些 , 在今天 , 具身智能中的通用机器人 , 特别是人形机器人能提供的核心价值 , 更像是一种「情绪价值」——用不断的能力进步 , 来引领社会共识期待 , 进而获得更多资源推动技术加速进步 。
不能说这是没有意义的 , 就像 1969 年阿波罗登月计划本质上就是一个在技术和商业上当时都「不合理」计划 , 也并没有很快带来商业化落地的价值 。 他的本质目标就是特定历史条件下的「情绪价值」 。 但其推动的资源汇聚 , 构建的人才和技术生态 , 对航天科技的发展意义重大 , 带来了几十年后航天领域的巨大商业价值 。
具身智能领域 , 特别是人形机器人至少目前还更像一个不断成长的孩子 。 其每一点进步 , 都能点燃我们对未来的想象和信心 。 但问题是 , 「家长」要有正确的认知 , 即便一个孩子显示出了惊人的潜力和超预期的进步 , 长身体、见世面依旧是这个阶段的重心 。 这时候过早地就去考核其是否能扛起养家的重担可能就有问题了 。 如果「家长」把 Demo 里的信心 , 当成了商业部署的决心 , 过度透支它的未来 , 那很可能 , 对这个孩子的赞许就会变成批判 。 比如 , 到明年当很多「产线故事」无法兑现时 , 行业可能会迎来一定程度的顿挫 。
那什么是可能正确的预期呢?通用机器人这个问题 , 或许我们可以用大语言模型(LLM)的发展做类比 。 我收集到的一个合理预期是 , 一到两年内 , 具身智能有望迎来它的「GPT-3.0 时刻」——是指在实验室环境下 , 圈内人将看到机器人的通用模型(大脑+小脑)明显的技术突破 , 并对主流技术路线达成共识 , 就像当年 GPT-3 诞生时给业内带来的震撼一样 。
但从 3.0 到能让公众可以在一些需求上用起来的 3.5(Chatgpt) , 甚至到开始构建新的产业生态的 4.0 , 路还很长 , 可能还需要有个「五年耐心」 。
迈向「GPT-3.0 时刻」的一个关键:能否将数据问题转化为算力问题
从当前这个「情绪价值」为主的阶段 , 迈向下一个让业内人士兴奋的技术突破阶段 , 也就是我们所说的「GPT-3.0 时刻」 , 核心要解决什么问题?
我听到的一些核心从业者认为 , 关键在于突破数据瓶颈 。 虽然模型路线尚未完全收敛 , 但因为模型架构的切换 , 可能就是几百行代码的事 , 一旦有人思路对了 , 其他人很快就能跟上 , 难以形成长久的壁垒 。 所以真正的鸿沟 , 在于如何获取规模化的、高质量的、多样性的数据 。
具身智能领域的一种数据来源方式 , 是从现实世界中采集 。 由人类操作员像玩 VR 游戏一样进行遥操作(Teleoperation) , 或者通过示教来记录动作 。
这种「现实数据」的生产 , 存在三个局限:其一 , 规模上不去;其二 , 成本下不来;其三更关键 , 多样性不够:你只能采集你物理上能布置出来的场景 。 想让机器人练习一万次拿起桌角一个特定角度的苹果?在现实中几乎不可能 。 更不用说那些危险的、极端的「Corner Case」了 。
这种数据困境 , 与另一个大规模的具身智能领域——自动驾驶 , 形成了鲜明对比 。 自动驾驶是目前唯一不存在「预训练数据瓶颈」的领域 。 每一辆在路上行驶的汽车 , 无论是否开启自动驾驶功能 , 其摄像头和传感器都在源源不断地采集着真实世界的驾驶数据 。 这使得车企能够以极低的边际成本 , 获得海量、多样且真实的预训练数据 。 而通用机器人领域则完全不具备这种优势 , 其数据获取的窘境也因此显得尤为突出 。
正是这些局限 , 让数据成为了整个具身智能赛道最窄的那个瓶颈 。
最近的全球不少团队正在面对这个问题推动一种范式转移:通过高精度的物理引擎 , 将「数据问题」有效地转化为一个「算力问题」 。
【具身智能还需要一个「五年耐心」】在一个足够真实的模拟器里 , 你可以用代码 , 而不是人力 , 去创造无限的数据 。 想换个桌子材质?一行代码 。 想改变光照方向?一行代码 。 想让一个物体以微秒级的差异从不同角度掉落一万次?一个循环就够了 。 过去需要一个团队花几个月才能采集到的多样性数据 , 现在可能只需要一堆显卡跑一个晚上 。
这就完成了从「手工生产」到自动化「数据工厂」的进化 。 数据不再是稀缺的、需要辛苦「采集」的资源 , 而是可以根据需求、由算力「生成」的工业品 。 这就是将「数据问题」转化为「算力问题」的核心内涵 。
我听到的主流预期 , 是业内有机会在未来 1-2 年可能看到具备泛化能力的模型 , 并对主流技术路线达成共识 , 就像当年 GPT-3 诞生时给业内带来的震撼一样 。 这是从 0 到 1 的关键一步 。
从「GPT-3.0」到「4.0」之间还是一条长路
从这个令业内人兴奋的 3.0 时刻 , 到能让公众安全、可靠使用的 4.0 阶段 , 才是五年耐心中最漫长的部分 。 这背后是具身智能独有的、残酷的物理约束:
首先 , 仿真的边界决定了它无法独自完成从 3.0 到 4.0 的跨越 。 仿真数据不是万能灵药 。 一个业内普遍的共识是 , 仿真可以高效地解决模型从 0 到 90% 的问题 , 但最后那「从 90% 到 99.999%」的鸿沟 , 还是得靠真实世界的数据来填补 。
仿真世界再逼真 , 也只是对现实世界的「近似」 。 它可以完美模拟牛顿定律 , 教会机器人这个世界的「物理学 101」 , 比如物体会下落、碰撞会反弹 。 靠着海量的仿真数据 , 机器人能建立起对世界运行规律的「通识」 。 但现实世界充满了仿真的「噩梦」——那些难以被数学公式精确描述的「长尾细节」 。 比如 , 一块软布是如何在桌角褶皱的?一个捏扁了的易拉罐 , 其表面的摩擦力和形变有多复杂?一滩水的反光和流动 , 又如何影响视觉判断?
仿真能解决 90% 能力的「广度」问题 , 像一个完美的驾校 , 教会机器人通用能力 。 但决定 100% 可靠性的 , 是那最后 10% 的「长尾细节」——那些仿真无法完美复刻的真实物理世界 。 这个「仿真到现实的差距」(Sim2Real Gap) , 必须靠真实数据来弥合 。
因此 , 业界一个日趋清晰的理想路径是:用规模化的仿真数据 , 去构建机器人对物理世界的基础认知和通用能力(解决 90% 的问题);然后 , 用高价值的、聚焦特定场景的真实数据 , 去进行最终的「精调」(Fine-tuning) , 弥合「仿真到现实」的差距 , 解决那些最棘手的 Corner Case , 攻克最后的 10% 。
这也带来了第二个约束:具身智能的「试错成本」与「物理世界的回环速度」和大模型就不在一个量级 。 大模型可以在一秒内进行数千次「虚拟试错」并快速迭代 。 但机器人的一个「幻觉」——无论是错误的力控制还是路径规划——都可能导致任务失败、财产损失 , 甚至造成安全事故 。 每一次物理世界的试错 , 不仅成本高昂 , 更重要的是耗时漫长 。 一个动作执行需要几秒钟 , 一个任务序列可能需要几分钟 。 这种以秒甚至分钟为单位的「物理回环速度」 , 与数字世界以毫秒为单位的迭代速度相比 , 慢了数个数量级 。
此外 , LLM 从 3.0 进化到 4.0 , 一个关键步骤是引入了大规模的人类反?。 ≧LHF) 。 这依赖于软件可以被瞬间分发给数百万用户 。 但机器人要获得大规模、多样化的真实世界反馈数据 , 前提是必须先拥有大规模部署在真实环境中的机器人硬件 。 但要让市场接受大规模部署 , 机器人又必须先达到极高的可靠性和性价比 。 这个「先有硬件部署 , 还是先有成熟智能」的矛盾 , 是软件世界不存在的巨大商业和工程障碍 。
现实世界还有更肥、更长的长尾 。 语言的长尾问题已经足够复杂 , 但物理世界的长尾问题 , 其复杂性上升是指数级的 。 例如 , 同一个「开门」任务 , 门的重量、把手的形状、阻尼的大小、甚至环境光线的微小变化 , 都可能导致模型失败 。 物理世界充满了连续、高维、且充满噪声的变量 , 这意味着其「极端案例」(Corner Case)的分布 , 远比文本世界要密集和致命 。
回想一下自动驾驶 , 这个在相对受限场景下的「轮式具身智能」 , 即便拥有海量真实数据的加持 , 在解决了 99% 的问题后 , 至今仍在为了最后 1% 的长尾场景苦苦挣扎了近十年 。 而通用机器人的任务空间 , 需要与无数形态各异的物体进行物理交互 , 其复杂度远超仅在二维平面上的自动驾驶 。
因此 , 「五年之约」并非一个随意的数字 。 它是一个基于上述物理约束、硬件瓶颈和商业现实的理性预期 。 我们需要至少一到两年 , 去迎接那个激动人心的「GPT-3.0 时刻」的到来;然后 , 我们还需要至少三到四年 , 用以硬件的逐步铺开、真实数据的漫长积累和对物理世界无尽长尾问题的艰苦攻克 , 才能真正迈向那个可靠、可用的「GPT-4.0 时代」 。
所以 , 对这件事抱有五年甚至更长的耐心 , 是一个理性的预期 。
谁能跑完这场马拉松?
具身智能是一条漫长且充满挑战的道路 , 什么样的参与者 , 才可能跑完全程?谁更有可能夺冠?
结合前面的分析 , 可以大致勾勒出终局玩家所必需的几个要素:
世界一流的 AI 团队:能够通过高精度的物理引擎 , 将「数据问题」有效地转化为「算力问题」 , 加速达到 90% 的阶段 。
海量的真实世界数据:用以弥合 Sim2Real 的鸿沟 , 解决各类 Corner Case 的长尾问题 , 实现 90% 到 99% 的最后 10% 。
顶级的工业制造能力:用以破解硬件部署的悖论 , 能以可控的成本和可靠的品质 , 大规模生产并部署机器人「真身」到物理世界中 。
雄厚的资本与坚定的信念:用以忍受物理世界缓慢的回环速度 , 支撑长达数年甚至十年的高昂投入和不确定性 。
当我们拿着这张清单去审视当下的所有玩家时 , 说起来有点俗 , 发现目前能同时集齐这四张王牌的 , 最突出的还是马斯克 。 他不仅拥有顶级的 AI 团队、雄厚的资本和几乎无人能及的个人信念 , 更关键的是 , 他在「数据闭环」和「工业制造」这两项上 , 已经展现了世界级的统治力 , 具有结构性优势 , 是最不容忽视的头部玩家 。当然 , 即便这是今天的现实 , 认识它也不是为了简单接受 , 我反而期待更多新的力量成为变量 , 颠覆这一套逻辑 。 未来还未被书写 , 新的历史从来也不是靠推理就能注定的 。
推荐阅读
- 390亿美元,全球具身智能第一估值来了,英伟达持续加注中
- 绚星破局AI落地困境,四大业务重构企业智能生产力新范式
- 小米还是妥协了,7000mAh+龙晶玻璃+IP69K,512GB新机再度降价
- 性能差不多,魅族22还是小米14?关键还是续航和价格
- 超300万人抢 iPhone 17:是跟风还是刚需?看完这几点你就懂了
- 刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目
- 魅族22“虽迟但到”,搭载骁龙8s卖2999元,自信还是摆烂?
- Meta“手滑”曝光4款智能眼镜,带屏、HUD导航、隔空打字腕带,售价或超5000元
- AI云玩家洗牌时刻,百度智能云凭什么六连冠?
- 具身智能狂飙,安全却严重滞后?首个安全可信EAI框架与路线图!
