腾讯张正友:具身智能必须回答的三个「真问题」

腾讯张正友:具身智能必须回答的三个「真问题」

机器之心原创
作者:闻菲
7 月 27 日 , 腾讯发布了具身智能开放平台 Tairos , 以模块化的方式向行业提供大模型、开发工具和数据服务 , 试图为具身智能的研发和应用提供一套通用的支撑体系 。
在 Tairos 问世之前 , 腾讯 Robotics X 实验室已在具身领域探索七年多 。 从多模态四足机器人 Max 到轮腿机器人 Ollie , 从灵巧手 TRX-Hand 到人居环境机器人原型小五 , 这些自研项目不仅是技术展示 , 更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体 。
如今 , 将七年积累沉淀为一个开放平台 , 这一举动本身便值得深思 。 在具身智能的技术路线尚无定论 , 产业模式快速发展的背景下 , 腾讯的平台化路径 , 既是对行业现阶段挑战的回应 , 也预示了其对未来生态的布局 。
发布会后 , 腾讯首席科学家、Robotics X 实验室主任、福田实验室主任张正友博士接受了机器之心的专访 , 深入剖析了这一战略选择背后的三个核心问题:架构、原理与定力 。
端到端 vs 分层:
【腾讯张正友:具身智能必须回答的三个「真问题」】为什么说分层架构是当下更务实的路径
机器之心:当前具身智能技术路径尚无定论 , 业界对于「端到端」与「分层架构」的路线选择争议颇多 。 您主张分层架构 , 能否进一步阐述层与层之间的功能边界如何划分 , 这些边界是固定不变的 , 还是会根据任务的复杂度和紧急程度进行动态调整?
更重要的 , 「小脑」在物理交互中获得宝贵经验(比如一次失败) , 这个知识是如何反馈、反哺给「大脑」 , 从而实现整个架构的自我学习与进化?
张正友:这是一个非常深刻且直击要害的问题 , 它触及了当前具身智能领域最核心的哲学思辨与工程实践的交叉点 。 要回答这个问题 , 我们必须先理解理想与现实之间的差距 。
首先 , 我们来谈谈为什么选择分层 , 这本质上是一个效率与现实的权衡 。
在理想状态下 , 一个拥有无穷多高质量数据的端到端模型 , 或许是通往通用人工智能的终极路径 。 理论上 , 如果分层架构确实是最高效的组织形式 , 那么一个足够强大的端到端模型在海量数据的训练下 , 应该会自发地、内生地演化出类似分层的结构 。 这就好比一个全连接的神经网络 , 如果某些连接是冗余的 , 在充分训练后 , 它们的权重会自然趋近于零 , 从而形成事实上的稀疏连接和功能分区 , 也就是我们所说的「层」 。
这个逻辑同样适用于混合专家模型(MoE) 。 在理想状态下 , 一个巨大的、全连接的模型 , 为了追求低能耗和高效率 , 最终也应该会演化出「专家系统」 , 也即在处理特定任务时 , 只有部分网络被激活 。
但现实是 , 我们永远没有理想状态下的无穷数据 。 用有限的数据去训练一个参数量动辄万亿且全连接的模型 , 其难度和成本是天文数字 。 这也是为什么现在主流的大语言模型会采用 MoE 架构 。 因此 , 我们选择分层 , 本质上是将人类对智能结构的先验知识主动注入到模型架构中 。 就像我们知道人脑有左右脑分工 , 有不同脑区负责不同功能一样 , 我们预先设定感知、规划、行动这样的分层 , 是一种高效的引导 , 它能显著降低模型学习的难度 , 减少对数据的依赖 , 提升整体训练效率 。
其次 , 关于你问到的边界划分与知识反馈闭环 。
我们提出的 SLAP3 架构 , 包含多模态感知模型(右脑)、规划大模型(左脑)以及感知行动联合大模型(小脑) , 其边界并非静态的 , 在处理不同任务时 , 各层之间的协作模式和信息流权重是动态变化的 。
感知行动联合大模型就像系统1: 负责快速、直觉式的反应 。 人类 95% 以上的日常行为 , 比如走路、躲避障碍、抓握物体 , 都是由这个系统自动完成的 。 例如 , 当你手中杯子打滑的瞬间 , 你会下意识地立刻抓紧它 。 这个反应速度极快 , 大约在毫秒级别 , 它形成了一个极短的感知-行动闭环 , 根本来不及、也不需要上报到大脑去进行复杂的思考和决策 。 如果凡事都要依赖高级中枢 , 那反应速度就太慢了 。 感知模型和规划大模型就像系统2: 负责处理更复杂的、需要深思熟虑的任务 , 比如理解「这个杯子是陶瓷的 , 易碎」 , 或者规划「如何端着这杯水穿过拥挤的人群而不洒出来」 。 这是一种更宏观、更慢的思考过程 。 我们之所以将感知(类似我们的右脑)和规划(类似我们的左脑)暂时分开 , 是因为在目前的技术和数据条件下 , 要将对世界的物理理解(感知)和复杂的任务规划完全融合在一个原生的多模态模型中 , 依然非常困难 。 但最终 , 左右脑之间的界限一定会变得模糊 , 信息交互的带宽也会越来越高 。例如 , 一个需要快速反应的避障任务 , 可能会绕过「左脑」 , 形成「右脑」到「小脑」的快速通路 , 而在一个需要精密操作的长期任务中 , 「左脑」的规划和拆解则会占据主导地位 。

腾讯 Robotics X 机器人实验室在 2025 WAIC 发布的 SLAP3 体系 , 基于张正友博士 2018 年提出的 SLAP(Sense 感知、Learning 学习、Action 行动、Planning 规划)框架 , 包含 3 个紧密结合的大模型 , 不同功能的大模型可以相对独立地发展和更新 , 同时又能高效地协同工作、互相增强 。
底层「小脑」的感知行动联合大模型 , 其内部在很大程度上是端到端训练的 。 当它在执行任务中遇到意外情况 , 比如杯子滑落摔碎了这个具体的失败经验 , 会被捕捉下来 , 我们会将这些代表着意外或新知识的特殊交互数据 , 编码成一种类似于Embedding 的形式 , 并将其存入一个共享的「记忆库」(Memory) 。
这个记忆库起到了桥梁作用:对下 , 它可以直接被「小脑」在未来的快速反应中调用 , 相当于形成肌肉记忆;对上 , 它可以上传给「右脑」 , 当上层模型读取到这条「杯子滑落」的记忆后 , 它就会修正自己对这个物体的认知模型 , 比如更新它的属性描述 , 比如「该类表面光滑的物体 , 在特定角度下有滑落风险」 。 通过这种机制 , 底层的物理交互经验 , 就有效地反哺了上层的模型 , 实现了闭环 。
更重要的是 , 这个架构本身是需要不断迭代的 。 我们今天注入的先验知识 , 可能在明天就会被证明是次优的 。 因此 , 真正的反馈闭环 , 不仅仅是行动结果对规划的修正 , 更是整个系统对架构本身的修正 。 就像 Transformer 架构从最初的翻译模型 , 演化到成为今天大模型的核心组件 , 其内部结构也经历了巨大的变化 。 具身智能的架构也必将经历类似甚至更剧烈的演化 。
最后 , 我想强调一点 , 也是当前领域内一个巨大的挑战:我们应该用什么「语言」来构建这个反馈闭环?
目前 , 许多多模态大模型本质上是以语言为中心的 。 先训练一个强大的语言模型基座 , 然后将图像、视频、语音等其他模态的信息对齐到语言的语义空间 。 这是一个工程上的捷径 , 但可能不是通往真正具身智能的正确道路 。
我们必须认识到 , 动物没有复杂的语言 , 却能在三维物理世界中完美地生存和互动 。 这证明了 , 对物理世界的原生理解 , 比语言符号更根本 。 如果我们的反馈闭环过度依赖语言作为中间表示 , 就必然会在转换过程中丢失大量关键的物理世界信息 。
因此 , 理想的反馈闭环 , 必须建立在「原生多模态」的基础上 。 这意味着模型需要直接从像素、声音、力反馈等原始信号中学习 , 而不总是要转换成文字 。 这又回到了理想与现实的困境——原生多模态需要海量且多样化的数据 , 目前只有极少数公司有能力真正朝这个方向探索 。 就像自动驾驶领域 , 人人都说端到端 , 但真正有数据底气去做的可能只有特斯拉 。
综上所述 , 我们选择分层架构 , 是一种基于现实考量的务实策略 。 但这只是一个起点 , 目标是驱动整个架构向着更高效、更原生的多模态智能形态不断进化 。
机器之心:既然您已经意识到理想的终极形态或许是一个用海量数据端到端训练出的原生多模态模型 , 为什么不一开始就全力朝这个方向前进(比如搭建为此所需要的数据基础设施) , 而要「绕路」走分层呢?初期人为划定的分层是否有可能阻碍模型后期向着更高智能演进?
张正友:我认为端到端与分层这两条路并非相互排斥 , 而是殊途同归 。 我们今天选择分层架构 , 恰恰是为了最终能抵达那个理想的、由数据驱动的端到端未来 。
我用一个类比来说明这个问题 。 马斯克的宏大愿景是实现人类的火星移民 , 这是一个极其遥远且昂贵的目标 。 他并没有坐等万亿资金从天而降 , 而是通过一系列务实的、可商业化的步骤来逐步接近这个目标:先是研发可回收火箭来大幅降低发射成本 , 然后通过星链(Starlink)计划提供卫星互联网服务来产生持续的商业回报 , 等等 。 这些商业上的成功 , 都在为他最终的火星计划输送资金、积累技术 。 这与我们做具身智能的逻辑是一致的 。
要达到我们的理想——拥有无穷数据、通过端到端训练出的通用具身智能模型 , 我们面临许多现实的约束:理想中那海量的数据从何而来?由谁去收集?成本有多高?更重要的是 , 在模型架构本身尚未完全探索清楚的时候 , 大规模收集有效数据可能是纸上谈兵 。
因此 , 我们选择分层架构 , 是一个在当前数据和技术条件下 , 能够实际运行、解决问题、并部署到真实场景中的方案 。 它能让我们先动起来 。 最关键的是 , 这个务实的路径本身就是一个数据收集和模型迭代的引擎 。 通过在实际应用中部署分层架构 , 我们才能高效地收集到最有价值的交互数据 , 然后用这些数据去迭代我们的模型 , 无论是上层的规划大模型、感知模型 , 还是底层的感知行动联合大模型 。 这是一个螺旋式上升的过程 , 持续地推动我们向最终的目标前进 。
为什么说「身脑融合」
是具身智能的第一性原理
机器之心:在您看来 , 具身智能领域「第一性原理」问题是什么?
张正友:我认为 , 具身智能的第一性原理 , 就是探究「身体」与「大脑」如何实现真正有机的、无缝的融合 。 它绝不是简单地拿一个现成的 AI 大模型 , 做一些适配 , 然后「安装」到机器人上就能解决的 。
我经常举两个例子来说明什么不是真正的具身智能:
如果一个机器人的头掉了 , 它依然在盲目地行走 , 那它肯定不是具身智能 。 一个真正的具身智能体 , 应该能立刻意识到「我的视觉传感器失效了 , 我看不见了 , 我必须停下来」 。如果一个机器人的手臂断了 , 它却浑然不觉 , 还在徒劳地执行「伸手开门」的预设程序 , 那这也不是具身智能 。 这说明它的行为依然是基于预先编程的僵化逻辑 , 而不是对自己身体状态的真实感知 。真正的具身智能 , 必须对自己身体的形态和状态、对外部环境的物理规律 , 以及对当前任务的目标 , 都有深刻的、统一的理解 。 它的核心任务 , 就是将一个抽象的目标 , 转化为一个物理世界中可以一步步实现的、具体的行为序列 。
以世界顶尖跳水运动员为例 , 在学习初期 , 她的每一次尝试都离不开教练的指导和自身的刻意思考——这正是「系统2」主导的过程 , 充满了反复试错和有意识的调整 。 通过成千上万次的练习 , 这些复杂的动作序列最终被内化为肌肉记忆 , 在比赛中能够以「系统1」的方式 , 快速、直觉地执行出来 , 达到了水花近乎消失的境界 。
然而 , 一个关键的环节是 , 即便技能已经纯熟 , 在跳水前依然存在一个「系统2」的规划阶段 。 当她站在跳板上进行心理预演时 , 她正在大脑中完整地「播放」一遍即将要做的动作流程 。 这个短暂而高度集中的心理模拟 , 就是上层的规划 。 一旦这个规划完成并启动 , 接下来的执行过程就完全交由下层的、自动化的「系统1」来接管 , 从而实现精准而流畅的动作 。
机器之心:您提到了心理预演的规划 , 这种在大脑中「播放」动作画面的过程 , 与视频生成模型在原理上似乎相通 。 这是否意味着 , 具身智能的「动作规划」 , 其本质可能就是一种「视频生成」?这两条技术路径最终会统一到一个大的生成式框架下吗?
张正友:虽然将动作规划类比为生成模型很贴切 , 但我认为 , 两者之间存在着本质的区别 。 将它们混为一谈 , 可能会忽略具身智能最核心的特质 。
首先 , 两者目标不同 。 在物理世界中生存 , 理解是每个智能体的必备基础能力 , 就像我们每个人都需要看懂世界才能生活 。 但生成 , 尤其像导演一样创作出一部精美的影片 , 是一种高度专业的、非必需的技能——我们不能要求每个智能体都成为一个电影导演 。 其次 , 也是最关键的一点 , 两者生成的内容不同:动作规划是稀疏的、第一人称的 , 而视频生成是稠密的、第三人称的 。
让我们再次回到跳水运动员的例子 。 当她在跳板上进行心理预演时 , 她脑海中关注的焦点是自己的身体姿态、起跳的时机、空中翻转的角度、入水的角度 。 她绝不会去费心「生成」观众席上每个人的脸 , 或者灯光的精确颜色 。 看台上的人是五根手指还是六根手指 , 对她的动作规划毫无影响 。
她生成的「视频」是与自身运动能力、身体状态完全绑定的 , 这是一个关于「我」该如何运动的内在模拟 。 而通用的视频生成模型 , 往往是第三人称的、全局的 , 它追求的是整个画面在物理和视觉上的合理性与连贯性 , 关心的是画面中的每一个像素 。
这就引出了对「生成即理解」这一观点的进一步思考 。 我同意其基本逻辑 , 即无法准确生成就意味着不够理解 。 但关键在于 , 我们要生成什么 , 以及这种生成证明了哪种理解?
一个模型能生成一段赏心悦目的视频 , 证明了它对视觉规律和物理常识的理解 。 但一个具身智能体能成功「规划」并完成一次复杂的抓取 , 它所「生成」的是一个高度抽象、与自身能力紧密相关的动作序列 。 这证明了它对自己身体、对目标物体以及对任务逻辑的深刻理解 , 这是一种完全不同维度、也更为核心的具身理解 。
因此 , 我认为具身智能的动作规划 , 并非简单的视频生成 。 它是一种稀疏的、以自我为中心的、服务于特定任务的、高度抽象的生成过程 。 未来的研究方向 , 应该是探索如何构建专为此类任务深度优化的模型 , 而不是简单地套用追求稠密与真实的通用视频生成技术 。
喧嚣赛道上的创新定力:
为何要对商业化说「不」
机器之心:您说过 , 要有不受制于短视商业逻辑的创新定力 , 才能实现领跑 。 当下具身智能赛道呈现出一种爆发式的火热 , 您是否观察到一些潜在的陷阱或短视行为?相对应的 , 您所强调的创新定力又该如何体现?
张正友:首先 , 大量优秀的人才和资本涌入这个领域 , 本身是一件好事 。 在技术路径尚未完全明朗的今天 , 有更多聪明的头脑从不同角度去尝试和探索 , 对整个行业的发展至关重要 。
我们也要客观看待不同参与者的角色 。 例如 , 许多初创团队选择在一些确定性高、现有技术能够落地的场景进行商业化 , 这并非短视 , 而是一种务实的生存策略 。 我们不能苛求每一家公司都以实现 AGI 为终极目标 , 并最终成为像苹果、谷歌那样的巨头 。 生态的繁荣 , 需要各种角色的贡献 。
真正的「陷阱」 , 或者说挑战 , 在于如何处理短期利益与长远目标之间的关系 , 也就是我所说的定力 。 我认为 , 定力的本质 , 在于不忘初心 。
在科研和创业的道路上 , 我们总会取得一些阶段性的成果 , 比如研发出一个功能亮眼的研究原型 。 这时 , 巨大的诱惑就会出现——是否要立刻将其产品化、商业化?以我负责的腾讯 Robotics X 机器人实验室为例 , 在过去 7 年的发展中 , 我们产出了许多具备商业化潜力的原型 。 但我们选择不这样做 。 因为我们深知 , 一旦投入商业化 , 团队的大量精力就会被牵扯到繁琐的工程细节、供应链和市场运营中 , 这必然会让我们偏离探索更宏大、更根本的科学问题的初心 。
这就是一种关键的取舍:你是为了眼前可观的商业回报 , 还是为了更远大的技术愿景?
因此 , 定力在这里就体现为一种清醒的自我认知和坚定的内心 。 它意味着你必须明确自己最终想要达成的目标 , 并有勇气为了这个长远目标 , 放弃那些看似唾手可得的短期利益 。 这对于那些立志在 AGI 领域做出根本性贡献的团队而言 , 至关重要 。

    推荐阅读