
文章图片
头图来源:腾讯Robotics X 官网
早在2700年前的古希腊神话中 , 工匠之神打造的青铜巨人Talos , 已经在克里特岛上巡视、守卫领土 。 它拥有自主意识 , 被视为「最早的安保机器人」 。
腾讯首席科学家张正友用这个故事作为演讲的开场 , 人类这种对机械智能体的渴望 , 从青铜锻造炉一直延续到了今天的实验室 。
这种渴望在今年的世界人工智能大会(WAIC)上 , 尤其强烈 。
机器人领域尤其是人形机器人成为了绝对的焦点 。 世博展览馆二楼H3馆尤为震撼 , 汇聚了包括上海智元、傅利叶、杭州宇树科技、深圳乐聚、北京人形机器人中心等十余家公司的超百台人形机器人 。
当人形机器人以前所未有的热度席卷科技圈 , 几乎所有目光都聚焦于那个越来越像人的「新物种」时 , 腾讯Robotics X实验室却选择了一条看起来不那么「时髦」的路 。
图片来源:腾讯
7月27日 , 在WAIC 2025腾讯论坛上 , 他们正式发布了具身智能开放平台Tairos , 一个代号「钛螺丝」的软件平台 。 这是这家巨头在长达七年的前沿探索后 , 对产业阶段、自身定位和未来路径的一次深度思考与战略选择 。
一、 机器人的「iPhone时刻」远未到来「现在的机器人行业大概处在什么阶段?」
面对这个问题 , 腾讯首席科学家、Robotics X实验室主任张正友的回答很克制:「我觉得甚至其实还没到‘大哥大’时代 。 」 他认为 , 行业的「iPhone时刻」远未到来 , 甚至可能还看不到iPhone的影子。
这个判断 , 是理解腾讯如今所有选择的逻辑基础 。
时间拉回2018年 , Robotics X实验室刚刚成立 。 张正友坦言 , 那时行业一片荒芜 , 甚至找不到一家成熟的机器人本体厂商可以合作 , 团队不得不从硬件到软件进行全栈自研 。
从多模态四足机器人Max到轮腿式机器人Ollie , 再到人居环境机器人原型「小五」 , 这些一度令人惊艳的硬件原型 , 更多是实验室为了验证和牵引技术研发而「开的坑」。 它们是研究载体 , 而非产品线上的商品 。
2023年成了分水岭 。
大模型的浪潮让具身智能一夜之间从学界、业界走向公众 , 资本和创业者蜂拥而入 , 机器人硬件公司疯狂涌现 。
腾讯团队在走访了全国超过六十家机器人企业后发现 , 一个巨大的市场缺口正在显现:大量企业能将硬件本体打磨得非常出色 , 但在软件和智能上的投入却不足 , 因为这是一个需要长期、巨大投入的无底洞 。
具身智能的落地是一个极其复杂、环环相扣的系统工程。 从需要巨大投入的基础模型 , 到效率低下、成本高昂的场景数据采集 , 再到缺少流程化工具的训练仿真 , 以及令人「头大」的真机部署和升级 , 每一个环节都藏着不少「坑」。
市场的需求变化 , 让腾讯看到了新的可能性 。 既然行业的「黑莓时代」才刚刚开始 , 探索各种可能的硬件形态是所有玩家的必修课。 那么 , 与其过早下注某一种具体的机器人形态 , 不如退后一步 , 为所有「探索者」提供通用的「平台」和「开发工具」 。
图片来源:腾讯
这便是Tairos平台的由来 。 张正友反复向媒体强调「产品化」与「商业化」的区别 。 「我们是不赚钱的 , ‘钛螺丝’这个平台不是以赚钱为目的。 」
他透露 , 实验室成立七年来一直不以收入为目标 , 这是一项着眼于未来的技术储备和战略投资 。
在张正友看来 , 真正的智能 , 必须是身体与智能的紧密结合、和谐交融。 机器人的「心」(智能)必须知道「身」(本体)的状态 。
这种「身心合一」的追求 , 对应他提出的一个关键技术理念——IPDE(Integrated Physical-Digital Embodiment) , 即「虚实集成智能体」——虚实世界和真实世界的无缝结合 。 」
机器人可以在数字世界里「想象」或「仿真」一个动作 , 预判其在真实世界执行的后果。 如果想象的结果与真实执行的预期偏差很大 , 那么机器人就必须修正自己的规划。 这种在虚拟中预演、在现实中修正的循环 , 正是实现「身心合一」的技术路径 。
这种哲学思考并非一时兴起 , 而是张正友长期个人修行的沉淀 。 他谈到自己正在第四遍翻译《道德经》 , 「每翻译一遍 , 重新看一遍 , 我都有不同的启发 。 」
而现在 , 时机成熟了 , 是时候将这些前沿的科研成果 , 变成一个可以赋能行业的标准化产品了 。
二、 解构Tairos:为机器人注入「左脑、右脑和小脑」如果说行业的共识是为机器人打造一个聪慧的「大脑」 , 那么Tairos的目标就是成为那个可以被灵活调用的「外脑」 。 它的核心设计理念是模块化与完整性 。
「每一个厂家可以选取他自己想要的模块 , 」张正友解释道 , 「比如他的感知做得很好 , 那就不需要我们的感知模块 。 如果规划做得不够好 , 那就用我们的规划模块。 」 这种灵活性 , 大大降低了厂商的研发门槛 。
这个「大脑」由三个核心模型和一套云端服务构成 , 分别扮演着不同的角色。
右脑:多模态感知模型——让机器人看懂3D世界这个模型致力于让机器人真正理解自己所处的物理环境。
但张正友指出 , 这不仅仅是拍张照片然后重建3D模型那么简单 。 「很多3D建模是‘死’的 , 所有东西都连在一起 , 」他解释说 , 「但机器人需要知道 , 这个杯子是可以被抓取的 , 它是一个独立实体。 」 Tairos的感知模型致力于构建一个可交互的、语义化的三维世界地图 。
此外 , 它试图摆脱当前主流VLA(视觉-语言-行为)模型对海量2D图像数据的过度依赖 。 张正友认为 , 2D图像缺少3D世界的深度信息 , 导致数据需求量极大 。 「从3D角度看 , 一个杯子我只需要一个3D描述就够了 , 数据效率会高很多。 」
左脑:规划大模型——让机器人理解任务并思考如果说感知是「看懂」 , 规划就是「理解」和「思考」。 这个模型能让机器人理解复杂的指令 , 并将其拆解成一个个可执行的步骤 。
腾讯方面的数据显示 , 在复杂的长序列人机交互任务中 , 该模型的成功率达到了80% , 超过了GPT-4o等领先的闭源系统。
张正友认为 , 仅靠文本训练的大模型在物理世界规划上存在天然缺陷 。 「现实世界很多东西是无法用文字描述的 , 比如地面的花纹、摩擦力 , 」他举例说 , 「动物没有语言 , 但它们依然能在3D世界里很好地生存、觅食。 」 这说明 , 对物理世界的深度理解 , 是比语言更底层的规划基础 。
【具身智能,腾讯「低调入局」】小脑:感知行动联合大模型——打通「看见」到「做到」这是最关键的闭环 , 负责将「思考」转化为精准、安全的物理行动。 近来 , 一些机器人失控的案例恰恰暴露了这一环节的脆弱 , 比如一个机器人被悬空吊起后疯狂乱动——张正友分析根本原因在于机器人缺乏对自身状态的感知——它不知道自己双脚已离地 , 没有了摩擦力 , 却仍在执行地面行走的动作模式 , 从而导致失控。
Tairos的「小脑」模型 , 正是要将力觉、触觉等多模态感知信息融合进来 , 形成对物理规律的深度理解 , 从而让行动更智能、更安全。
除了三大模型 , Tairos还提供了一整套云端仿真平台和开发工具链。 通过腾讯游戏级别的3D场景生成技术 , 开发者可以在云端高保真环境中一键验证算法 , 解决传统仿真工具部署复杂、场景单一的痛点。
三、 超越人形热:探索人机共存的更优形态在WAIC论坛现场 , 搭载了Tairos平台的宇树G1机器人与张正友的互动 , 成为了平台能力最直观的证明 。
当张正友说「到我身边来」时 , 机器人自主规划路径并准确地停在他身旁;当被问及「讲台上有什么」时 , 它能清晰地回答「一个电脑 , 一束花 , 两个麦克风」。
整个过程全部由算法驱动 , 没有任何人为遥控。 现场一位工作人员透露 , 由于是实时演算 , 机器人每天的回答和表现都可能不一样 , 充满了算法带来的「惊喜」。
尽管人形机器人是当下的绝对主角 , 但张正友对此却保持着审慎和开放的态度 。 他认为 , 过早地将终极形态锁定在「人形」上 , 可能会限制行业的想象力 。
他给出了三个理由:
效率问题:人类的进化形态是为了适应数百万年前的复杂自然环境 , 但在现代人居的平坦环境中 , 双足行走的效率并不高。 这正是腾讯早期探索「轮腿一体」机器人Max和Ollie的原因 , 他们追求的是效率 , 而非单纯的仿生。想象力限制:以人为蓝本 , 会不自觉地限制技术潜力的发挥 。 「人不可能进化出一个屏幕 , 」他举例道 , 「但机器人可以 。 通过屏幕 , 信息传递速度可以比语音快几倍 , 为什么不利用这些现代技术呢? 」 本体探索仍需过程:什么才是最适合人居环境的机器人形态?这依然是一个开放性问题。 因此 , Tairos平台的设计是本体无关的 , 无论是双足、四足还是机械臂 , 都可以接入并获得其赋能 。对于具身智能的未来 , 张正友判断将在五个方向上持续发展 , 并将其总结为「IDEAS」框架 : 虚实集成世界 (IPhD): 数字世界与真实世界的深度融合与相互影响。技术门槛降低 (Democratization): 交互方式的演进使得人人都能轻松与机器打交道。智能演进 (Evolving intelligence): AI、本体、环境一体化互动 , 加速产业创新。智能体化 (Agentization): AI从被动系统演进到主动交互的智能体 , 并可能涌现集体智能。感知拓展 (Sensing): 感知技术从单一视觉向视觉、触觉、力觉等多模态融合。虽然不像一些初创公司那样乐观 , 张正友也对既定方向充满信心 。「我当时规划了10年的时间 , 现在7年过去了 , 我觉得可能再有三年会差不多 , 」他对未来给出了自己的时间表——让实验室的技术 , 特别是机器人的感知、规划和行动能力 , 发展到足够成熟的水平 , 从而能够支撑起像「养老」这样极具挑战性的、需要与人进行安全复杂交互的场景应用。至于当前具身智能的「过热」 , 在他看来 , 反而是一件好事 。 「参与的人越来越多 , 这行业发展才会越来越快。 」 而腾讯的角色 , 就是在这一历史进程中 , 保持足够的耐心和战略定力 , 通过开放自身积累七年的核心能力 , 为整个行业铺好路、拧紧「螺丝」 , 助力所有同行者一起 , 更快地抵达那个「iPhone时刻」 。
推荐阅读
- 华为击败小米重返巅峰!2025年Q2中国大陆智能手机出货量登顶!
- WAIC 2025 杰弗里?辛顿:是否数字智能会取代生物智能?
- 重塑管理层会议体验 科大讯飞智能办公本X5评测
- 京东发布JoyInside附身智能品牌,云深处等数十家机器人品牌已接入
- 一个中年父亲的安心之选:Aqara G100智能摄像机守护全家安全
- 6000万台,小米智能电视中国第一,是华为10倍?
- 荣耀MagicOS七月大升级来袭:AI 帮写+智能抠图,亮点十足!
- 爆火智能体Lovart体验:30分钟搞定一个潮玩IP!设计师看了瑟瑟发抖
- 手机AGI助手多远?移动智能体复合长程任务测试基准与调度系统发布
- 家门口的AI哨兵,小米智能门铃 4 Pro让门口变的“高清无码”了
