
文章图片

机器之心发布
机器之心编辑部
从春晚舞台上扭秧歌、转手绢 , 到稳健完整跑完半程马拉松…… 过去半年 , 一系列炫酷的表演 , 把人们对机器人的认知从想象拉进了现实 。
但当 AI 圈、车圈、互联网圈大佬们纷纷跻身到具身智能时 , 每个人都绕不开以下几个灵魂拷问:具身智能还有哪些技术瓶颈?到底怎么落地?应该先从哪些场景开始落地?要解决用户哪些真实需求?能够做到怎样的量产成本…… 在行业的「iPhone 时刻」真正到来前 , 没有人能够精准给出上述问题的全部答案 。
把创新技术转化为具有商业价值的实际产品 , 固然需要长期的探索实践 。 如何尽可能缩短这条探索路径的周期、降低成本 , 反而是现在具身智能赛道玩家更加关注的话题 。
去年以来 , 面向具身智能机器人的计算开发平台 , 成为国内外平台型企业争相布局的全新赛道 。 英伟达推出 Jetson Thor , 高通、英特尔紧随其后 。 在国内 , 脱胎于地平线的地瓜机器人 , 去年亮相的 RDK S100 算控一体化开发者套件也在本月正式发布 。 所有企业的目标只有一个 , 「征服」每一个机器人开发者和厂商 。
在一众产品当中 , RDK S100 的 80 TOPS 算力并不算「拔尖」 , 但却已经覆盖了 20 + 头部具身智能客户合作 , 50 + 合作伙伴正在开展测评 , 几乎成为英伟达之外的最佳选择 。 「算控一体」的独创设计、精准的算力卡位 , 以及完善的本地支持 , RDK S100 瞄准的正是具身智能未来三年有望最先实现量产突破的应用场景 。
大小脑 , 当前机器人走向具身智能更可行方案
任何软件要有与之匹配的最佳硬件 , 才能发挥出最好的效果 。 这种软硬结合的理念已经深入到所有科技产品和解决方案的设计当中 。 从第一性原理出发 , 由需求驱动产品设计 , 面向具身智能的计算平台需要解答两个简单又关键的问题:要支持什么样的模型、要提供多大的算力 。 模型结构决定了硬件架构 , 应用场景决定了算力大小 。
具身智能的定义很简单 , 让机器人能够和人一样感知周围事物、思考决策方案 , 再做相应动作 。 实现这一能力 , 目前行业存在一体化端到端和分层模型两条技术路径 。
一体化端到端 / VLA 模型具有通用性强、可自动适应环境变化等优势 , 但需要海量数据训练、消耗大量计算资源 。 分层决策模型可控性更强、数据要求相对较低 , 且可解释性高 , 但泛化性相对较弱 。
「两者并非选择题 , 而是不同阶段的不同路径 。 」在地瓜机器人开发者生态副总裁胡春旭看来 , 两种路径都会存在 。 按照智元机器人对具身智能技术演进路线从 G1 至 G5 等级的划分来看 , 分层决策大小脑模型解决的是 G2 到 G3 的过程 , 而端到端则是解决 G4 到 G5 的技术 。
无论大小脑还是一脑多用 , 胡春旭表示地瓜机器人都会通过不同产品平台来支撑不同技术路径 。 明年 , 地瓜机器人将推出大算力的产品方案 , 服务基于端到端模型方案的更高阶产品开发 。 而就当下来看 , 「大小脑 , 是当前机器人走向具身智能的更可行方案 。 」
大脑负责「算」 , 也就是感知决策 , 小脑负责「控」 , 即运动控制 。 如同人脑一样 , 紧密协同、分工明确 。 然而 , 包括英伟达 Jetson Thor 在内的市面上大部分方案 , 均采用算控分离方案 。 大小脑由不同的开发板控制 , 需要借助外部连线 , 不仅会导致系统成本上升 , 大小脑之间的通信延迟 , 也会限制机器人的性能上限 。
【从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?】围绕大小脑的构建思路 , RDK S100 最大的特点就在于采用了 CPU+BPU+MCU 的超级异构 , 在行业内率先实现了单 SoC 上的「算控一体」 , 单个开发套件就能实现具身智能机器人「感知 - 决策 - 执行」的闭环 。 其中 CPU 和 BPU 对应大脑 , MCU 对应小脑 。 「我们认为这是在具身机器人里实现大小脑的最佳计算平台 。 」
CPU 采用 6 核 A78AE 核心 , 负责逻辑处理和任务调度 。
BPU 负责处理各类感知、决策等所有和强 AI 任务 。 得益于与已经在车端验证的 Nash 纳什架构 , RDK S100 的 BPU 天然对 CNN 和 Transformer 架构有更佳的性能效率 , 同时总体 ONNX 标准算子支持数量达 160+ , 加速各种视觉 / 点云检测、LLM、VLM 等模型的性能表现 。
MCU 采用 4 核 R52 + 核心 , 负责运动控制 , 提供高帧率、低延迟的关节实时控制能力 。 其中两个核心采用锁步方式运行 , 保证代码在两个 MCU 中并行运行、互为冗余 , 从而提升机器人控制系统的安全性 , 降低因硬件故障等导致的安全问题发生概率 。
「算控一体」的好处还在于 CPU、BPU、MCU 三者之间可以根据任务需求调度 。 例如在进行运控处理时 , CPU 和 BPU 也会参与动态调度 , 在大脑和小脑功能之间灵活切换 , 真正做到「超级异构」 。
但这样的架构设计 , 也带来了更高的系统复杂度 。 为了不把 CPU、BPU、MCU 核间的调度难题留给开发者 , 地瓜机器人还设计了一套共享内存的高效核间通信机制 , 并包装成一套 SDK 。 开发者无需关心某个功能在 MCU 侧跑还是在 CPU 侧跑 , 只需要调用 SDK , 就能自动完成核间的功能调度 , 更易用 , 性能表现也更佳 。
回到第二个问题 , 要提供多大的算力?算力不是越大越好 , 需要的是与场景匹配的最佳算力 。
胡春旭介绍 , 在定义 RDK S100 之前 , 地瓜机器人与业内做不同形态机器人的 50 家公司进行深度交流 , 挖掘共性需求 。 团队发现 , 未来三年之内有望最快实现量产突破的场景不会是人形机器人 , 更可能是四足、轮足机器人甚至机械臂或物流车 。 这些产品会有着相对明确的应用场景 , 经过评估 , 百 TOPS 左右的算力就能很好满足 , 也非常适合大小脑架构的应用 。
从这一点来看 , RDK S100 以最适合大小脑的架构设计 , 为近两三年最可能的落地场景 , 提供了最匹配的算力规格 , 精准卡位满足开发者切实需求 。
RDK S100 正在跑通机器人落地全图景
心理学家弗洛伊德曾提出著名的「冰山理论」—— 显性部分只是表象 , 隐性部分才是本质 。
冰山理论在自动驾驶和机器人行业都十分适用 。 开发平台的硬件本体只是「冰山一角」 , 背后涉及的算法、数据、系统优化、应用适配等大量系统性工程支持 , 则是决定产品能否落地的「水下根基」 。
地瓜机器人在冰山之下的工作 , 基本围绕着开发者的核心诉求展开:以最快的速度 , 实现最好的性能表现 。 通过软硬一体、端云协同全链路开发基础设施 , 缩短机器人从开发到落地的整个周期 。
为了帮助开发者以最快速度部署端侧算法 , 地瓜机器人通过 ModelZoo 算法仓中提供了感知、决策、行动等 110 种以上模型 , 同时还给出了每个模型的性能指标 , 快速做出选择 。
针对平台迁移需求 , 地瓜机器人配套全新的工具链 , 可快速完成算法量化、模型调优 , 在 RDK S100 上快速部署 。
针对具身智能开发普遍面临高质量数据匮乏的难题 , 地瓜机器人一方面以端云一体的数据闭环工具链 , 覆盖从数据采集、标注 , 到训练和部署的整个链路;另一方面 , 更以 Sim2Real 系统化方案 , 通过仿真的方式 , 帮助开发者进行各类场景下的数据生成 , 为解决高质量数据缺失难题提供有效的解决方案 。 高效的数据闭环可以大幅提高迭代效率 , 让机器人快速成长 , 甚至从第一天一个 3 岁小孩的水平 , 到第十天变成一个稳重的老司机 。
这些全面的基础设施支持不仅赋能于开发者 , 地平线与生态伙伴也在深度实践 , 目前已基于 RDK S100 跑通了多种场景 , 构建了多种应用方案示例 , 并且全部向开源社区开放 。
比如 , 在宇树 G1 人形机器人上实现各种运动姿态的高效精准控制 , 而且通过把模型放在 BPU 上推理 , 占用率仅为 2%;相较纯 CPU 推理 , CPU 的占用降低了 250% , 显著缩短了响应延迟 。
又比如 , 在宇树 Go2 四足机器人上复现 CoRL 2022 获奖论文《Walk These Ways》中的多种仿生步态 , 让机器狗可以灵活做出四足腾跃、弹跃行进、对角步态、同侧踱步等动作 , 而且各种地形都能稳健应对 。
此外 , 在 HugggingFace 的 LeRobot 全开源双臂方案上复现 ACT Policy 端到端具身智能算法 , 实现零卡顿双臂自主叠衣 。 而且包括 3D 打印、各种元器件、RDK S100 机器人开发者套件在内 , 整套方案成本不超过 5 千元 。
这些场景的跑通 , 印证了 RDK S100 有潜力支持机器人在商业清洁、智能家居、工业制造、物流仓储、零售服务领域实现规模化的落地应用 。
据介绍 , 目前 20 多家与地瓜机器人合作的头部具身智能客户中 , 有些已经在做量产开发 , 甚至基本已到达了量产状态 , 广泛覆盖人形、半人形、四足机器狗以及各种智能化方案商 。
如何激发具身智能产业爆发?
随着「大小脑」分层架构、一体化端到端技术路线在自动驾驶领域相继得到验证 , 具身智能的技术路径有望进一步收敛 。 技术范式的统一 , 也将给计算平台的设计提出了更明确的思路 。
面向具身智能的计算平台架构在中短期内将呈现双线并行的发展态势 , 以满足大小脑分层模型架构的「算控一体」中等算力方案 , 以及面向端到端、VLA 模型的大算力方案 。 这两种方案 , 将共同构成支撑具身智能落地的关键基础设施 。
地瓜机器人想要扮演的角色 , 正如英伟达建立的 CUDA 生态那样 , 以通用的软硬件基础设施底座来支撑机器人领域中的各种可能 。 甚至在软硬件之外 , 还会提供产业维度的资源支持 。 比如地心引力计划 , 会从硬件层面的优惠 , 到软件层面的技术支持 , 再到整个产业链的引荐 , 以及资本的对接 , 为国内的机器人开发者提供最友好、最全面的生态资源服务 。 目前 , 该计划已汇聚了超过 200 家初创公司 , 初具规模 。
如此来看 , 这套策略就像守株待兔 , 提供足够肥沃的土地、氧气 , 以及外部资源 , 让养分足够多、树桩足够多 , 未来就一定会有越来越多的兔子撞上来 。 至于哪个兔子先撞到哪个树桩里 , 并不是关键问题 , 只要又快又多 , 或许就能撞出一个「iPhone 时刻」 。
推荐阅读
- 华硕天选6 Pro酷睿版入手正当时:国补+618优惠到手只需7199.2元
- 华为nova 6第六台鸿蒙设备,期待,能等到老机型鸿蒙内测的一天
- 从3499元跌至2804元,16GB+1TB+骁龙8Gen3,售价更加亲民了
- 从3999元跌至2141元,三主摄+66W无线充+绿洲护眼,荣耀售价更亲民了
- 我爸对华为的手机已经恨之入骨,就是用不坏,都找不到适当的理由
- REDMI K Pad杀到!首发多项新技术 4K内配置最豪华小平板
- 喷墨和激光到底哪个好?看完就明白了
- 小米果断清仓,从6999元跌至3935元,徕卡影像+2K屏幕+双向卫星
- Gartner:到2030年,守护代理将占约15%的代理型AI市场份额
- 致敬老罗!特朗普高调推出T1手机,价格不到iPhone16Pro的一半
