高通组局,宇树王兴兴说了一堆大实话

文章图片

文章图片

文章图片

文章图片
王兴兴的大实话 , 在高通攒的这场局上 , 全交代了 。
目前机器人领域技术路线都不一样 , 导致看着热闹 , 但是进展没那么显著;
既然现在大家开发的模型都还不能部署直接用 , 那还不如开放出来 , 就像OpenAI开源GPT-1/2一样;
宇树前几天开源的世界模型也无法直接在工厂中落地使用;
现在机器人和芯片厂商都忽视了芯片对于机器人的重要程度;
手机芯片等类似芯片用到机器人身上是非常有想象空间的 。
侯纪磊对话王兴兴
所有终端都被AI、Agent赋予新想象 , 因为足够new , 具身智能成为被影响最大的那一个领域 。 但也因为足够new , 具身智能的热闹下必然存在诸多争议与挑战 。
宇树科技 , 长期站在聚光灯下的明星玩家 , 此时此刻将行业中的诸多难题直接剖开 。
或许不为别的 , 而是高通攒的这个局太难得 。 2025骁龙峰会·中国 , 聚集了国内外终端领域的核心玩家 , 覆盖上下游产业链 。 在这开诚布公讨论的问题 , 或许将马上成为行业最关注的热点 , 进而能更快得到解决 。
而不止王兴兴 , 来自硬件、模型、操作系统等层级的玩家 , 也都畅所欲言、应聊尽聊:
理想汽车副总裁、智能空间研发负责人勾晓菲
面壁智能CEO李大海
中科创达联合创始人、执行总裁耿增强
侯纪磊对话实践者
高通全球AI研发负责人侯纪磊与他们进行对话 。
为完整体现各位大咖的思考和理解 , 我们在不改变原意的基础上将对话内容进行整理 , 希望您能从中有所收获 。
算力散热通信 , 说到底机器人应该加强对芯片的关注Agent落地终端的终极想象 , 或许就是具身智能 。
宇树科技创始人、CEO、CTO王兴兴表示 , 他们的目标还是希望能够有通用的AI放在通用的机器人上 , 干各种活 , 无论是在工厂还是家用 。
当机器人能在未见过的环境中 , 凭自然语言指令完成任务时 , 就是机器人的ChatGPT时刻 。
他将这个目标拆解为几个阶段分别完成:
1、固定动作演示 → 已实现(如舞蹈、武术) 。 2、实时生成任意动作 → 预计最快今年底/明年初实现 。 3、在陌生场景执行任务 → 预计明年底左右能做到(如拿水、整理桌子) 。 4、高成功率与精细操作 → 需要再数年 , 目标是接近99.9%成功率 , 能完成拆装手机等细致任务 。
示意图
如果想要机器人能够做到这些 , 一个非常关键的问题是对物理环境、自然语言指令的实时理解和处理 , 这就对于端侧AI的通信能力有更高要求 。
王兴兴表示 , 通信是非常重要的 。
目前我觉得包括很多机器人厂商或者芯片厂商 , 都有点点忽视芯片对于机器人的重要程度 。
就像新能源汽车一样 , 最近十几年最大的变化是随着新通信协议出现 , 线缆数量减少了很多 。 早年间一辆油车的线缆数量是非常夸张的 , 可能一辆车里线缆重量就有100公斤 。
在机器人领域也是一样的 , 一个通信线缆是4根或5根线 , 有时为了降低电线数量会花费很多时间和精力 。 因为对于一台机器人来说 , 性能越来越好、机器人越来越可靠 , 降低线缆数量是很重要的 。 迄今为止 , 工业机器人最常见的故障就是线缆出问题 , 可能占到60-70% 。
对于一台机器人来说 , 减少线缆数量的最大问题是要提高整体通信协议、提升通信质量 。
我相信未来机器人的终极想象是每一个手臂上就只有一根线缆 , 别的都没有了 , 多干净整洁 , 想要实现这个目标还有非常多工作要做 , 但这非常值得做 。
此外 , 在底层芯片上 , 王兴兴提到了终端难以部署大规模算力的难题 。
机器人本身的空间就那么大 , 很多时候高算力的芯片都装不进去;同时电池容量、散热 , 对于这么大的机器人来说都是很难解决的问题 。
示意图
他觉得未来具身智能身上部署的算力 , 峰值功耗最好控制在100W以内 , 平均正常功耗可能只要20-30W , 可能就相当于几个手机的功耗 。
太大是不行的 。 我觉得手机芯片等类似芯片用到机器人身上是非常有想象空间的 。
目前处在黎明前的前夜 , 前夜反而是比较麻烦的 。 最大的问题是行业内各家技术路线差别很大 , 都有各自的想法 , 这就会导致这个领域非常热闹 , 但整体进展没那么快 。
当下想要真正把具身智能的通用AI模型做出来 , 在这个阶段 , 大家还是可以保持更开放的态度 , 反正大家做出来的模型都没法部署用 , 不如开放一点 。
前段时间宇树开源了一个基于视频生成的世界模型 , 不只是权重参数 , 包括模型本身、数据集、训练源代码、部署源代码通通开源 。
宇树开源模型
王兴兴说 , 这个模型真正放在工厂或者生活中是不能直接用的 , 那不如开源出来 。 这有一点像OpenAI早年间的时候 , 因为大模型的商业价值或者说距离落地还有点远 , GPT-1、GPT-2都是开源的 。
我们也是希望更多开源能够让大家共同来推动这一领域共同进步 。
至于现在大家总是讨论的VLA模型和世界模型之间的问题 , 说实在的很难讲得非常清楚 , 因为哪怕就是VLA模型、世界模型本身也都有非常多变种 。 我们公司会保持开放的态度 , 尝试各种模型 , 包括自己开发以及和第三方合作等 。
我个人觉得在AI领域要保持谦卑的态度 , 永远有更聪明、更开放的人做更好的东西出来 , 我们保持谦卑的态度去学习 。
有时候我还希望应该把过去很多年的东西尽量忘掉 , 不要被过去限制了自己的逻辑 。
我们的目标是让机器人真正在家庭和工厂里用起来 。 我认为无论是芯片、通信协议、算力、通信架构、甚至是整个无线通信架构可能都需要一些调整 。
包括安全问题 。 现在机器人卖得越来越多 , 有些黑客专门破解我们的机器人 , 这让我们也非常头大 。
在机器人领域还没有那么成熟前 , 可以从很多其他领域借鉴学习 , 包括手机、新能源汽车等 , 去进行更加规范的体系建设、数据采集、模型训练等 。
当下这个领域确实太新了 , 我们每时每刻都会面临一些新的挑战和问题 , 这不是单个公司能解决的 。 我们也希望更多人参与进来解决问题 , 比如我们一般用的Linux系统本身还有很多漏洞 , 我们在开发时需要把底层漏洞完全解决 , 这还是比较花时间的 , 如果有一家第三方公司能把这些问题解决 , 我们也非常愿意合作 , 这是一件非常有价值的事 。
端侧模型将是Agent系统中最核心的编排者Agent根本上是大模型的应用形式 , 目前Agent的形态更偏向云端 , 但是随着落地趋势逐步推进 , 端云协同将是必然 。
面壁智能CEO李大海认为 , 端云协同现在已经是行业共识 , 这样能提供更好的用户体验 。 云端相较于端侧可以提供近乎无限的算力和资源 , 负责解决复杂问题;端侧离用户更近 , 它需要响应速度非常快、同时保障用户隐私 。
端侧有一个非常重要的优势 , 就是“永远在线” , 它可以持续感知世界、实现基于设备隐私的上下文理解、协同云端不同Agent区组织编排完成复杂任务 。
具体到实际的终端上 , 比如在汽车座舱里面 , 就应该有比较强的端侧模型 , 它能够理解用户需求然后去和云侧的模型沟通 。
举一个简单的例子 , 比如说如果在座舱里面通过端侧模型感知到后面的小朋友有哭闹的情况 , 就可以通过端侧先去开启一个云端比较强的语言交互模型 , 说要不要一起聊聊天 , 分散一下注意力 , 给他讲一个故事 。 但这个开启的过程一定是要通过端侧来判断 , 而不是让云侧随时有一个模型在观察我们的座舱里面在做什么 , 这对隐私的暴露是非常大的 。
示意图
我认为终端的端侧模型未来其实是整个Agent系统里最核心的编排者 。
那么未来AI行业对于端侧模型的需求是什么?
李大海认为 , 永远要去提高端侧模型的知识密度 。
因为端侧模型部署在各种硬件设备、走入千家万户和不同用户场景发生交互 , 它需要具备很好的自主学习能力 , 尤其是基于探索的内容进行自我迭代和个性化发展 。 所以端侧模型提升知识密度非常重要 , 面壁智能提出了知识密度每三个月提升一倍的观点 。 相对而言 , 云侧模型会更关注智能水平的提升 , 这二者之间的差异还是很大的 。
在模型自我发展的同时 , 和芯片、终端、系统之间也应该更深度协同 。
在这之中 , 李大海提到了深度合作非常重要 。
站在作为端侧模型公司角度讲 , 我们跟高通这样的芯片厂商有非常深度的合作 , 只有这样深度合作才能够把端侧模型的知识密度能够真正发挥出来 , 能够去用更低的功耗去做到同样的工作 。
另外在应用侧 , 他认为现在只有MCP这一种智能体协作方式肯定是不够的 , 还需要有更多基于用户认证的、安全的协同方式 , 这些是原来在移动互联网时代建设过的基础设施 , 现在需要在AI时代重新做一遍 。
Agent的核心是提供服务的能力终端硬件是Agent的物理载体 , 因为Agent的到来 , 手机、PC、汽车等硬件终端都焕发新活力 。
对于汽车而言 , 它本身就已处在智能化升级进程中 , Agent的到来使这种升级更加全面深入 。
理想汽车副总裁、智能空间研发负责人勾晓菲认为 , 汽车能够实现自动驾驶是行业基本共识了 , 实现自动驾驶后 , 汽车空间内能够提供怎样的服务就会变成各家车企的差异化竞争手段 。
示意图
AI孕育了一个非常大的机会点 , 它有机会把看似割裂的生态集中起来 。 其实很多终端现在都是一个生态的孤岛 , 比如PC的交互是鼠标键盘+图形界面 , 手机的交互是基于触控 , AI这种基于对话的、更加自然的交互会是一个跨终端的统一交互模态 。
现在大家都在谈论Agent , Agent是什么?
今天当大家谈论Windows时 , 默认Windows背后有一大堆服务;在谈论安卓的时候 , 也默认安卓背后有一大堆服务 。 同理 , 在未来大家选择使用哪个Agent其实是看它到底能带来多少服务 。
今年理想汽车也在聚焦做这样的事 , 理想同学作为理想汽车的Agent , 它接入了大量和汽车出行相关的服务 。 今年我们也开始接入车内空间以外的生活场景和服务 , 比如让理想同学点一杯咖啡、交一下水电费、叫一个代驾等 。 它会覆盖更多、更广泛的服务 , 我们相信未来用户选择Agent的核心和现在选择操作系统的逻辑是一样的 。
Agent需要形成行业标准而谈到Agent的服务能力 , 满足用户需求是一方面 , 更关键在于如何让Agent应用、操作系统和底层硬件之间紧密协同 , 从而进一步提升应用体验 。
中科创达联合创始人、执行总裁耿增强认为 , 现阶段AI在不同设备上的应用高度碎片化 。 底层芯片不同、运行操作系统各异、上层模型和Agent框架也不统一 。 这导致行业内存在非常多组合方案 , 重复开发成本高 , 缺乏统一标准 。
核心问题还是缺乏一个跨终端通用的AI OS或者统一的Agent Framework 。 尽管目前MCP、A2A已经取得了一定进展 , 但距离形成行业公认的标准还很远 。
示意图
不过可以确定的是 , 未来在Agent的“穿针引线”下 , 还是可以形成一个跨终端的操作系统 , 提供流转的智能服务 。
这种新时代OS的架构 , 可以将云端视作一个巨大的Cloud OS , 各个终端就是Agent , 与Cloud OS协同工作 , 跨平台的一部分由Cloud OS来实现 。 从单设备来看 , 传统的Linux、Android等系统将被视为虚拟化层 , AI是一种全新的UI , 必然催生新的AI OS 。
聚焦到厂商该如何做 , 其实还是产业共建、协同合作 。
耿增强认为 , 很多事需要“自然发生” , 但行业可以共建一些基础设施 。 比如中科创达已经和高通共建了智能汽车创新中心、智能物联网创新中心 , 通过这两个创新中心支持智能汽车和智能物联网不同设备里终端厂商共同的客户以及生态的合作伙伴 。
在AI方面 , 中科创达和火山引擎成立了理想智能汽车混合AI联合实验室 , 将火山引擎的云上AI和中科创达的端侧AI形成一个混合式AI方案 , 经过高通平台优化后可以更好支持设备厂商、客户创新 。
目前还聚焦在单设备智能 , 但是下一步将走向设备之间的Agent协作 。
【高通组局,宇树王兴兴说了一堆大实话】本文来自微信公众号“量子位” , 作者:关注前沿科技 , 36氪经授权发布 。
推荐阅读
- 高通夏权:AI赋能制造业转型升级,助力重庆打造新质生产力高地
- 高通发布多款骁龙芯片,支持智能体助手是最大卖点丨最前线
- 中国已贡献46%收入,高通只想抱紧中国,抱紧雷军
- 高通:个人AI时代要来了 手表、耳机不再是手机配件
- 2025骁龙峰会·中国启幕:高通携伙伴启动“AI加速计划”
- 高通骁龙8 Gen5已官宣:自研CPU+台积电3nm,比骁龙8至尊版强多少?
- 高通骁龙 8 Elite Gen5 正式发布:性能飞跃,AI与影像全面进化
- 高通发布全球最快移动SoC,还有5GHz的PC处理器!
- 谷歌透露将开发Android PC!高通CEO:我亲眼见过、太不可思议了
- 对话高通中国董事长孟樸:「智能网联汽车」是欧美提出来的,但「中国速度」更快
