诺奖得主、谷歌AI掌门人泼冷水:所谓“博士级智能”纯属无稽之谈

诺奖得主、谷歌AI掌门人泼冷水:所谓“博士级智能”纯属无稽之谈

文章图片

诺奖得主、谷歌AI掌门人泼冷水:所谓“博士级智能”纯属无稽之谈

智东西
编译 | 陈骏达
编辑 | 李水青
智东西9月15日报道 , 昨日 , 谷歌DeepMind的AI应用Gemini凭借其图像编辑模型“Nano Banana”的病毒式传播 , 在美区苹果App Store免费应用榜中取代ChatGPT , 强势登顶 , 成为该区域最受欢迎的应用之一 。
近日 , 这场现象级的爆火背后的缔造者——2024年诺贝尔化学奖得主、谷歌DeepMind创始人兼CEO Demis Hassabis , 在All-in峰会上进行了一场深度分享 , 系统阐释了从爆款产品到AGI未来的宏大议题 , 内容横跨世界模型、机器人、AGI定义、科学智能、创作的未来和能源等多个前沿维度 。
Hassabis将谷歌DeepMind定位为驱动谷歌的“AI引擎室” , Gemini、Genie、Veo等模型 , 都在深度融入谷歌的现有产品 。 其中 , Genie 3世界模型正通过“逆向工程”学习物理规律 , 未来可能会推动机器人技术革命 。 谷歌还在Gemini的基础上打造机器人模型 , 有望形成“机器人安卓系统”这样的通用平台 。
对于业界热议的AGI前景 , Hassabis给出了冷静判断 , 直言当前部分竞争对手所谓的“博士级智能”是“无稽之谈”(nonsense) 。 虽然并未指名道姓 , 但相关表述很有可能指的是OpenAI联合创始人兼CEO Sam Altman对GPT-5能力达到“博士级智能”的争议表述 。
Demis Hassabis(右)接受采访(图源:Youtube)
Hassabis认为 , 目前AI系统最大的缺陷 , 就是无法提出真正有创造性的观点 。 要实现AGI系统 , 我们仍需等待1-2个关键技术突破的出现 。 他还透露 , 其领导的AI药物发现公司Isomorphic进展迅速 , 预计明年进入临床前研究 , 旨在将新药研发周期从数年缩短至数周 。
自上世纪90年代起 , Hassabis就一直在从事AI相关研究 , 尤其对科学智能(AI for Science)有深厚的兴趣 。 他认为 , AGI有望成为科学探索的终极工具 , 其实现意味着科学黄金时代的到来 , 有望开启又一场文艺复兴 。
以下是Hassabis在All-in峰会上采访的实录:

一、诺奖公布前10分钟才知晓 , DeepMind已成谷歌“引擎室”主持人:首先恭喜你获得诺贝尔奖 。 关于AlphaFold这一重大突破 , 大家都很想听听你得知获奖时的情景 。 当时你在哪里?是怎么得知的?
Demis Hassabis:那是一个非常超现实的时刻 。 整个过程都很不真实 。 他们通知的方式是 , 在消息对外公布前大约十分钟打电话给你 。 当你接到来自瑞典的电话时 , 整个人都懵了 。 这是每个科学家梦寐以求的电话 。
之后就是在瑞典与王室共度的一整周颁奖典礼 , 非常神奇 。 最令人震撼的部分是 , 他们会从保险库里拿出诺贝尔奖签名簿 , 你可以在那上面签下自己的名字 , 和所有伟大人物并列 。
翻阅那些页面时 , 你会看到费曼、居里夫人、爱因斯坦、玻尔的名字 , 然后你也把自己的名字写进那本书里 。 这真是难以置信的时刻 。
主持人:你之前有没有想过自己可能会获奖?
Demis Hassabis:外界会有一些传闻 , 但令人惊讶的是 , 即便在当今时代 , 诺奖评选方依然能把消息保密得如此严密 。 这个奖对瑞典来说就像是国宝 。
会有人说AlphaFold这种成果足以配得上诺奖的认可 。 但诺贝尔奖不仅看重科学突破 , 也重视对现实世界的影响 , 而这种影响往往需要二三十年才能完全显现 。 即使听到风声 , 也无法预料会不会真的发生 。 对我来说是一个惊喜 。
主持人:那我们来聊聊DeepMind 。 在Alphabet内部 , DeepMind是什么定位?具体负责什么?
Demis Hassabis:我们现在称之为谷歌DeepMind 。 几年前我们把谷歌和Alphabet内部所有的AI研究合并到一起 , 包括谷歌DeepMind 。 各团队的优势汇集成了一个部门 。
如今谷歌DeepMind是整个谷歌和Alphabet的“引擎室” 。 DeepMind打造的主力模型Gemini , 以及其他许多模型 , 包括视频模型、交互式世界模型等 , 都已经融入到谷歌各个产品中 。
几乎每一项产品、每一个服务领域都有我们的AI模型 。 如今已有数十亿人通过AI概览、AI模式、Gemini应用等使用Gemini模型 。
而这仅仅是开始 , 我们还把它整合进Workspace、Gmail等等 。 这对我们来说是绝佳机会——既能做前沿研究 , 又能立刻将成果推送给数十亿用户 。
主持人:你们的团队规模有多大?人员构成是怎样的?
Demis Hassabis:大约有5000人 , 其中80%以上是工程师和博士研究员 。

二、Genie靠逆向工程学会物理规律 , 最终可推动机器人技术发展主持人:模型在不断演进 , 新模型层出不穷 。 前几天你们发布了Genie 3世界模型 。 能给大家介绍一下吗?
Demis Hassabis:这些画面都是可互动的世界 , 根据文本提示实时生成的 , 用户可以用方向键和空格键操控3D环境 。
画面中 , 每一个像素都是即时生成的 , 直到用户进入那个区域 , 它才存在 。 整个过程充满细节 。
比如这个例子里 , 有人正在给房间刷漆、在墙上画东西 。 玩家转头看向右边时 , 那部分世界才被生成 。 然后再回头时 , 刚才留下的笔迹还在 。 这一切都是实时生成的 。
你还可以输入“穿着鸡仔戏服的人”或“水上摩托”之类的提示 , 它会立刻把这些元素加入场景中 。 真的非常震撼 。
主持人:我觉得最难理解的地方是 , 我们都玩过带有沉浸式3D元素的电子游戏 , 但那些世界里的物体都是预先建好的 , 需要Unity或Unreal这样的渲染引擎 。 而Genie是在即时生成2D图像 。
Demis Hassabis:Genie实际上是在对物理学进行“逆向工程” 。 它看过数百万条YouTube视频和其他现实世界素材 , 仅凭这些就推演出了很多世界运作的规律 。
当然 , 它还不完美 , 但已经能生成一致的一两分钟交互体验 , 而且不限于人类角色 , 甚至可以操控海滩上的狗或水母 。
主持人:3D渲染引擎的工作方式是这样的:程序员需要把所有物理规律都编写进去 , 比如光线的反射方式 。 程序员需要创建一个三维物体 , 然后让光线在上面反射 , 这样软件才能渲染出来 。 但Genie完全不同 , 它是通过视频训练出来的 , 却自己推理出了这一切 。
Demis Hassabis:没错 , 它既用真实视频 , 也用部分游戏引擎合成数据来训练 。 这一项目与我的个人兴趣很有渊源 , 在90年代我职业生涯早期时 , 我便曾经开发过电子游戏和游戏内的AI系统 , 还自己做过图形引擎 。
我知道当年要靠手工编写多边形、物理引擎有多么困难 。 而现在这个模型可以毫不费力地做到 , 甚至能实时渲染水面反射、材质流动、物体互动等复杂效果 。
主持人:这些画面的复杂性是难以想象的 。 这会把我们带向何方?比如推演到Genie 5?
Demis Hassabis:虽然Gemini语言模型的能力在不断进步 , 但它从一开始就被设计为多模态 , 可以处理图像、音频、视频等各种输入 , 并生成各种输出 。
我们之所以要构建这样的模型 , 是因为我们认为真正的AGI必须理解我们周围的物理世界 , 而不仅仅是语言或数学这些抽象领域 。
这是机器人技术能够运作的关键 , 目前这块能力还是缺失的 。 同时 , AI眼镜如果想要在日常生活中发挥作用 , 也需要理解所处的物理环境和周围世界的工作原理 。
像Genie、Veo这些项目 , 实际上都是在训练AI去掌握世界的动态和物理规律 。 如果模型能生成一个交互式的世界 , 那就说明它在某种程度上理解了世界的运行逻辑 , 而这最终可以推动机器人技术的发展 。

三、谷歌想打造“机器人领域的安卓系统”主持人:视觉、语言与行动模型(VLA模型)的最新进展如何?我们能否构建一个通用系统:机器人通过摄像头观察世界 , 然后我可以用文本或语音告诉它“请帮我完成某件事” , 而它知道如何在物理世界中执行相应的行动?
Demis Hassabis:是的 , 正是如此 。 例如 , 你可以尝试我们推出的Gemini Live版本:只需举起手机 , 它就能观察你周围的世界 。 我建议大家亲自体验一下 , 它已经能够理解物理世界中的许多内容 , 这一点非常令人惊叹 。
下一步 , 我们可以设想将其集成到更便携的设备中 , 比如眼镜 。 那样它就会成为一个日常助手——当你在街上行走时 , 它可以为你推荐信息 , 或者我们可以将其嵌入谷歌地图等功能中 。
在机器人领域 , 我们开发了Gemini机器人模型 , 它们是基于Gemini模型、并利用额外机器人数据进行微调的版本 。
今年夏天我们发布了一些演示 。 我们布置了桌面环境 , 两个机械臂在桌上与物体互动 , 而你可以直接用语言与机器人交流 。 比如你可以说“把黄色的物体放进红色的桶里” , 它就能将语言指令转化为电机动作 。
这体现了多模态模型的力量 , 而不仅仅是传统的机器人专用控制模型——它能够将对现实世界的理解融入与人的交互中 。 最终 , 这种模型能力将同时服务于用户交互体验 , 以及机器人与世界的交互 。
主持人:我曾经问过谷歌CEO Sundar Pichai:我们是否最终能构建出一种机器人的通用操作系统 , 类似于Unix或安卓 。
如果它能足够通用 , 可以在多种设备上运行 , 那么机器人设备、公司与产品将迎来爆发式增长 , 因为存在一种可广泛适配的软件基础 。
Demis Hassabis:这正是我们正在推进的策略之一 , 可以称之为“机器人领域的安卓战略” 。 但另一方面 , 将我们最先进的模型与特定类型的机器人设计进行垂直整合 , 实现端到端学习 , 也非常有趣 。 这两种策略我们都在积极探索 。

四、人形与专用机器人将共存 , 算法仍需进一步发展主持人:人形机器人是否是一种合理的外形呢?有人认为它适合人类 , 因为我们自己就是人形 , 但解决问题可能需要不同形态的机器人 , 比如专门叠衣服、洗碗或打扫的形态 。
Demis Hassabis:我认为两者都会存在市场 。 实际上 , 五到十年前我曾认为我们会为特定任务开发特定形态的机器人 。 在工业领域确实如此 , 无论是实验室或生产线 , 你会根据任务优化机器人的形态 。
然而 , 对于通用或个人用途的机器人 , 尤其是需要与人类环境交互的场景 , 人形机器人可能非常关键 。
毕竟 , 我们的物理世界是为人类设计的:台阶、门道……一切设施都符合人的形态 。 与其改变整个世界 , 不如让机器人适应我们已有的环境 。
人形机器人在这类任务中可能非常重要 。 但我相信 , 专用形态的机器人同样会有其市场空间 。
主持人:你对未来五到七年的机器人数量有什么看法?比如 , 你是否认为会有数百万甚至数千万的机器人?你有没有一个愿景?
Demis Hassabis:是的 , 我有 。 我在这方面花了很多时间思考 。 我觉得我们仍然处于机器人技术的早期阶段 。 在接下来的几年里 , 机器人技术或许将会有真正的“Wow”的时刻 。
但我认为算法还需要进一步发展 。 机器人模型的底座 , 也就是通用模型 , 还需要变得更好、更可靠 , 并且更好地理解周围的环境 。 这将在接下来的几年内实现 。
在硬件方面 , 我认为最终会有成百上千万机器人出现 , 关键在于硬件合适能发展到可以进行大规模生产的程度 。 当你开始建造大批量生产某款机器人的工厂时 , 就很难快速迭代机器人设计 。 如果你过早地开始大规模生产 , 那么6个月后可能会出现新一代机器人 , 它更可靠、更灵活 , 这就比较棘手了 。
主持人:用计算机类比的话 , 我们处于70年代的PC DOS时代 。
Demis Hassabis:是的 , 可能就是这样 。 我认为也许这就是我们所处的位置 , 但当时耗费10年完成的进展 , 在如今可能1年内就会发生 。

五、AGI将成为科学探索终极工具 , 目前AI系统仍缺乏创造力主持人:让我们来谈谈其他应用 , 特别是在科学领域 。 我始终认为 , 我们能够用AI解决的最伟大的问题 , 是那些人类目前凭借现有技术和能力以及我们的大脑等还无法解决的难题 。
你对哪些科学领域的突破感到最兴奋 , 以及我们将使用什么样的模型来实现这些突破?
Demis Hassabis:将AI用于加速科学发现 , 并为人类的医疗健康事业做贡献 , 是我投身AI研究的初衷 , 也是我眼中AI最重要的应用领域 。
如果我们以正确的方式构建AGI , 它将成为科学探索的终极工具 。 DeepMind在这方面已取得多项重要成果 , 最著名的例子是AlphaFold 。
实际上 , 我们已将AI系统应用于多个科学领域 , 包括材料设计、等离子体与聚变反应堆控制、天气预测 , 甚至解决数学奥林匹克竞赛问题 。 同样的系统 , 经过微调就能解决很复杂的问题 。
但我们目前仍然只是触及表面 , AI系统尚未展现出真正的创造力 , 还无法像人类科学家那样提出新的猜想或理论 。 我认为 , 这将是衡量AGI实现与否的关键标准之一 。
主持人:你认为什么是创造力?
Demis Hassabis:我认为创造力是那种我们常常在历史上最伟大的科学家和艺术家身上看到的直觉性飞跃 , 也许是通过类比推理实现的 。 心理学和神经科学中有许多相关理论 。
我认为一个不错的测试方法是 , 给现代AI系统设定一个知识截止时间(比如1901年) , 然后观察它是否能像爱因斯坦那样 , 在1905年提出狭义相对论 。 如果能够做到 , 那可能意味着我们真正接近AGI 。
另一个例子是我们的AlphaGo程序 。 它在十年前击败了世界围棋冠军 , 甚至还发明了前所未有的新策略 , 比如第二局中著名的第37手 。
但目前的AI系统还无法创造出像围棋这样兼具优雅性、满足感与审美价值的游戏 。 我认为 , 这正是当前通用系统或AGI系统所欠缺的 。

六、“博士级智能”远未实现 , 仍有部分关键能力缺失主持人:你能分享一下具体哪些部分还有短板吗?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出“AGI即将在未来几年实现”的观点 , 你认同吗?
Demis Hassabis:这个问题的核心在于 , 我们是否能让AI系统模仿那些顶尖人类科学家所展现出的那种直觉式飞跃 , 而不是仅仅做出渐进式的进展 。
我常说 , 区分伟大科学家与优秀科学家的关键在于 , 两者在技术上都非常出色 , 但伟大的科学家更具创造力 。 他们可能会从其他学科领域中发现某种模式 , 并将其类比或匹配到正在研究的问题上 。
我认为未来的AI终将具备这种能力 , 但目前它还缺乏实现这种突破所需的推理能力和思维方式 。
此外 , 现有AI系统也缺乏能力的一致性 。 有时我们的竞争对手声称AI系统已达到“博士级智能” , 我认为这就是无稽之谈(nonsense) 。
它们不是博士级智能 , 可能在某些方面具备博士级能力 , 但并非在所有领域都达到这一水平——而真正的通用智能应能做到这一点 。
正如我们所体验到的 , 如果你以某种方式提问 , 当前的聊天机器人甚至会在高中数学或简单计数问题上出错 。 真正的AGI系统不应出现这类错误 。
我认为 , 要实现能够胜任这些任务的AGI系统 , 可能还需要五到十年的时间 。 另一个尚未实现的核心能力是持续学习 , 即系统能够在线接受新知识或调整其行为 。
目前这些能力仍然缺失 , 也许通过扩大模型规模可以实现一部分 , 但我认为可能还需要一两个突破性的进展 , 这些突破有望在未来五到十年内出现 。

七、模型性能提升未停滞 , Nano Banana或实现创作普惠主持人:一些报告和评分似乎反映出两种趋势:第一 , 大语言模型的性能逐渐趋于收敛;第二 , 性能提升的速度可能正在放缓甚至趋于平稳 。 这两种说法是否基本准确?
Demis Hassabis:实际上 , 我们内部并未观察到这种现象 。 我们依然看到显著的进步速度 , 并且我们的视角更为广阔 。 例如 , 我们的Genie模型、Veo模型 , 以及最近的Nano Banana , 都展现出令人瞩目的进展 。
我认为 , 未来创意工具的发展方向是用户能够与它们自然交互 , 甚至通过对话进行操作 , 而系统能够以高度一致的方式响应用户需求 , 就像Nano Banana一样 。
它不仅在图像生成领域处于领先地位 , 更突出的是其一致性——能够在遵循指令的同时保持其他元素不变 , 使用户能够通过迭代获得理想的输出 。 这种能力预示着创意工具的未来 , 人们很喜欢这一模型 , 也喜欢用它来创作 。
主持人:我记得小时候为了学习如何在Photoshop中去除图像中的某些部分 , 不得不购买书籍 , 学习复杂的操作如填充、羽化边缘等 。 而现在 , 任何人都可以通过Nano Banana轻松实现这些效果 , 只需向软件描述需求 , 它就能自动完成 。
Demis Hassabis:这一方面 , 这些工具正变得普惠化 , 普通人无需学习复杂的用户界面即可进行创作;另一方面 , 我们也在与顶尖创意人士合作 , 打磨工具的设计 。
例如导演达伦·阿伦诺夫斯基及其团队 , 他们使用Veo等工具制作电影 , 并帮助我们优化工具功能 。
通过与这些专业人士的合作 , 我们发现这些工具不仅适用于普通用户 , 还能以十倍、百倍的幅度 , 提升顶级创作者的生产力 。
他们可以以极低的成本尝试更多想法 , 并快速实现高质量的作品 。 因此 , 我们认为这两方面是并行不悖的:我们既面向日常使用场景 , 将这项技术普惠化 , 也在赋能高端专业用户 。
那些懂得如何使用这些工具的人 , 以及拥有愿景、叙事风格和讲故事能力的顶尖创意人士 , 能将这些工具发挥出更好的效用 。
主持人:从文化角度看 , 一个有趣的问题是:未来娱乐内容将如何演变?是会每个人都能定制自己感兴趣的内容 , 例如根据特定音乐风格生成新曲目 , 或基于电影《勇敢的心》创建游戏体验?还是仍然保持一对多的创作模式?
从文化角度看 , 这个问题颇具哲学意味 。 我们是否仍然需要由创作者共同构建的、具有共识性的叙事?抑或是每个人都将开始开发和构建自己独特的虚拟体验?
Demis Hassabis:基于我从90年代起从事游戏设计和编程的经验 , 我认为当前所见只是娱乐产业未来的起点 。 未来可能会出现全新的艺术形式或内容类型 。 在这种模式下 , 虽然会存在一定程度的共同创作 , 但我始终认为顶尖的创意愿景家仍将发挥关键作用 。
这些创作者能够构建出引人入胜的体验和动态叙事 , 即使使用相同的工具 , 他们的作品质量也会远超普通用户 。 与此同时 , 数百万用户不仅可以进入这些世界 , 还能参与部分内容的共同创造 。 在这种情况下 , 顶级创意者可能更倾向于扮演”世界编辑者”的角色 。
这正是我们接下来几年希望探索的方向 , 目前正在通过Genie等技术逐步实现这个愿景 。
【诺奖得主、谷歌AI掌门人泼冷水:所谓“博士级智能”纯属无稽之谈】
八、大量时间投入AI药物发现公司 , 明年进入临床前期研究阶段主持人:你如何分配你的时间?也许你可以谈一下Isomorphic , 你是不是在那儿投入了大量时间?
Demis Hassabis:是的 , 我确实投入了大量时间 。 这是一家从DeepMind拆分出来的公司 , 正致力于通过蛋白质折叠技术AlphaFold的突破来革新药物发现领域 。
虽然理解蛋白质结构是关键突破 , 但这只是药物研发过程中的一个环节 。 Isomorphic正在开发与AlphaFold相关的多项技术 , 致力于设计能够精准靶向蛋白质且避免副作用的化合物 。
我们预计能将药物发现周期从现在的数年甚至十年 , 缩短到数周级别 。 目前我们正在构建技术平台 , 与礼来、诺华等制药企业建立了深度合作 。
同时我们也在推进内部药物研发项目 , 预计明年进入临床前期研究阶段 , 后续将由合作伙伴推进临床实验 。 我们的研究重点涵盖癌症、免疫学和肿瘤学等领域 , 并与MD安德森癌症中心等机构保持合作 。
主持人:在药物发现领域 , 我们需要如何平衡确定性模型(基于物理化学原理)与概率性模型(基于数据训练)的协同工作?
Demis Hassabis:我们正在构建混合模型系统 , 未来5年也是如此 。 以AlphaFold为例 , 它既包含基于神经网络和Transformer的概率学习部分 , 也整合了化学物理规则的确定性约束 。
在生物化学领域 , 数据稀缺是常态 , 因此需要融入已知的科学原理作为约束条件 。 比如原子之间的键角 , 让模型理解原子之间不能相互重叠等 。
理论上 , 它可以从数据中学习这些 , 但那将浪费大量的学习能力 , 因此最好将这些作为约束条件纳入其中 。
就像AlphaGo一样:让一个神经网络学会识别棋局中的模式 , 再在上面加一层蒙特卡洛树搜索来做规划 。 难点在于如何把学习型子系统与人工定制的子系统无缝结合 。
主持人:这种架构能否带来通向AGI的突破?
Demis Hassabis:我认为 , 一旦把混合系统跑通 , 下一步就是把得到的知识反哺回学习组件 , 尽量做端到端学习 , 让模型直接从数据里预测目标 。
一旦用混合系统完成了初步研究 , 就可以进行逆向工程 , 看看是否可以将这些信息纳入学习系统 。
这正是AlphaZero的做法:抛弃人类棋谱和围棋专用知识 , 从零自我对弈 , 结果不仅能下围棋 , 还能通吃任何棋类 。

九、AGI将开启科学的黄金时代主持人:AI的能源需求是一个热点话题 。 这些能源需求将从何而来?模型架构、硬件 , 或者模型与硬件的协同会不会逐渐改进 , 最终把每个token的能耗或成本降下去 , 让总能源需求曲线走平?还是说并不会 , 我们仍要面对一条很陡的需求曲线?
Demis Hassabis:我认为这两种情况都是正确的 。 在谷歌DeepMind , 我们专注于打造非常高效的模型 , 因为我们在内部有很多用例 , 需要为数十亿用户提供AI服务 。 模型必须极其高效 , 极其低延迟 , 并且成本低廉 。
因此 , 我们开创了许多技术 , 使我们能够做到这一点 , 比如蒸馏 , 让大模型教小模型 。 过去两年 , 在同样的性能水平上 , 模型效率提高10倍甚至100倍 。
现在 , 能源需求没有减少的原因是 , 我们还没有达到AGI 。 对于前沿模型 , 我们需要更大规模上尝试和实验新的想法 。 但在服务端 , 模型正变得越来越高效 。 所以这两种情况都是正确的 。
最终 , 从能源角度来看 , 我认为AI系统将在能源和气候变化等方面回馈更多 , 而不是消耗更多 。 在未来10年内 , AI将在电网系统、电力系统、材料设计、新型材料、新型能源来源等方面发挥巨大作用 , 这些贡献将远远超过它今天所消耗的能源 。
主持人:作为最后一个问题 , 请描述一下10年后的世界 。
Demis Hassabis:哇 , 10年甚至10周在AI领域都是一段很长的时间 。 但我确实认为 , 如果我们能在未来10年内实现AGI , 那么这将开启一个科学的新黄金时代 。 一场新的文艺复兴 。 我们将在能源、医疗等各个领域见证AGI带来的好处 。
来源:Youtube @allin

    推荐阅读