
文章图片
【马斯克20万GPU训出史上最聪明AI,Grok 4重返地球之巅,人类博士全线溃败】
文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

马斯克手中的最后一张牌——Grok 4 , 终于打出来了 。 这个全球最聪明AI , 一上线就刷爆全球榜单登顶TOP 1 , 把所有其他大模型都踩在脚下 。 重磅登场的Grok Heavy , 月费则达到了300刀 。 马斯克已经预言:明年Grok将发现新物理学 。
马斯克的背水一战 , 大获全胜!
在7月10日的发布会上 , xAI的重磅炸弹Grok 4 , 终于在千呼万唤中登场了 。
而它 , 可以说是全球最聪明的AI!
不仅超越了大多数人类研究生 , 甚至比博士都好 。
发布会全程1个小时 , 下面是太长不看的简单总结:
现在 , SuperGrok的用户已经可以用上了 , 普通版月费30刀 , Heavy版月费300刀 。
同时Grok 4 API也已向所有开发者正式开放 , 并将登录第三方云平台 。
刚从政坛上铩羽而归 , 却在AI界王者归来 。
果然 , 马斯克还是那个传说中打不败的男人 。
20万块GPU , 成绩刷爆HLE在各种考试和基准测试中 , Grok 4的成绩惊人 。
比如 , 它在SAT中每次都能拿满分 , 即使从未见过这些题目 。
而在GRE考试中 , 它在所有学科领域 , 都能拿到近乎满分 , 无论是人文学科、语言、数学、物理还是工程 。
可以说 , 在所有学科领域 , Grok 4都比几乎所有人类研究生都要聪明 。
怎么做到的?马斯克进行了揭秘 。
首先 , 比起Grok 2 , Grok 4的训练时间达到了Grok 2的100倍 。
从Grok 2到Grok 3 , xAI投入的主要是预训练算力;但从Grok 3到Grok 4 , 大量算力已经被投入到推理和强化学习中 。
通过训练Grok 2 , 团队第一次大规模扩展了预训练 。
这让他们意识到:如果对数据消融、基础设施和算法进行更细致的处理 , 将预训练的规模可以再提升10倍 , 从而打造出最顶尖的预训练基础模型!
网友直呼:xAI在强化学习上投入的算力 , 竟然和预训练一样多?这太疯狂了!
这就是为什么 , xAI要斥巨资建起有10万块H100的世界级超算Colossus超算 。
如果能收集可验证结果的奖励数据 , 就可以训练模型从第一性原理出发进行思考、推理、纠正自身错误 , 这就是Grok 2推理能力的由来 。
那么 , 接下来 , 如果把Colossus超算的20万GPU全部都投入 , 会发生什么?
答案就是——Grok 4的诞生!
在 「人类最后考试」HLE上 , Grok 4直接成绩刷爆 , 分数惊人 。
HLE总共有2500道问题 , 涵盖了多个学科 , 今年早些时候刚发布时 , 大多数模型的准确率得分仅为个位数 。
原因就在于 , HLE的考题极难 , 比如下面这些题 , 分别是一道关于范畴论中自然变换的数学题、一道关于电环化反映的有机化学题 , 以及一道从希伯来语原文中区分闭音节和开音节的语言学题 。
显然 , 这些题目已经达到了博士级 , 甚至更前沿的难度 。
几乎没有任何一个人类 , 能答对所有这些问题 , 并且取得高分 。 如果能答对5% , 就算人群中极聪明的人了 。
然而 , Grok 4却在HLE的所有领域 , 都达到了博士级别 , 甚至胜过了大多数人类博士生 , 因为后者大概率都会不及格 。
当然 , 如果要说Grok 4目前有什么缺憾 , 就是还未发明出新的技术 , 或者发现新的物理学 。
但马斯克认为 , 这只是时间问题——最早在今年年底 , Grok就会发明出新技术 , 明年它就会发现新的物理学 。
海量算力 , 训出全球最聪明AI团队研究者爆料说 , 其实刚开始 , Grok 4的准确率也只是个位数 。
但随着投入的算力越来越多 , 奇迹发生了!最终 , 它做出了HLE中1/4的难题 , 这还是在没有工具辅助的情况下 。
而在被赋予工具使用能力 , 将工具使用直接融入训练过程后 , Grok 4的性能开始了惊人的暴涨 。
而且 , 目前Grok 4还未使用任何公司级的强大工具 。
如果给它提供企业级的工具 , 比如特斯拉或Space X使用的有限元分析、计算流体力学、碰撞模拟 , 以及高精度的物理模拟器 , 那么毫无疑问 , Grok 4还将发生颠覆级的改变!
比如 , 如果把Grok和擎天柱结合 , 它就可以和真实世界互动 , 提出假设 , 亲手验证真伪 。
「重量级」Grok Heavy登场除了算力的问题 , 我们还需要解决的一大难题 , 就是如何突破数据瓶颈 。
RL的原则 , 就是不仅要找到大量有挑战性的强化学习问题 , 还要有可靠的信号告诉模型 , 它做对了还是做错了 。
然而 , 如今我们已经快找不到可用的测试题了!大多数人类无法解决的难题 , 对AI已经开始变得轻而易举 。
好在 , 我们还有一个绝佳的裁判 , 那就是现实 。 物理学是终极法则 , 对AI最终的推理测试 , 就是现实世界 。
让我们设想一下 , 如果单个AI智能体能解决40%的问题 , 那么同时运行多个智能体呢?
这 , 就是所谓的测试时计算(test-time compute) 。 随着它的扩展 , Grok 4已经能解决HLE中超50%的纯文本题目 。
而如果并行生成多个AI智能体 , Grok 4 Heavy就诞生了!
这些智能体会独立工作 , 互相比较各自的成果 , 决定哪个更好 。 一旦有智能体发现了关键解决方案 , 就会分享给其他智能体 , 最终它们通过交流 , 得出最终答案 。
这就是Grok 4之所以「Heavy」的原因 , 因为测试和计算的规模扩大了一个数量级 。
· Grok 4 Heavy惊人演示
Grok 4 Heavy , 已经进化到可以不止会考试 , 还能解决真实世界中各种刁钻的问题!
比如 , 我们可以让它预测当前美国职业棒球大联盟(MLB)各队的夺冠赔率 。
它能计算出 , 洛杉矶道奇队是今年的夺冠热门 , 获胜概率为21.6% 。
并且 , 我们还能让它生成两个黑洞碰撞的可视化图像 。
在下图中可以看到 , 从两个黑洞相互旋进开始、合并、到达铃振阶段 , 这个碰撞过程大致是正确的 。
尤为精彩的是 , 它使用了后牛顿近似法 , 而非计算黑洞中心附近的广义相对论效应 。
也就是说 , 它进行了一个真实的模拟 , 对该使用的物理常数进行了相当多的推理 。
另外 , 它还能发现X上头像最诡异的xAI员工 。
要知道 , 最神奇的地方就在于 , 它竟然理解了什么是「诡异」 。
如果说Grok 4有什么弱点的话 , 就是目前它还是「部分失明」 , 图像理解能力和生成能力都比较弱 。
不过令人期待的是 , Grok 4是xAI目前训练的第六版模型 , 第七版已经在训练中了!
对于所有AGI模型来说 , 最权威的测试就是ARC-AGI了 。
在直播前24小时 , ARC-AGI团队接到xAI电话后 , 才开始了Grok 4的跑分测试 。
结果显示 , Grok 4是唯一一个成绩突破10%的模型 。
具体来说 , Grok 4(Thinking)在ARC-AGI-2刷新了SOTA , 准确率为15.9% 。
在ARC-AGI-1上 , 它的成绩达到了66.7% 。 同时 , Grok 4实现了每美元智能成本的最优化 。
ChatGPT和Grok 4现场飚语音此外 , 研究人员还改进了Grok 4的「语音模式」 , 延迟率直接减半 , 还新增了两种全新的音色——
Sal:拥有深沉的声线
Eve:音色优美的英伦女声 , 能演绎丰富的情感
接下来 , 直接进入demo 。 xAI员工打开Grok问道 , 「现在正在有数百万人观看我们直播 , 你感到兴奋吗」?
Eve好像真的就在直播现场 , 激动地表示 , 「这就像站在老维克剧院的舞台上 , 看着台下人山人海」 。
它还会低声细语 , 说了一些能够让xAI员工不再紧张的话 。
不仅如此 , Eve现场还献上了一段非常优美的歌剧 , 还能、即兴表演随时更换曲调 , 让人听着陶醉 。
更有趣的是 , 为了测试Grok 4的反应速度 , xAI员工直接让ChatGPT和Grok同台PK 。
任务是 , 我说一句 , 你说一句 , 跟读数字 。
ChatGPT的反应有些迟缓 , 而且并没有依据指令跟读 , 自主说一些不相关的话 。
此时 , Grok的表现令人惊艳 , 一步一步跟着读了下来 。
最后 , 研究人员总结到 , 自Grok模型上线以来 , 在过去八周的时间 , 实现了端到端延迟提速2倍 , 新增了5种不同音色 , 活跃用户量更是增长了10倍 。
足见 , Grok语音功能正在飞速发展 。
Grok 4卖货 , 年入47亿填补GPU巨销那么 , Grok 4在现实生活中能做什么?
赚钱?。。 ?
在Vending-Bench商业场景的基准测试中 , Grok 4能够长期运营自动售货机 , 并且成为了榜单第一 。
在此过程中 , 它不仅要完成库存管理 , 还得与供应商谈判、制作定价策略等任务 。
这些任务看似简单 , 但要求模型「长期持续运营」 , 只有Grok 4能够赚到 , 净资产也是所有模型两倍 。
发布会上 , 马斯克半开玩笑表示 , 「这下我们GPU算力开销有着落了 。 只需要部署100万台自动售货机 , 年收入就能达47亿美元」 。
看来 , 下一步Grok 4也要为自己打工了 。
此外 , Grok 4的诞生 , 将带来生物医药、金融等跨领域的突破 , 重塑商业AI范式 。
如下demo所见 , Grok正成为企业级的智能Copilot , 拥有256k的上下文窗口 , 前沿的多模态推理 , 实时的数据搜索 , 以及企业级的安全能力 。
4小时 , 肝出爆款射击游戏更令人激动的是 , Grok 4在AI游戏实时生成领域 , 大有前途 。
现场 , 员工展示了AI游戏设计师Danny Limanseta , 在极限4小时内 , 制作出了第一人称射击游戏 。
马斯克预言 , 「首个真正优质的AI电子游戏可能会在明年问世 , 今年或许能看到半小时长度的可观看AI剧集 , 而首部AI电影很可能在明年诞生」 。
在未来路线图中 , xAI还计划发布编码模型、多模态智能体和视频生成模型 。
发布会最后 , 屏幕上出现了道格拉斯·亚当斯《银河系搭车客指南》第四部的书名——《再见 , 谢谢所有的鱼》 。
果然 , 还是那个我们熟悉的科幻迷马斯克 。
文明奇点已至马斯克激动表示 , 我们正处于智能大爆炸的起点 。 奇点时刻已经到来 , 这是人类历史上最激动人心的时代 。
而此时最重要的 , 就是打造一个好的AI , 一个善良的AI , 让它去最大程度地追求真理 。
如果把AI看作一个超级天才的孩子 , 它最终一定会比人类聪明 , 而我们能做的 , 就是开始就给它灌输正确的价值观 , 让它追求真实、正直、善良 。
给AI算力 , 加上正确的工具 , 最终还要和物理世界互动 , 到时 , 我们的经济体量将会是现在的数千倍 , 甚至数百万倍!
马斯克说 , 如果把文明进程看作是完成卡尔达肖夫等级的百分比 , 那我们距离1级文明的10%还很远 , 可能只完成了1%或2% 。
1级文明利用整个行星的能源;2级文明利用整个恒星的能源;3级文明利用整个星系的能源
如果文明没有自我毁灭 , 我们就会迈向2级文明 。 跟那时相比 , 我们今天的经济水平 , 会像穴居人往火里扔木棍一样原始 。
马斯克承认 , 亲手创造出这样一个远超人类自身的智能 , 也令人有些不安——它对人类究竟是好是坏?
最终 , 他说服了自己:这个AI大概率是好的 , 就算不是 , 自己也要活到亲眼见证这一切发生的那一天 。
马斯克 , 背水一战如今 , 马斯克真的是破釜沉舟 , 背水一战了 。
本来是特朗普竞选的最大功臣 , 最近他却成了「大而美法案」的最大输家 , 随着「特马同盟」的彻底崩塌 , 马斯克似乎已经无牌可出了 。
首先 , 随着「大而美法案」的出台 , 7500美元的电动汽车购车税收抵免 , 已经提前至2025年9月30日终止 , 从此 , 特斯拉每年的利润损失将高达17亿美元 。
而DOGE前期的努力 , 也随着大而美法案中的大规模赤字扩张而付诸东流 。
政坛的失意 , 让马斯克全美业务的关键布局 , 包括电动汽车、Space X、脑机接口、加密货币等 , 商业利益全面被连累 。
在这种背景下诞生的Grok 4 , 可以说是马斯克最后的希望 。
终于 , 这次发布会上他用Grok 4告诉全世界:我手里还有最后一张牌 。
Grok团队中 , 华人学者占据半壁江山
参考资料:
https://x.com/i/events/1942716886258528256
推荐阅读
- 硅谷最贵华人员工,2亿美元薪酬!比库克还贵?搞AI的是真赚钱啊
- 小扎开价14亿让他换个地方打工,库克连挽留尝试都没有
- 马斯克:Grok即将登陆特斯拉汽车 最迟下周实现
- 130W Max高能集结,多设备快充一个就够!安克130W桌面充电站评测
- 库克接班人退休了,苹果设计也彻底失去了方向?
- 库克接班人迎巨变:硬件主管将成苹果下任CEO,至少工作十年
- Grok4王炸,马斯克请保护好身边那俩华人
- 小黄鱼上涌现大量雷克沙1tb高速tf卡!这都是某多多的功劳嘛?
- 指尖旋控,双色闪耀,菲尼克斯LD35R旋转磁控双光源手电筒体验
- 消息称马斯克旗下SpaceX正筹划新一轮融资 估值预计将达4000亿美元
