
文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

有一说一 , 最近国内的AI大模型圈 , 属实有点安静了 。
先不谈大伙万众瞩目的DeepSeek-R2了 , 这玩意除了半真半假的爆料以外 , 没有一点动静 。
去年打得你来我往的AI六小虎 , 今年好像也和小猫一样蔫了 。
虽说也有发布 , 但总的来说 , 确实没什么特别让人惊艳的产品 , 也没啥让人使用的欲望 。。
但就在昨天凌晨 , 沉睡的小虎突然嚎了一声:MiniMax宣布 , 开源他们的首个推理模型MiniMax-M1 。
从跑分图来看 , 其他方面算是中规中矩 。 但MRCR这项测试 , 也就是上下文长度测试 , 似乎表现出了惊人的统治力 , 跟其他开源模型拉开了一大截 , 仅略逊于Gemini2.5Pro 。。
而且据Minimax团队博客所说 , 强化学习阶段的算力成本仅有50多万美元 。
又来个以小博大吗?有点意思 。
世超也去下载了他们的技术报告看了一眼 , 给大家说说里面的亮点吧 。
首先 , MiniMax采用了一种叫“闪电注意力”的机制 。 其实也不算什么新机制 , 算一种传统注意力机制的优化版 。 简单来说就是让模型在处理数据时 , 需要读写的次数更少 , 因此大大提升了模型的效率 , “闪电“这名字当然也是这么来的 。
其次 , MiniMax-M1 的 RL 训练框架上也进行了创新 。
我们经常在推理模型里看到“嗯”、“等等”、“啊哈”这样的词 , 咱感觉它们没啥用 , 但其实它们对模型训练来说非常重要 。
但 , 一些旧的算法在训练过程中 , 也会觉得它们没用 , 所以很容易忽略它们 。。
所以MiniMax提出了一种叫CISPO的新算法 , 解决方法是 , 稍微调低一点这些词的“影响力” , 这样既能让 AI 学到关键的推理思路 , 又不会因为这些语气词而干扰整个训练过程 。
从论文来看 , 这同样提高了模型的训练速度 , 打败了传统的GRPO、DAPO 。
世超也是上手体验了一波 , 总的来说 , 体验可以说还不错 , 有值得说道的地方 。
先聊聊上下文吧 , 可能还有很多差友不知道跑分图中的MRCR( 4-needle )是什么意思 。
之前 , 我们要测试模型的上下文长度 , 使用的招数叫“大海捞针” 。 也就是往一本书的文本里塞一条特殊的信息 , 比如“差评前沿部牛大了” 。
然后把这本书喂给AI , 再问他差评前沿部是不是牛大了 , 用它的回答来看它是不是记住了这条信息 。
但AI圈的内卷已经让这个测试不够用了 , 随之而来的是全新升级版——MRCR(Multi-Round Co-reference Resolution) 。
如果说前面那个叫大海捞针 , 那MRCR(4-needle)就是捞4根针 , 并研究出4根针各自的联系 。
所以 , 这测试不仅考验它能不能在信息海洋里捞到针 , 还要看它能不能在捞针的时候不被冗余信息冲昏头脑 , 可以说是非常难了 。
而MiniMax能把其它模型甩在身后 , 肯定也是有点东西的 。
世超也简单做了个测试 。 我下载了个txt版本的电子书 , 赫尔曼·梅尔维尔的《白鲸记》 , 约20万个单词 。 然后在里面偷偷加了句话:世超吃了生蚝后掉进了泥里 。
生蚝掉进了泥土里 , 原来这就是蚝喜欢泥
然后我把书丢给MiniMax , 并询问它我的问题 , 它的回答言简意赅 。
不错 , 有点水平 。
而Gemini , 则是精准说出了这句话所在的位置 , 第135章 , 而且速度也更快 , 甚至还识别出这句话是我自己加上去的 , 因为它说和上下文并无关联 。。 只能说不愧是第一名 。
但 , 我丢给DeepSeek , 它说它根本读不完 。。
只能说上下文长度这块 , MiniMax确实能算顶级 。
当然 , 只有这个肯定不够 。 世超还在Arxiv上随便找了篇文章 , 专挑那种看不懂的、公式多的 , 差友有看得懂的也可以评论区交流 。
结果我发现 , MiniMax可以作为科研狗的搬砖利器 。
我把文献分别丢给MiniMax、DeepSeek、Gemini , 让它们保留格式翻译文章 。
咱来看看MiniMax的结果:
别的不说 , 这排版看起来就很清爽 , 英文被翻译成了中文 , 但公式的位置完全没变 。 甚至 , 还能把图附在翻译里 。。
虽然内容不是100%正确 , 但看了就让人心情愉悦 , 起码看文献的时候 , 窗口不用切来切去了 。
DeepSeek这边 , 其实也还不错 , 但正文里的图片它就附不上来了 。
但Gemini这边 , 排版甚至有点灾难 。。
因此啊 , 以后大家读文献用MiniMax , 应该又能提升一波效率了 。
接着 , 咱来测下编程能力 , 我让它们做了一个模拟多米诺骨牌的html文件 。 要求也很简单:
点击并拖动鼠标 可以在画布上创建一排多米诺骨牌 。
松开鼠标 后 , 最后一枚骨牌会被推倒 , 引发连锁反应 。
点击屏幕底部的 \"RESET\" 按钮可以清空画布 , 重新开始 。
咱先来看优等生的 。 Gemini直接大手一挥 , 做出来一个完美的程序 。
DeepSeek这边 , UI还挺看着酷炫的 。 就是感觉 , 代码有点投机取巧了 。。 没有感受到碰撞 , 纯纯是让多米诺自己躺平的 。。
MiniMax这边 , 就纯粹不是多米诺了 , 这是给大哥大嫂磕了个响头 。
只能说编程这一块 , 还有进步空间啊 。
从这次发布来看 , MiniMax的确还在搞自己的新东西 , 前一阵还发了自己的声音模型 , 效果也很不错 , 有以假乱真之势 , 感兴趣的差友也可以去试试 。
最后提一句 , MiniMax在发布M1推理模型的同时 , 还宣布了为期五天的连更计划 , 也就是说 , 这周每天晚上都能享受到一款新模型 。 不知道大的还在不在后面?还真让人有点期待了 。
【用50万刀追平世界第一,MiniMax的新模型是怎么做到的?】
推荐阅读
- 骁龙8至尊+卫星通信,荣耀6月用力过猛,16G+1TB跌价1199元
- 618没有买iPhone16?不用后悔,iPhone17更值得买
- 对话红帽高层:如何用开源的方法将AI带入企业
- 手机运存卷到24GB了,是用户刚需还是营销噱头?
- 骁龙8至尊版+1TB存储,售价均不贵,耐用性极强的两款手机!
- GaN,商用大跨步
- Adobe发布Firefly手机应用,旨在整合多家大模型
- 壕无人性!华硕发布黄金版5080显卡,使用6.5克真金
- ChatGPT被指诱导用户陷入阴谋论
- 库克终于妥协,iPhone16e提前跌至“清仓价”,一步到位用六年
