
这项突破性研究来自Zoom通信公司的四位研究员——徐思蕾、谢文浩、赵凌霄和何鹏程 , 于2025年3月发表在计算机科学预印本平台arXiv上 。 有兴趣深入了解的读者可以通过论文编号arXiv:2502.18600v2访问完整研究报告 。
【Zoom团队:AI推理新突破提升ChatGPT效率80%】当我们解决复杂问题时 , 比如算数学题或者分析复杂情况 , 大脑通常会在纸上快速记录关键信息——几个数字、一个公式、几个要点 , 而不是写出完整的句子和详细解释 。 然而 , 目前最先进的AI系统如GPT和Claude在处理问题时 , 却像一个过分详细的学生 , 每一步都要写出完整的解释和冗长的推理过程 。 这种做法虽然看起来很\"聪明\" , 但实际上浪费了大量时间和计算资源 。
Zoom研究团队的这项发现彻底颠覆了我们对AI推理的认知 。 他们发现 , 如果让AI模仿人类的简化思考方式——只记录最关键的信息点而不是冗长的解释——不仅能保持同样的准确性 , 还能将处理速度提升数倍 , 同时大幅降低使用成本 。 这就好比把一个啰嗦的顾问变成了一个简洁高效的专家 , 既快又准 。
研究团队将这种新方法命名为\"思维草稿法\"(Chain of Draft , 简称CoD) , 与目前广泛使用的\"思维链法\"(Chain of Thought , 简称CoT)形成鲜明对比 。 传统的思维链法就像让AI写详细的作文 , 而思维草稿法则像让AI只写要点和关键步骤 。 实验结果令人震撼:在保持几乎相同准确率的情况下 , 新方法只使用了传统方法7.6%的文字量 , 大幅减少了处理时间和计算成本 。
**一、从\"话痨AI\"到\"简洁专家\"的转变**
目前的AI推理系统存在一个有趣的矛盾 。 当你问ChatGPT或Claude一个数学问题时 , 它们会像刚学会说话的小孩一样 , 把每个步骤都解释得非常详细 。 比如解决\"小明原来有20个糖果 , 给了小红一些 , 现在还剩12个 , 问给了多少个?\"这样的简单问题 , 传统AI会写出一长串解释:先说小明原来有多少个 , 再说现在有多少个 , 然后解释为什么要用减法 , 最后才给出答案 。
这种详细解释在某些教学场景下确实有用 , 但在大多数实际应用中却是不必要的负担 。 就像你在超市买东西时 , 不需要收银员详细解释每一步计算过程 , 你只需要知道总价是多少 。
研究团队通过对比发现 , 传统的思维链方法虽然提高了AI的推理准确性 , 但代价是生成了大量冗余信息 。 以Claude 3.5 Sonnet为例 , 在处理数学问题时 , 传统方法平均需要生成190个词汇单位才能给出答案 , 而新的思维草稿法只需要40个词汇单位就能达到几乎相同的准确率 。 这相当于把一篇800字的文章压缩成160字的摘要 , 但保持了所有重要信息 。
更令人惊讶的是 , 这种简化不仅没有损害AI的推理能力 , 在某些情况下甚至提高了准确性 。 这是因为过多的冗余信息有时会让AI\"迷失\"在自己的解释中 , 而简洁的要点能帮助AI更好地专注于核心问题 。
**二、人类智慧的启发:为什么少即是多**
这项研究的核心洞察来自对人类思维过程的观察 。 当我们面对复杂问题时 , 大脑实际上采用的是一种高度优化的信息处理策略 。 以解数学题为例 , 我们通常会在纸上快速写下关键数字和符号 , 比如\"20-x=12\" , 然后直接得出\"x=8\" , 而不会写\"首先 , 我注意到小明原来有20个糖果 , 这是我们的起始数量...\"这样的完整句子 。
研究团队意识到 , 人类的这种\"草稿式思考\"实际上是经过数千年进化优化的信息处理方式 。 我们的大脑天然倾向于提取和保留最关键的信息 , 同时舍弃不必要的细节 。 这种能力让人类能够在有限的认知资源下处理复杂问题 。
将这种思维模式应用到AI系统中 , 研究团队发现了令人兴奋的结果 。 通过指导AI只生成最必要的中间步骤 , 而不是详细的解释文字 , AI不仅能更快地找到答案 , 还能避免被自己生成的冗长文字\"绕糊涂\" 。 这就像给一个容易跑题的学生提供了一个简洁的提纲 , 帮助他们保持专注 。
研究还发现 , 这种方法特别适合那些有明确逻辑结构的问题 。 在数学计算、逻辑推理和符号操作等任务中 , 关键信息往往可以用简单的符号和数字表达 , 而不需要冗长的自然语言描述 。
**三、实战效果:三大领域的惊人表现**
为了验证思维草稿法的实际效果 , 研究团队在三个不同的认知领域进行了全面测试:数学推理、常识推理和符号推理 。 这些领域代表了AI系统需要处理的主要思维类型 , 从具体的计算到抽象的逻辑操作 。
在数学推理测试中 , 研究团队使用了GSM8K数据集 , 这是一个包含8500道小学数学应用题的标准测试集 。 结果显示 , GPT-4o使用传统详细解释方法的准确率为95.4% , 每个回答平均需要205个词汇单位 , 处理时间为4.2秒 。 而使用思维草稿法时 , 准确率达到91.1% , 只需要44个词汇单位 , 处理时间缩短到1.0秒 。 Claude 3.5 Sonnet的表现更加出色 , 准确率从95.8%下降到91.4% , 但词汇使用量从190个减少到40个 , 处理时间从3.1秒降至1.6秒 。
这种差异在实际应用中意味着什么呢?假设你运营一个在线教育平台 , 每天需要处理10万个学生的数学问题 。 使用传统方法 , 每个问题的处理成本和时间都很高 , 而使用思维草稿法 , 不仅能将成本降低80%以上 , 还能让学生几乎立即得到答案 , 极大提升用户体验 。
在常识推理测试中 , 研究团队评估了AI理解日期和体育知识的能力 。 这类问题需要AI调用背景知识并进行逻辑推理 , 比如\"如果今天是星期三 , 三天后是星期几?\"在日期理解任务中 , GPT-4o使用思维草稿法的准确率为88.1% , 词汇使用量只有传统方法的40% 。 更有趣的是 , Claude 3.5 Sonnet在体育知识问答中使用思维草稿法时 , 准确率从93.2%提升到97.3% , 同时词汇使用量从189个骤降至14个 , 降幅达到92.4% 。
符号推理测试使用了抛硬币任务 , 这类问题需要AI追踪一系列操作的结果 。 比如\"硬币开始是正面朝上 , 小明翻了一次 , 小红翻了一次 , 小李没有翻 , 请问现在是正面还是背面朝上?\"在这个测试中 , 两种AI系统使用思维草稿法都达到了100%的准确率 , 但GPT-4o的词汇使用量从52个减少到17个 , Claude 3.5 Sonnet从135个减少到19个 , 效率提升令人瞩目 。
**四、方法的核心:如何教会AI\"写草稿\"**
思维草稿法的实现原理其实相当简单 , 但需要精心设计 。 研究团队的核心策略是改变AI的\"写作指令\" , 让它像人类做笔记一样思考 , 而不是像写正式报告一样详细解释每个步骤 。
具体来说 , 传统的思维链方法会给AI这样的指令:\"请逐步思考以下问题 , 在回答结尾用四个井号标记最终答案 。 \"而思维草稿法的指令则是:\"请逐步思考 , 但每个思考步骤最多只用5个词 , 在回答结尾用四个井号标记最终答案 。 \"
这个看似微小的改变产生了巨大的效果 。 当面对\"小明有20个糖果 , 给了小红一些 , 现在剩12个 , 给了多少个?\"这个问题时 , 传统方法会生成类似这样的回答:\"让我们逐步分析这个问题 。 首先 , 小明最初有20个糖果 。 然后 , 他给了小红一些糖果后 , 还剩下12个糖果 。 为了找出给了多少个糖果 , 我们需要计算初始数量和剩余数量的差值...\"
而思维草稿法的回答则简洁得多:\"20-x=12;x=20-12=8 。 ####8\"
这种差异不仅体现在文字数量上 , 更重要的是思维方式的转变 。 传统方法像是让AI扮演一个耐心的老师 , 需要详细解释每个步骤的逻辑和原因 。 而思维草稿法让AI更像一个熟练的专家 , 直接抓住问题的核心 , 用最简洁的方式表达关键步骤 。
研究团队还发现 , 这种方法需要通过示例来\"训练\"AI的行为模式 。 他们为每种任务类型手工编写了草稿式的示例 , 让AI学习这种简洁的表达方式 。 这就像教一个学生如何做笔记——不是告诉他们做笔记的理论 , 而是展示什么样的笔记是有效的 。
**五、局限性:并非万能的解决方案**
尽管思维草稿法展现出了令人印象深刻的效果 , 但研究团队也诚实地指出了这种方法的局限性 。 最主要的问题是 , 这种方法高度依赖于示例引导 , 如果没有恰当的例子 , AI往往无法自发地采用草稿式思维 。
当研究团队测试\"零示例\"情况时 , 也就是不给AI任何草稿式思维的例子 , 直接要求它用简洁方式思考时 , 效果大打折扣 。 在数学问题测试中 , GPT-4o的准确率从标准的56.9%只提升到84.4% , 远低于有示例指导时的91.1% 。 Claude 3.5 Sonnet的表现更差 , 准确率只从61.9%轻微提升到65.5% 。
这个现象反映了一个深层问题:目前的AI系统在训练过程中接触的主要是详细、完整的文本 , 很少见到草稿式的简洁推理过程 。 这就像一个从小只读过正式文学作品的人 , 突然被要求写笔记或做摘要 , 会感到不知所措 。
另一个重要局限是在小型AI模型上的表现 。 研究团队测试了几个参数量少于30亿的小型模型 , 包括Qwen2.5、Llama 3.2和Zoom自研的SLM模型 。 结果显示 , 这些模型使用思维草稿法时 , 虽然能减少词汇使用量 , 但准确率下降更为明显 。 比如Qwen2.5-3B模型使用传统方法的准确率为59.1% , 使用思维草稿法时降至43.1% 。
研究团队分析认为 , 这是因为小型模型的\"理解能力\"相对有限 , 需要更多的中间步骤来\"想清楚\"问题 。 就像一个刚学会解题的学生 , 如果强制要求他们简化步骤 , 可能会导致思路混乱 。 而大型模型由于\"经验\"更丰富 , 能够在简化表达的同时保持思维的连贯性 。
**六、实际应用:改变AI使用的游戏规则**
思维草稿法的意义远远超出了学术研究的范围 , 它可能会根本性地改变我们使用AI的方式 , 特别是在成本和效率至关重要的商业应用中 。
在客服系统中 , 这种方法能够显著降低运营成本 。 传统的AI客服在处理复杂查询时 , 往往会生成冗长的内部推理过程 , 虽然用户看不到这些过程 , 但每个字符都需要计算资源 。 使用思维草稿法 , AI可以用更少的计算资源得出同样准确的答案 , 这意味着同样的服务器可以同时处理更多用户请求 。
在教育技术领域 , 这种方法特别有价值 。 当学生提交数学或逻辑问题时 , AI家教不需要生成冗长的解释过程来\"思考\"答案 , 而可以快速给出准确回应 , 然后将节省的计算资源用于生成更个性化的教学内容 。 这就像把一个反应慢但最终很准确的老师 , 变成了一个反应敏捷且同样准确的老师 。
在金融分析、医疗诊断辅助等对实时性要求很高的专业领域 , 思维草稿法能够让AI系统更快地处理大量信息并给出初步判断 。 虽然这些领域仍需要人类专家的最终确认 , 但AI的快速预处理可以大大提高整体工作效率 。
研究团队还指出 , 这种方法可以与其他效率优化技术结合使用 。 比如与并行处理、智能缓存等技术配合 , 进一步提升AI系统的整体性能 。 这种组合效应可能会让AI服务的成本降低到目前的十分之一甚至更少 。
从更宏观的角度看 , 思维草稿法代表了AI发展的一个重要方向:不仅要让AI更聪明 , 还要让AI更高效 。 随着AI应用的普及 , 计算资源和能源消耗已经成为不可忽视的问题 。 通过优化AI的\"思维方式\" , 我们可以在保持智能水平的同时 , 大幅降低资源消耗 。
研究团队建议 , 未来的AI训练过程应该专门包含草稿式推理的数据 , 让AI从\"幼儿期\"就学会这种高效的思维模式 。 这可能需要重新设计训练数据集 , 加入更多简洁而准确的推理示例 。 同时 , 他们也在探索如何让AI自动学会在不同情况下选择合适的详细程度——在需要解释时详细 , 在只需要答案时简洁 。
说到底 , Zoom团队的这项研究揭示了一个简单而深刻的道理:有时候 , 说得少反而能想得更好 。 就像人类在解决问题时依靠简洁的草稿和要点一样 , AI也可以通过减少不必要的\"话语\"来提高思维效率 。 这不仅仅是技术上的改进 , 更是对智能本质的重新理解——真正的智能不是能说多少话 , 而是能用最少的信息达到最准确的结果 。
这项研究的影响可能会持续很多年 。 随着越来越多的开发者和企业开始采用思维草稿法 , 我们可能会看到AI服务变得更便宜、更快速 , 同时保持同样的可靠性 。 对于普通用户而言 , 这意味着更好的AI体验;对于企业而言 , 这意味着更低的运营成本;对于整个社会而言 , 这意味着更可持续的AI发展模式 。
当然 , 这种方法还需要进一步的完善和验证 , 特别是在更多复杂场景下的应用 。 但研究团队已经为我们打开了一扇新的大门 , 让我们看到了AI效率优化的巨大潜力 。 有兴趣深入了解技术细节的读者 , 可以通过arXiv:2502.18600v2访问完整的研究论文 , 其中包含了详细的实验数据和技术实现方案 。
Q&A
Q1:思维草稿法是什么?它是如何工作的? A:思维草稿法是一种让AI模仿人类简洁思考的新方法 。 不像传统AI需要详细解释每个步骤 , 这种方法让AI只记录最关键的信息点 , 就像我们做笔记时只写要点一样 。 通过限制每个思考步骤最多用5个词 , AI能更快地找到答案 。
Q2:使用思维草稿法会不会影响AI回答的准确性? A:研究显示准确性基本不受影响 , 有时甚至更准确 。 以数学问题为例 , GPT-4o的准确率只从95.4%下降到91.1% , 但处理速度快了4倍多 。 在某些任务中 , 简洁的思维反而帮助AI避免被冗长信息\"绕糊涂\" , 提高了准确性 。
Q3:普通用户什么时候能体验到这种技术带来的改进? A:这种方法可以立即应用到现有的AI系统中 , 不需要重新训练模型 。 目前主要限制是需要为不同任务设计合适的示例 。 随着更多企业采用这种方法 , 用户很快就能享受到更快、更便宜的AI服务 , 特别是在客服、教育和专业咨询等领域 。
推荐阅读
- 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
- 全国产智能体MasterAgent:一句话造专属AI团队,专业协同交付
- VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
- 英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA
- SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
- 教AI学会犯错——加州大学伯克利分校团队揭示编程教育新思路
- 清华大学团队让AI学会识别表情背后的真实感受
- 云天励飞宣布全面聚焦AI推理芯片!要支撑万亿参数大模型
- 摩尔线程技术分享日干货!原生支持FP8、DeepSeek R1推理加速150%
- Meta出走华人创业团队,种子轮800万美元,要打造视觉AI记忆大脑
