
文章图片

文章图片

文章图片
Meta超级智能实验室的首篇论文 , 来了——
提出了一个名为REFRAG的高效解码框架 , 重新定义了RAG(检索增强生成) , 最高可将首字生成延迟(TTFT)加速30倍 。
毕竟算是超级智能实验的“开山之作” , 研究一出 , 就已经在网上掀起了不少的热议 。
例如Reddti网友表示:
若效果真如研究所说的那样 , 那对RAG来说是相当不错的改进 , 看起来可以做到在不牺牲准确性的情况下 , 能显著提高速度和上下文大小 。
天下苦RAG上下文计算冗余久矣首先 , 我们需要理解并回顾一下RAG的工作原理 。
当一个大型语言模型(LLM)被要求回答需要精确背景知识的问题时 , 如果仅依赖它内部参数化的知识 , 可能会出现事实性错误或信息滞后等情况 。
而RAG就通过一个外部知识库(如企业文档、专业数据库等)进行检索 , 将与问题最相关的信息提取出来 , 作为上下文与原始问题一同提供给LLM 。 LLM在获得这些精确的参考资料后 , 就能生成内容更可靠、更具时效性的答案 。
然而 , 这个模式在工程方面也带来了不小的挑战 , 即推理效率与信息量的权衡 。
当AI检索到的参考资料非常多(也就是我们通常说的“长上下文”)时 , LLM的处理负担会大幅增加 。
模型处理上下文的计算复杂度通常与上下文长度的平方成正比 , 导致生成第一个字的延迟(Time-to-First-Token TTFT)显著增加 , 这直接影响了实时交互应用的用户体验 。
同时 , 处理长上下文也意味着更高的计算和内存开销 , 为系统的规模化部署带来了挑战 。
基于这样的背景 , Meta超级智能实验室的研究人员发现 , 在RAG应用中 , LLM处理检索到的多个文档时 , 其计算过程存在大量冗余 。
通过实验 , 他们观察到模型内部的注意力机制在处理这些文档时 , 呈现出一种“块对角”(block-diagonal)的稀疏模式 。
这意味着 , 模型的注意力主要集中在单个文档内部 , 以及各文档与用户问题之间的关联上 。 而不同文档片段之间的交叉注意力得分通常很低 , 表明它们之间的关联性较弱 。
然而 , 标准的Transformer架构并不会区分这些关联性的强弱 , 而是对上下文中的所有词元(token)进行全局的注意力计算 , 这导致了大量计算资源被消耗在分析那些关联性很弱的文档片段上 。
基于这一观察 , 研究团队提出:RAG解码过程中的大部分注意力计算对于最终结果的贡献有限 , 可以在不显著影响性能的前提下被优化或移除 。
REFRAG , 就此应运而生 。
REFRAG:一种选择性压缩解码方案REFRAG这个框架 , 主要通过“压缩(Compress)、感知(Sense)、扩展(Expand)”的流程 , 优化了LLM处理外部知识的方式 。
压缩:将上下文转换为紧凑表征REFRAG首先改变了上下文的呈现方式 , 它没有将所有检索到的原始文本直接输入给主LLM , 而是引入了一个轻量级的编码器模型 。
这个编码器将长篇的参考资料切分为多个“块”(chunks) , 并为每个“块”生成一个紧凑的向量表示——“块嵌入”(chunk embedding) 。 这个“块嵌入”可以视为原始文本块的浓缩摘要 。
这一步骤带来了两个直接的好处 , 首先就是缩短输入序列长度 , 因为LLM需要处理的输入从数千个词元缩减为数百个“块嵌入” , 显著降低了后续的计算量 。
其次是由于这些“块嵌入”可以被预先计算并存储 , 当知识库中的同一文档被再次检索时 , 系统可以直接调用缓存的嵌入 , 避免了重复的编码计算 。
感知:智能判断关键信息考虑到并非所有信息都适合压缩 , 某些包含关键细节的文本片段需要被保留 。
为此 , REFRAG训练了一个基于强化学习(RL)的策略网络 。
这个网络的功能是分析所有的“块嵌入”和用户问题 , 判断哪些文本块包含最核心的信息 , 需要以原始文本的形式呈现给LLM 。
扩展:结合压缩与原始文本经过前两步的处理 , 最终输入到主LLM的是一个混合序列 , 它包含了大部分上下文的“块嵌入”(压缩表示)和少量被判断为关键的“原始文本块” 。
LLM基于这份经过优化的输入材料来生成答案 , 大部分背景信息通过压缩表示快速获取 , 而核心细节则通过原始文本进行精确理解 。 通过这种方式 , REFRAG在保留关键信息的同时 , 最大限度地降低了计算负载 。
性能无损 , 效率提升根据论文数据 , REFRAG框架在多个维度上取得了较为不错的成果 。
例如在推理速度方面 , 以首字生成延迟(TTFT)为例 , REFRAG实现了最高30.85倍的加速 。 与之前的先进方法相比 , 也取得了3.75倍的提升 。
这意味着在需要快速响应的场景下 , 系统的延迟可以得到有效控制 。
其次 , 实验还表明 , 在获得显著加速的同时 , REFRAG在困惑度(Perplexity)以及多种下游任务(如问答、摘要)的准确率上 , 与使用完整上下文的基线模型相比没有性能损失 。
此外 , 由于压缩技术使得模型能在同等计算预算下处理更多信息 , 上下文窗口等效扩大了16倍 , 这在某些任务上反而带来了性能增益 。
据了解 , 这个方法的设计不仅适用于RAG , 也适用于多轮对话、长文档摘要等其他需要处理长上下文信息的任务 。
总而言之 , Meta超级智能实验室的这项研究 , 通过巧妙的算法设计 , 有效解决了当前大模型在处理长上下文时面临的核心效率问题 。 REFRAG为开发更高效、更经济、更具扩展性的AI应用提供了一个重要的解决方案 。
参考链接:
[1
https://arxiv.org/abs/2509.01092
[2
https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/
【Meta超级智能实验室首篇论文:重新定义RAG】本文来自微信公众号 “量子位”(ID:QbitAI) , 作者:金磊, 36氪经授权发布 。
推荐阅读
- 智能眼镜狂卷IFA:AR交互成标配,产品“做减法”迎质变时刻
- 开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
- 小米官方第一款!小米智能中控屏Max今日众筹:1999元
- 九识智能:自动驾驶商业化,如何重塑千亿城配物流生态?
- AI机器萌宠企业「Ropet萌友智能」完成数千万A1轮融资 | 36氪首发
- Portégé X40L-M以高效、智能、轻薄助力移动办公
- 海信冰箱IFA亮相:大屏智能储鲜、制冰全能开挂
- 建筑暗光、日落蓝调?智能手机的宣发为何脱离群众
- DeepSeek大招曝光?梁文锋督战超级智能体:能自主学习或年底发布
- 智能眼镜“异类”突围:BleeqUp深耕骑行圈,在IFA找到爆款密码
