
文章图片

文章图片

文章图片
为了解决大型推理模型如何将 LRM 扩展至通过强化学习有效地处理和推理长上下文输入的难题 , 通义智文提出了 QwenLong-L1 框架 , 该框架通过渐进式上下文扩展将短上下文 LRM 适配到长上下文场景 。 具体而言 , 就是利用预热监督微调 (SFT) 阶段建立稳健的初始策略 , 然后采用课程引导的分阶段强化学习技术来稳定策略演化 , 并采用难度感知的回顾性采样策略来激励策略探索 。
首先需要知道 , 它解决了什么问题?虽然最近的大型推理模型 (LRM)(例如 OpenAI 的 o1)通过强化学习展现出了令人印象深刻的推理能力 , 但这些改进仅限于短上下文任务(约 4K 个 token) 。
短上下文和长上下文推理 RL 的训练动态比较
长上下文推理强化学习面临两大关键挑战:训练效率不理想 , 由于熵值降低较多导致奖励得分提升较慢;优化过程不稳定 , 由于较长输出的方差较大 , 导致 KL 散度波动较大 。
挑战在于 , 如何扩展这些模型以处理长上下文输入(超过 12 万个 token)同时保持强大的推理能力仍未得到解决 。 这对于需要处理大量文档、进行深入研究或处理信息密集型环境的实际应用尤其成问题 , 因为在这些环境中 , 模型既需要从长上下文中检索相关信息 , 又需要执行多步推理 。
它是如何解决这个问题的?QWENLONG-L1 整体架构 , 这是一个新颖的长上下文推理强化学习训练框架
QwenLong-L1 是一个渐进式上下文扩展框架 , 该框架集成了群体相关强化学习算法、混合奖励机制和渐进式上下文扩展策略 , 能够稳定地从短上下文到长上下文的 LRM 进行自适应 , 并具备强大的上下文基础和多步推理能力 , 可以系统地将短上下文推理模型适应长上下文场景 。
他们的方法包括三个关键组成部分:
首先 , 预热监督微调 (SFT) 阶段 , 用于建立强大的初始策略;
其次 , 课程指导的分阶段强化学习技术 , 在训练阶段逐步增加上下文长度以稳定优化;
第三 , 采用难度感知的回顾性抽样策略 , 优先考虑具有挑战性的样本 , 以鼓励策略探索 。 他们还实施了混合奖励机制 , 将基于规则的验证与 LLM 作为评判者的评估相结合 , 以平衡准确率和召回率 。
主要发现是什么?
QWENLONG-L1 在七个长上下文推理基准中的总体结果
QwenLong-L1 在七个长上下文文档问答基准测试中取得了领先的性能 , 其中 32B 模型的表现超过OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰模型 , 甚至与 Claude-3.7-Sonnet-Thinking 的性能相当 。 研究表明 , 渐进式上下文缩放可以在训练过程中实现更高的熵并稳定 KL 散度 , 而强化学习则自然地培养了专门的长上下文推理行为 , 例如基础推理、子目标设定、回溯和验证 , 从而提升了最终性能 。
为什么这很重要?这使得 LRM 在需要大量上下文处理的实际应用中具有实用价值 。 这项研究为长上下文推理强化学习提供了首个系统性框架 , 解决了训练效率和优化稳定性方面的关键挑战 。 这一进展为人工智能系统打开了大门 , 使其能够进行自动化科学研究、分析长视频 , 以及处理复杂的信息密集型任务 , 这些任务需要上下文基础和对海量信息进行复杂的推理 。
【通义发布QwenLong-L1, 长上下文大型推理模型, 强在哪里?】\u0002\u0002\u0002\u0002\u0002
推荐阅读
- 发布已七年,老将Core i3-9100还能再战吗?游戏测试出炉
- 真我发布3款新品,售价129元到2699元,你想入手哪一款?
- 红米 K80 至尊版曝光,下月发布
- 真我Neo7 Turbo已正式发布:对比一加Ace5竞速版,谁更值得选?
- 以创新重塑中端机!荣耀400系列发布,CE0李健定调未来
- 荣耀400系列发布,全维度升级,轻旗舰定位冠绝同档
- 国补后1529元起售!一加发布两款重磅新机,平民党可“闭眼入”!
- 轻旗舰荣耀400系列发布,冠绝档位之作重构市场格局
- KaOS 2025.05版本发布:全面拥抱Qt6,彻底告别Qt5
- 2124元,荣耀400正式发布:7200mAh+2亿像素+IP69防水
