
文章图片

前天晚上 , DeepSeek发布了最新的数学专用大模型V2 。该模型有两个版本 , 分别是671亿参数和7亿参数 。 在极具挑战性的数学评测MiniF2F中 , 671B版本的通过率高达88.9% 。 此外 , 在PutnamBench包含的658道题目中 , 该模型成功解决了49道 , 展现出卓越的数学推理和解题能力 。同时 , DeepSeek还公开了一个高质量的数学评测数据集ProverBench , 为数学能力测试提供了有力支持 。
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
评估数据集:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench
在架构方面 , V2-671B是在DeepSeek-V3-Base模型的基础上进一步训练得到的 , 而V2-7B则基于DeepSeek-Prover-V1.5-Base构建 , 同时扩展了上下文长度 , 最大支持32K标记 。
V2搭建了一个统一的数学推理框架 , 将非形式化推理与形式化证明相结合 。 它通过将复杂数学问题拆解为多个子目标 , 利用V3的逐步推理能力 , 实现了从问题拆解到最终证明生成的无缝连接 。
在冷启动数据生成阶段 , V2采用递归的定理证明流程 。 首先 , V3被用来将定理拆分成高层次的证明草图 , 并在Lean4环境中对这些证明步骤进行形式化 , 形成多个子目标 。 随后 , 较小的7B模型专注于每个子目标的证明搜索 , 这极大地减轻了整体计算压力 。 当所有拆分步骤完成后 , 结合DeepSeek-V3的链式思考技术 , 系统生成了用于初始训练的推理数据 。
基于这些冷启动数据 , V2进入强化学习阶段 。 在此阶段 , 重点挑选出那些7B模型无法端到端解决的问题 , 但其所有子目标均已成功证明 。 通过整合这些子目标的证明 , 构建出完整形式化的原始问题证明 , 并将其融合进V3的链式思考流程 , 实现了非形式推理与形式证明的连贯结合 。
在强化学习阶段 , 模型主要依靠二元的正误反馈作为奖励信号 , 进一步提升了将非形式推理与形式证明相结合的能力 。 为了更全面地评估模型表现 , DeepSeek推出了ProverBench测试集 。 该数据集涵盖了325道问题 , 其中15道题目取自近期AIME(第24届和第25届)竞赛中的数论和代数题 , 体现了真实高中竞赛的难度水平 。
其余的310道题目来源于精心挑选的教科书案例和教学资料 , 内容涵盖高中至大学阶段的多个数学领域 , 如数论、基础代数、线性代数、抽象代数、微积分、实分析、复分析、泛函分析以及概率论等 , 为对模型能力的评估提供了广泛且多样化的测试内容 。
·
我们相信人工智能为普通人提供了一种“增强工具” , 并致力于分享全方位的AI知识 。 在这里 , 您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察 。【DeepSeek发布了全新开源大模型,实现了数学能力的重大提升!】·
欢迎关注“福大大架构师每日一题” , 让AI助力您的未来发展 。
推荐阅读
- 联想moto edge 60/razr 60系列预热,5 月 8 日发布
- 有必要买相机吗?手机拍照真的可以媲美甚至超越相机拍照了吗?
- 彻底告别Windows!华为鸿蒙PC版本月发布:自主可控、统一生态
- Zen3+突然出现!AMD低调发布锐龙5 7533HS:第一款3字尾型号
- 我靠!一加13T首发当天直接卖爆了
- 真我GT8 Pro狂堆料,性能影像全面升级,这是要奔顶级旗舰去了?
- 首发天玑旗舰芯!一加Ace5系列两员大将即将登场,千元天花板稳了
- 1.93GB大更新!鸿蒙5.0.1新版本来了,哪些老机型被淘汰?
- 存储芯片崛起!8家公司一季报大增超50%,这下瑞银、北向全来了
- iOS18.5新代码暗示了即将发布的新品!
