GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

文章图片

GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭

编程大考 , 全球顶尖LLM夺金 , 真无敌了?最难编码基准SWE-Bench Pro出世 , 汇集了平均超100行代码的难题 。 没想到 , 最能打的LLM纷纷溃败 , GPT-5仅拿下23.3%高分 。
一图看透全球大模型!新智元十周年钜献 , 2025 ASI前沿趋势报告37页首发
继IMO 2025登顶后 , 谷歌、OpenAI的模型 , 再一次拿下了ICPC金牌 。
ICPC , 被公认为全球最具挑战的大学生编程竞赛之一 。
OpenAI和谷歌不仅解决了全部12题 , 还在人类选手中位列第一 , 难道AI编程真能所向披靡了吗?
最新一项基准测试 , 直接打脸了全世界的顶尖模型 。
它就是SWE-Bench Pro , 专为评估AI编程智能体而生的新一代基准测试 , 直面真实企业级工程任务 。
相较于前代SWE-Bench , Pro版本升级带来了三大突破:
任务难度全面提升 抗数据污染能力更强 无限逼近真实代码库 这一版 , 堪称编码中的「最后人类考试」 。 在实际测试(公开集)中 , 顶尖模型几乎溃败 。
GPT-5虽拿下了第一 , 但成绩仅有23.3% , Claude Opus 4.1以22.7%得分位居第二 。
其他模型更是没有一个能打的 , 得分全部低于15% 。
这意味着 , 在更贴近真实世界的编程任务中 , LLM的长程编码能力仍是短板 。
最新21页技术论文 , 详细公开了SWE-Bench Pro设计细节 。
论文地址:https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

编码界 , 需要一场硬核考试过去 , SWE-Bench等基准成为了评估LLM在软件工程中的重要标准 。
这些测试中 , 通常要求AI基于完整代码库和自然语言描述 , 生成代码Patch 。
就拿SWE-Bench Verified来说 , 顶尖LLM已实现超70%成功率 , 听起来确实非常厉害 。
但这也暴露了一个问题:
未来6至12个月内 , 现有基准或许会「饱和」 , 无法再去有效衡量AI的进步 。
由此 , Scale AI正式发布了SWE-Bench Pro 。
它提供了一个更真实、更具挑战的「考场」 , 直击痛点解决现有基准的缺陷 。

数据污染 , 与现实脱节当前 , 已有的编码基准测试 , 存在两大缺陷 。
一方面 , 数据污染风险高 。 很多基准基于开源GitHub仓库构建 , 但这些仓库 , 尤其是MIT、Apache许可的项目 , 很容易被LLM训练数据「爬虫」 。
由此一来 , AI在测试时存在「作弊」的可能 , 或许它早就见过类似的难题 。
另一方面 , 现有基准的任务太过简单 , 达不到「工业级别」 。
还以SWE-Bench Verified举例 , 500道题中 , 竟有161道只需改1-2行代码 。
这在实验室里可行 , 但到了企业环境中 , 往往涉及跨多个文件、数百行代码的复杂修改 。
这样的基准 , 根本无法反映AI在真实开发场景中的表现 。
编码考试不是AI智能体的最终目的 , 但一个更硬核基准 , 才能真实评估LLM是否真正符合工业级应用的标准 。

SWE-Bench Pro:超100行代码难题在SWE-Bench Pro设计中 , 一共包含1865个经人工验证与增强的问题 , 细分了三类子集——公开集、商业集、保留集 。
论文中 , 研究团队介绍了SWE-Bench Pro的三大贡献:

巧妙收集设计 , 降低数据污染风险SWE-Bench Pro创新数据收集策略 , 避开了污染陷阱 。
(1)仅采用强著佐权许可证(GPL)的代码库构建公开集(11个代码库)和保留集(12个代码库);
(2)从真实初创企业获取商业代码以构建商业集(18个代码库) , 从而捕捉企业级问题 。
? 公开集:在HuggingFace公开发布731个实例 , 并在本文中报告相关统计数据和模型表现 。 这些实例源自采用著佐权(copyleft)许可证的公开代码库 。
? 商业集:来自初创企业代码库的276个商业集问题 。 这是唯一包含初创企业专有代码库的集合 , 因法律限制无法公开 。
? 保留集:保留了858个与公共集结构镜像但采用不同代码库的问题集 。

任务升级 , 更具挑战、多样 , 更贴近工业为了确保任务复杂度 , Scale AI排除了1-10行代码「小修小补」的任务 , 只保留需要多文件、实质性修改的问题 。
参考解决方案平均涉及4.1个文件、107.4行代码 , 所有任务至少改10行 , 超100项任务需改超100行 。
除了复杂度外 , 选的代码库都是活跃维护的 , 覆盖了消费级App、B2B服务和开发者工具平台等多个领域 。
而且 , 每个代码库贡献了50-100个实例(上限100) , 避免了对单一库的依赖 。

人机协同验证 , 确保任务可解有了以上难题还不够 , 最后一步 , 还需要确保它们是可解的 。
为此 , SWE-Bench Pro又引入了一个以人为中心的增强验证流程 , 分为三阶段人机协同流程 。
一方面 , 它能澄清模糊信息 , 补充缺失的上下文;另一方面 , 通过约束解决方案空间 , 保持灵活同时避免假阴性 。

Claude企业级第一 , 仅拿下17.8%「最高分」不同顶尖模型 , 在SWE-Bench Pro上的表现如下表1所示 。
以Pass@1作为问题解决率指标 , GPT-5与Claude Opus 4.1分别以23.3%和22.7%解决率领先 。
早期代际模型 , 比如DeepSeek Qwen-3 32B、GPT-4o表现明显落后 , 分别仅为3.4%和3.9% 。
此外 , 公开集和商业集存在显著的性能差距 。
最佳模型在商业集的得分均低于20% , 从侧面印证了 , 企业级代码库处理的挑战性 。
总的来说 , LLM在公开集的通过率≤23.3% , 在商业集≤17.8% , 远远低于SWE-Bench Verified的70%以上 。
这背后的原因 , 究竟是什么?

不擅长的语言 , 也会影响性能从编程语言维度来看 , AI性能分化明显 。
在Go和Python任务中 , 大多数模型解决率较高 , 有些甚至超过30% 。
相较之下 , JavaScript(JS)与TypeScript(TS)则表现波动较大 , 根据模型不同 , 解决率从0%到超过30%不等 。
不仅如此 , 代码仓库维度多样 , 有些仓库 , 所有模型解决率都低于10% 。
有一些 , 还能达到50% 。
仓库的复杂度、文档质量 , 或是问题类型等 , 也成了LLM在编码任务中影响性能的因素 。
可以看到 , Claude Opus 4.1、GPT-5在多数仓库和编程语言中 , 都能保持稳定高性能 。

失败原因 , 多种多样接下来 , 研究人员又让GPT-5作为「法官」 , 去对不同模型的故障进行分析 。
具体步骤是 , 先手动构建常见故障分类桶 , 然后筛选未解决实例 , 收集最后20轮交互轨迹 , 向GPT-5提供提示 , 让其推理并分类故障 。
结果显示 , 顶尖模型的失败原因 , 覆盖了各种情况 。
Claude Opus 4.1:卡在了语义理解 , 错误解决方案占比35.9% , 语法错误24.2% , 技术执行力强 , 但问题理解、算法准确性有待提升 。
GPT-5:工具使用差异明显 , 但错误解决方案较少 。
Claude Sonnet 4:上下文溢出(35.6%)和无限文件读取行为(17.0%)是主因 , 暴露了上下文管理和导航策略的局限 。
Gemini 2.5:工具错误(38.8%)、语法错误(30.5%)和错误解决方案(18.0% , 多维度挑战并存
Qwen-3 32B:工具错误率最高(42.0%)
总言之 , SWE-Bench Pro是一个全新抗污染、工业真实的基准 , 能够成为未来LLM编码能力一大标尺 。

一作介绍 Xiang Deng Xiang Deng现任Scale AI研究工程师 , 专注于LLM的编程与智能体研发 。
他曾获得了俄亥俄州立大学的博士学位 , 以及中国科学技术大学计算机科学学士学位 。

Jeff Da Jeff Da现任Scale AI研究科学家 , 专注于强化学习、智能体与训练后优化方向 。
他曾在艾伦人工智能研究所和华盛顿大学 , 主要从事推理能力评估、多模态学习等方向的研究 。

彩蛋有趣的是 , 在首席AI官Alexandr Wang评论区下方 , 所有人更关心的是MSL内幕消息 。
Alexandr剧透 , 即将有更多新内容分享 。
参考资料:
https://x.com/vbingliu/status/1969460781495566611
ScaleAI/SWE-bench_Pro · Datasets at Hugging Face
https://x.com/alexandr_wang/status/1969805196462358919
【GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭】本文来自微信公众号“新智元” , 作者:新智元 , 36氪经授权发布 。

    推荐阅读