连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

文章图片

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

文章图片

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

文章图片

【连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了】连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

文章图片


头图由AI生成
智东西
编译 | 程茜
编辑 | 李水青
智东西9月16日消息 , 今日凌晨 , OpenAI发布新模型GPT-5-Codex , 这是其在GPT-5基础上专门为软件工程优化的模型版本 , 进一步提升了Codex中的智能体编程(Agentic Coding)能力 。
OpenAI在博客中提到 , GPT-5-Codex的训练侧重于实际的软件工程工作 , 其可以根据任务动态调整思考时间 , 在大型复杂任务上能够独立工作超过7个小时 。
同时在基准测试中 , 相比于GPT-5 , GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升 。
GPT-5-Codex发布后两个多小时 , OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露 , GPT-5-Codex的流量占比已达到Codex总流量的40%左右 , 今天就能占到超一半流量比例 。
在开发者使用Codex的所有场景中 , GPT-5-Codex均可用 , 它是云端任务和代码审查的默认工具 , 开发者也可通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展 , 选择将其用于本地任务 。
OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版 , 两周前其将Codex整合为一个通过ChatGPT帐户连接的单一产品体验 , 使得开发者可以在本地环境和云端之间无缝迁移工作 , 而不会丢失上下文 。
Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中 , 其中Plus、教育和Business套餐每周可支持几次重点编码课程 , Pro套餐可支持一周内多个项目的使用 。 对于通过API密钥使用Codex CLI的开发人员 , OpenAI计划很快在API中提供GPT-5-Codex 。
在OpenAI的X评论区 , 开发者称OpenAI这一新发布对于处理复杂项目非常有前景 , 还有开发者对自己的AI工具订阅预算担忧 。

一、根据任务动态调整思考时间 , 错误评论减少、高影响力评论增加GPT-5-Codex针对复杂的实际工程任务进行了训练 , 例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查 。 其可以更好遵循AGENTS.md的指令 , 并生成高质量的代码 , 开发者只需提出自己的需求 , 无需编写冗长的代码风格或代码整洁性说明 。
此外GPT?5-Codex会根据任务的复杂程度 , 动态调整思考时间 , 其执行任务的时间会从几秒到7个小时不等 。 该模型结合了编程智能体的两项基本技能:在交互式会话中与开发者配对 , 以及在较长的任务上持续、独立地执行 。 这意味着Codex在处理小型、定义明确的请求或与它聊天时会感觉更敏捷 , 并且在处理大型重构等复杂任务时也能工作更长时间 。
从历史数据来看 , 包括GPT-5发布之时 , OpenAI仅公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果 , 这是因为当时部分任务无法在其基础设施环境中运行 。 如今 , OpenAI已修复了这一问题 , 目前可公布全部500个任务的测试结果 。 GPT-5-Codex在该基准测试中的准确率为74.5% , GPT-5为72.8% 。
OpenAI基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力 , 涉及Python、Go、OCaml等编程语言 。 GPT-5-Codex在该测试中的准确率为51.3% , GPT-5为33.9% 。
在测试中 , 研究人员发现GPT?5-Codex能够独立处理大型复杂任务超过7小时 , 不断迭代实现、修复测试错误并最终交付成功 。
基于OpenAI内部员工的使用情况 , 研究人员发现当按模型生成的token数对用户交互轮次进行排序时 , 其中生成token数最少的排名最后10%情况中 , GPT-5-Codex使用的token比GPT-5少93.7% 。
排名前10%的情况正好相反 , GPT-5-Codex会进行更多思考 , 在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍 。
GPT-5-Codex还可用于执行代码审查并查找关键缺陷 。 审查时 , 它会浏览开发者的代码库 , 推理依赖关系 , 并运行代码和测试以验证正确性 。
OpenAI评估了热门开源存储库中近期提交的代码审查性能 , 经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性 。
GPT-5的错误评论有约13.7% , GPT-5-Codex仅为4.4% , 高影响力评论占比中GPT-5有39.4% , GPT-5-Codex有52.4% , 每个拉取请求的平均评论数中 , GPT-5平均有1.32条 , GPT-5-Codex有0.9条 。
他们发现 , GPT-5-Codex的意见不太可能出现错误或不重要的情况 。
据TechCrunch报道 , OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称 , GPT-5-Codex性能提升很大程度上得益于其动态思考能力 。 用户可能熟悉ChatGPT中GPT-5的实时路由器(Real-timerouter) , 它会根据任务的复杂性将查询定向到不同的模型 , GPT-5-Codex的工作原理类似 , 但没有内置路由器 , 可以实时调整任务的处理时长 。 与路由器相比 , 这是一个优势 , 因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题 , 而GPT-5-Codex可以在问题开始五分钟后就决定需要再花一个小时 。
OpenAI的官方博客也提到 , 与通用模型GPT-5不同 , 他们建议开发者仅在Codex或类似Codex环境中执行智能体编程任务时使用GPT-5-Codex 。

二、三大核心改进 , 智能体编程工作流更自动化此外 , OpenAI最近还进行了一些更新 , 包括改进的Codex CLI和新的Codex IDE扩展 。
首先是针对Codex CLI 。
基于开源社区对Codex CLI的反馈 , OpenAI围绕智能体编程工作流重建了Codex CLI 。 现在 , 开发者可以直接在CLI中附加和共享图像 , 包括屏幕截图、线框图和图表等 , 从而构建基于设计决策的共享上下文 , 并准确获取所需内容 。
在处理更复杂的工作时 , Codex现在可以使用待办事项列表跟踪进度 , 并包含网页搜索和MCP等用于连接外部系统的工具 , 从而整体上提高工具使用准确性 。
终端用户界面的升级包括工具调用和差异显示格式更佳、更易于理解 。
审批模式简化为三个级别:只读(需明确审批)、自动(需完全访问工作区但需在工作区外审批)以及完全访问(可在任意位置读取文件并通过网络访问运行命令) 。 其还支持压缩对话状态 , 方便开发者管理较长的会话 。
其次是Codex IDE扩展 。
这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器 , 允许其与Codex共同预览本地代码变更、协同编辑代码 。
当开发者在IDE中使用Codex时 , 只需输入更简短的指令就能获得结果 , 这是因为Codex可利用上下文信息 , 例如开发者已打开的文件或选中的代码片段 。
Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流 , 开发者无需离开编辑器 , 就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务 。
若需对代码进行收尾调整 , 其还可以在IDE中直接打开云端任务 , 且Codex会完整保留相关上下文信息 。
此外 , OpenAI还一直在提升云基础设施的性能 , 通过缓存容器 , 其将新任务和后续任务的平均完成时间缩短了90% 。 Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境;借助可配置的互联网访问权限 , 在运行时根据需要执行像pip install这样的命令来获取依赖项 。
与CLI和IDE扩展中一样 , 开发者现在可以通过上传图像的方式 , 向Codex共享前端设计规范 , 如界面原型图、视觉稿 , 或上传界面错位、样式异常的截图说明UI漏洞 。
Codex构建前端内容时 , 可以自行启动浏览器查看已构建的效果并进行迭代优化 , 最终会将结果截图附加到对应任务以及GitHub拉取请求中 。
在代码审查中 , Codex可以被用于发现关键缺陷 。
与静态分析工具不同 , 它可以将拉取请求中声明的开发意图与实际差异进行匹配 , 结合整个代码库及依赖项展开推理分析 , 并通过执行代码与测试用例来验证实际运行行为 。
一旦开发者在某个GitHub库启用了Codex , 当拉取请求从草稿状态转为就绪状态时 , Codex就会自动对其进行审查 , 并将分析结果发布在该拉取请求上 。
如果Codex建议进行修改 , 开发者可以在同一个对话线程中让Codex直接实施这些修改 。
开发者也可以在拉取请求中明确提及@codex review来请求审查 , 例如@codex review for security vulnerabilities(让Codex审查安全漏洞)或@codex review for outdated dependencies(让Codex审查过时的依赖项) 。
Codex目前已在OpenAI内部 , 被用于审查其绝大多数的拉取请求 , 每天能发现数百个问题 , 而且往往是在人工审查开始之前就已发现 。

结语:AI编程工具竞争白热化当下 , AI编程工具的竞争已经变得愈发激烈 , 既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀 , 还有Cursor年度经常性收入(ARR)在2025年初就超过5亿美元 , 更有AI代码编辑器Windsurf遭遇一场混乱收购 , 导致其团队被谷歌和Cognition两家公司瓜分 。
OpenAI Codex此次升级 , 发布专门为智能体编程优化的全新模型 , 使得其自动化编程以及与用户协作的能力都大幅提升 , 证明了AI编程工具竞赛的激烈程度持续升温 。

    推荐阅读