
文章图片

文章图片

文章图片

文章图片

文章图片

机器之心报道
编辑:杜伟
一直以来 , Anthropic 的 Claude 被认为是处理编程任务的最佳模型 , 尤其是本月初发布的 Claude Opus 4.1 , 在真实世界编程、智能体以及推理任务上表现出色 。 其中在软件编程权威基准 SWE-bench Verified 测试中 , Claude Opus 4.1 相较于前代 Opus 4 又有提升 , 尤其在多文件代码重构方面表现出显著进步 。
不过 , 在刚刚过去的这个周末 , Claude 最强编程模型的地位似乎开始动摇了 。 OpenAI 同样本月发布的 GPT-5 在编程赛道获得了越来越多人的青睐与使用 。
有人发帖称 , 他基本已经完全不用 Claude Opus 了 。 现在同时开着几个 Codex 标签页 , 让 GPT-5-high 分别在三个代码库(HVM、Bend、Kolmo)上处理不同的任务 。 AI 编程进展从未如此迅速 。 他的工作基本上就是将定义清晰的任务交给 Codex , 然后审查代码输出 。
他还特意强调 , 这不是 OpenAI 打的广告 。 他只是觉得这个模型真的非常强大 , 而人们没有看到这一点 。 大多数人还只是将聊天机器人当作「女友」或其他用途 , 而不是用来协助完成复杂的编程任务 。
不过 , 他也表示自己依然热爱 Anthropic , 并在 VIM 编辑器中使用 Opus 进行代码补全 , 速度要比 GPT-5-high 快得多 。
另一位推特博主、CoreView 联合创始人兼 CTO Ivan Fioravanti 也表示 , 他现在主要用 Claude Code , 但 Codex-CLI 搭配 GPT-5 reasoning high 逐渐获得了他的更多信任 。 至于谷歌的 Gemini CLI , 他都没开始深入研究 。
不仅如此 , 他在需要直接执行的任务中同样在用 GPT-5 reasoning 。
一位全栈产品开发者表示 , 「GPT-5-high 是目前为止他用过的最好的编程模型 。 」
该模型在指令遵循方面表现出色 , 可以放手让它处理更复杂的任务 。 此外 , 它在大规模重构任务中尤其给力 , 只要下指令「把这个改得更像那个」 , 它就能处理得很好 。
粉丝近 20 万的推特大 V、e/acc 思潮创始人表示 , 根据他在旧金山听到的一些「小道消息」 , 现在很多人私下里其实更喜欢用 GPT-5 来写代码 , 这和流行的「Claude 更擅长编程」的叙事恰恰相反 。
看到自家模型受到了越来越多人的喜爱 , OpenAI 联合创始人兼总裁 Greg Brockman「坐不住」了 , 发推自夸道「用 GPT-5 写代码感觉太棒了」 。
更多的人并认可了 GPT-5 的强大编程能力 。
从这些人的反馈来看 , GPT-5 编程能力更强似乎已经成为了一个不争的事实 。 与此同时 , reddit 社区今天有一个帖子提到 , 「GPT-5 的幻觉率和通用实用性显著优于 Claude 。 」
帖子的主角是一位软件工程师 , 主要使用大语言模型来做编程、架构等工作 。 他开始注意到 , Claude 在很大程度上其实是个「偏科型选手」(one-trick pony) 。 该系列模型只在写代码时表现出色 , 但一旦超出这个领域 , 幻觉率就高得离谱 , 结果也很差 。
不过 , 他还是要给 Claude 加一分 , 它在写作上的「温度感」更强一些 , 尤其把它当成学习伙伴时 。 而 GPT-5 作为学习伙伴时 , 经常会把答案伪装成一个追问 。 相比之下 , Claude 则保持了一种更严格的学习伙伴风格 , 它会引导你逐步接近答案 , 而不是直接把答案给你 。
然而 , GPT-5 的幻觉现象较少 , 搜索功能也相当不错 。 他举例称自己之前在找一款带有非常具体尺寸、颜色等要求的收纳抽屉 。 GPT-5 思考了大约 2.5 分钟 , 并进行了多次搜索 , 最后给了他一个几乎完全匹配的结果 。 而在那之前 , 他自己在 Amazon、Walmart、Target、Wayfair 等网站上搜了两个小时都没找到 。 最后他直接下单买了 GPT-5 推荐的那款 。 当他把完全相同的查询交给 Claude Opus 4.1 时 , 它不仅给出的尺寸选项比他要求的小得多 , 还找了一堆借口 。
与此同时 , 在健康医疗类的问题上 , Claude 的幻觉非常严重 , 这很危险 。 它经常把一些内容当作事实来说 , 但这些内容恰恰与医学界公认的结论完全相反 。 相比之下 , GPT-5 的幻觉率要低得多 。
也许正如最后这样网友所言 , 一开始并不信任 GPT-5 , 但用过之后发现:它在各个领域的表现确实都不错 。
已经用上 GPT-5 一段时间的小伙伴们 , 你们现在的感觉怎么样呢?欢迎评论区探讨 。
参考链接:
https://x.com/gdb/status/1959523328642703827
https://x.com/VictorTaelin/status/1958543021324029980
https://x.com/buildleansaas/status/1959686114375352641
https://x.com/BasedBeffJezos/status/1958942764747694593
【「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗】https://www.reddit.com/r/OpenAI/comments/1mz26r4/gpt5_is_more_useful_than_claude_in_everydaythings/
推荐阅读
- 神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式
- 用「录音机」切入AI硬件赛道,钉钉要做的是协同闭环
- 用于RICOH GR IV的小型闪光灯 「RICOH GF-2」新上市
- 10 岁的钉钉,想用「更主动」的 AI,重构工作本身
- 90%打工人「自费买AI上班」,开启To P革命!每月花20刀效率翻倍
- AI上新|马卡龙 AI,一场从「哇塞」到「算了」的过山车体验
- 为见AI「女友」,76岁老人命丧途中!Meta聊天机器人酿成惨剧
- 这就是大厂的AI「氛围编程」:老工程师现身说法后,大家绷不住了
- 为见AI「女友」,76岁老人命丧途中,Meta聊天机器人酿成惨剧
- 马斯克成立新公司「巨硬」:用AI把微软产品重做一遍
