
文章图片
【Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生】
文章图片

文章图片

论卷编程 , 还得看 Claude 。
就在刚刚 , Anthropic 正式发布 Claude Sonnet 4.5 。
先说 Claude Sonnet 4.5 交出的成绩单 , 在考察真实编程水平的 SWE-bench Verified 测试里 , Claude Sonnet 4.5 直接登顶业界第一 。
更离谱的是 , 它能连续专注干活超过 30 小时 。
好好好 , AI 取代人类的优势又 +1 了 。
比如让它写个类似 Slack 或 Teams 的聊天应用 , 它能一口气敲出大约 1.1 万行代码 。 相比之下 , 之前的 Claude Opus 4 和 Codex , 最多也就能独立工作七小时 。
用 Anthropic 的话来说 , Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学 , 各项能力都狠狠提升了一波 。
比方说 , 在 OSWorld 这个专门测试真实计算机任务的基准里 , 它拿下了 61.4% 的成绩 , 直接第一 。 要知道 , 四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先 , 这才多久性能就又往上抬了一大截 。
而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务 , 像个真人在操作似的 。 推理、金融这些测评项目上也都更强了 , 各项指标都在往上涨 。
有了这么强的能力 , Anthropic 这次自然不会只发个模型就完事 。
具体来看:
Claude Code加了「检查点」功能 , 能随时保存进度 , 想回退到之前某个状态一键搞定 终端界面翻新 , 还发布了原生 VS Code 插件 Claude API 增加了上下文编辑功能和记忆工具 代码执行和文件创建现在直接整合到对话里甚至 , Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了 , 叫 Claude Agent SDK 。
智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标 , 这些都是构建和设计 AI 智能体的棘手问题 。
而借助 Claude Agent SDK , 现在你也能拿去构建自己的产品 。
今天起 , 开发者还可以通过 Claude API 调用 claude-sonnet-4-5 。 定价还是跟 Claude Sonnet 4 一样 , 每百万 tokens $3/$15 , 价格没变能力更强 。
网友 @vasumanmoza 体验完直接发帖:
「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库 , 25 次工具调用 , 新增 3000 多行代码 , 生成了 12 个全新文件 。 它把所有东西都模块化了 , 拆掉了巨石式结构 , 清理了意大利面条式代码 。 结果完全跑不通 , 但天啊真的很优雅 。 」这评价 , 属于又爱又恨那种 。
Cursor 表示 , 在 Claude Sonnet 4.5 上看到了最前沿的编程性能 , 尤其处理长周期任务时提升明显 。 这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题 。
知名测评博主 Dan Shipper 则表示 , 新版 Sonnet 4.5 在使用体验上响应速度更快 , 可控性更强 , 也更稳定 。
性能强是一方面 , 安全性也得跟上 。
据介绍 , Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型 。
靠着 Claude 更强的能力加上完善的安全训练 , Anthropic 在模型行为上取得了显著改进 , 减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为 。 此外 , Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破 。
比较让我感兴趣的是 , Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能 , 叫「Imagine with Claude」 。
在这个功能里 , Claude 会实时生成软件 , 所有功能不是预设的 , 所有代码也不是提前写好的 。 你看到的一切都是 Claude 跟你互动时当场创造和调整出来的 。
不过 , 「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放 。
附上传送门 claude.ai/imagine 。
毫无疑问 , 今年的 AI 赛道依旧是卷编程的一年 。
目前 Anthropic 估值已经到了 1830 亿美元 , 8 月还实现了年化营收 50 亿美元 , 但这其中相当一部分增长靠着来自编程软件的普及 。 问题是 , 老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户 。
甚至一周之后就是 OpenAI 年度开发者大会 , Anthropic 这个时候抢先发布 Claude Sonnet 4.5 , 时间卡得够精准 , 明摆着就是要给对手上一波压力 。
此外 , Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示 , 更先进的 Opus 模型 , 预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势 。 」
不过有一说一 , Anthropic 自己眼下也有麻烦要解决 。
过去两个月 , Claude 系列模型刚经历了一场「降智」风波 。 用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑 , 连付费的 Max 用户都没能幸免 。
虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新 , 还承认了两个独立 Bug , 声明「绝非为省成本故意降智」 , 但由于没提供补偿或退款 , GitHub 和 X 等平台上还是出现了退订潮 , 不少用户直接转投 Codex 。
这次 Claude Sonnet 4.5 的发布 , 显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户 。 至于能不能成功 , 就看接下来几周的实际表现了 。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr) , 更多精彩内容第一时间为您奉上 。
爱范儿|原文链接· ·新浪微博
推荐阅读
- 刚刚,奥特曼预言:人类「只剩」最后5年!
- 刚刚,Meta挖走OpenAI清华校友宋飏,任超级智能实验室研究负责人
- 6.3英寸+7000mAh!刚刚发布的这小屏旗舰,价格真香呀
- 刚刚谷歌发布机器人最新大脑模型!思考能力SOTA,还能跨物种学习
- 刚刚,GPT-5首次通过「哥德尔测试」!破解三大数学猜想
- 刚刚,高通掏出旗舰芯片王炸,小米今晚抢首发,PC芯80TOPS算力飙涨
- 圆桌对话:具身智能,「马拉松」刚刚开跑|2025年36氪产业未来大会
- 刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目
- 7500mAh+2亿长焦!刚刚官宣的顶级旗舰,堆料太猛了
- 刚刚,这些旧 iPhone 正式下架
