
文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片
机器之心报道
机器之心编辑部
ChatGPT 现在可以思考行动 , 主动选择工具 , 用自己的虚拟计算机为你完成任务 。
Agent AI 时代 , 比我们想象中来得要早一些 。
北京时间周五凌晨 , OpenAI 突然开启了新产品直播 。
本次发布的是全新的 ChatGPT Agent , 它实现了通用智能体(Agent)能力的关键升级 。
与以往的基础大模型升级不同 , 通用 Agent 可以自动利用多种工具进行规划 , 帮助人们完成复杂的任务 , 包括自动浏览用户日历 , 生成可编辑的 PPT , 运行代码等等 。 Agent 能够连接你的 Gmail、GitHub 网站获取信息并解决问题 , 使用 API 来访问各种应用 。 Agent 加持的 AI 智能有了大幅提升 —— 基于 ChatGPT Agent 的模型在 HLE 基准上拿到了 41.6% 的分数 , 是 o3 和 o4-mini 的几乎两倍 。
ChatGPT Agent 目前已向 OpenAI Pro、Plus 和 Team 计划的订阅用户开放 。 想要使用的用户在 ChatGPT 的工具下拉菜单中选择「Agent 模式」即可 。
OpenAI 表示 , 企业版和教育版用户预计将于夏季晚些时候获得新功能 。 在正式发布时 , Pro 用户每月通常最多可使用 400 次 Agent 提示 , 其他付费用户则最多可使用 40 次 。 目前尚不清楚该功能何时会面向 ChatGPT 免费用户推出 。
【刚刚,OpenAI通用智能体ChatGPT Agent正式登场】
这是 OpenAI 迄今为止最为大胆的一次新产品发布 , 从此以后 ChatGPT 成为了一款能够为人们采取行动和分担任务的 Agent 产品 , 已经远远超出了回答问题的范畴 。
OpenAI CEO 山姆?奥特曼(Sam Altman)表示 , 看着 ChatGPT 智能体使用计算机执行复杂任务对我来说是一个真正的「感受 AGI」的时刻 , 看到计算机思考、计划和执行会带来不同的感受 。
ChatGPT 现在可以使用自己的虚拟电脑为你完成工作 , 从头到尾处理复杂任务 。 用户不仅可以让 ChatGPT 执行诸如「查询年度财务报告」等请求 , 并智能地浏览网站、筛选结果 , 在需要时提示你安全登录 , 运行代码、进行分析 , 甚至可以交付可编辑的幻灯片和电子表格 , 总结其研究成果 。
比如让「ChatGPT Agent 搜索查询旧金山市年度综合财务报告(2020-2024 年)」:
再比如输入提示「我是一位网球迷 , 想去棕榈泉观看网球比赛 , 特别是在半决赛 / 决赛期间 。 我住在旧金山 , 请帮我制定一份详细的三天行程 , 包括航班安排、酒店预订、活动内容(比赛、徒步、美食、水疗等) 。 我喜欢徒步旅行、纯素食餐厅和水疗 。 总预算为 3000 美元 。 这份行程需要包括:精确的时间安排;每项活动的内容、费用和其他细节;如有需要 , 提供购票或预订链接」 , 接着让 ChatGPT Agent 帮你制定详细的行程:
这一新能力的核心是一个统一的智能 agentic 系统 , 它结合了三个早期突破的优势 , 包括 Operator 的网站交互能力、deep research 的信息综合能力 , 以及 ChatGPT 的智能推理与对话能力 。
ChatGPT 借助自己的虚拟计算环境 , 在推理与执行之间灵活切换 , 根据用户的指令 , 从头到尾处理复杂的工作流程 。最重要的是 , 用户始终掌控全局 。 ChatGPT 会在执行任何重要操作前征求你的许可 , 你也可以随时中断任务、接管浏览器或停止运行 。
OpenAI 表示 , 「虽然 ChatGPT Agent 已经可以应对复杂任务 , 但这次发布只是开始 。 我们将持续迭代、定期推出重大改进 , 让它变得更强大、更实用 , 服务于更多用户 。 」
Operator 与深度研究的自然进化
过去 , Operator 和 deep research 各自具备独特优势:Operator 能够在网页上滚动、点击和输入 , 而 deep research 擅长分析和总结信息 。
不过 , 二者在不同场景下才发挥最大作用 , 各有不擅长的领域 。 Operator 无法深入分析或撰写详细报告 , 而 deep research 又无法与网页交互、进一步筛选结果或访问需要用户登录的内容 。
OpenAI 发现 , 许多用户尝试用 Operator 处理的任务 , 其实更适合用 deep research , 因此决定将二者的优势整合在一起 。
通过将这些互补能力集成进 ChatGPT , 并引入更多工具 , OpenAI 在一个模型中解锁了全新的能力 。 它现在可以主动与网站交互 —— 点击、筛选并收集更精准、高效的结果 。 yonghu 也可以在同一个对话中 , 从自然的交流无缝过渡到发出具体操作请求 。
OpenAI 为 ChatGPT Agent 配备了一整套工具:包括一个通过图形用户界面与网页交互的可视化浏览器、一个用于处理简单推理类网页查询的文本浏览器、一个终端(命令行界面)、以及直接调用 API 的能力 。
该 agent 还可以利用 ChatGPT Connectors , 将 Gmail、GitHub 等应用连接进来 , 使 ChatGPT 能够查找与你提示相关的信息 , 并将其用于回答中 。 用户也可以通过接管浏览器 , 在任意网站上登录账户 , 从而帮助它在信息检索和任务执行方面更深入、更广泛 。
为 ChatGPT 提供多种访问和交互网页信息的方式 , 意味着 ChatGPT Agent 能够选择最优路径 , 以最高效地完成任务 。 例如 , 它可以通过 API 获取用户的日历信息 , 使用文本浏览器高效处理大量文本内容 , 同时也具备通过可视化界面与专为人类设计的网站进行交互的能力 。
所有这些操作都是在 ChatGPT Agent 自己的虚拟计算机上完成的 , 这可以在使用多个工具时保留任务所需的上下文信息 。 ChatGPT Agent 可以根据需要选择用文本浏览器或可视化浏览器打开网页 , 从网上下载文件 , 在终端中运行命令处理文件 , 然后再通过可视化浏览器查看输出结果 。 同时也会根据任务调整策略 , 以快速、准确和高效的执行 。
ChatGPT Agent 专为迭代式、协作式的工作流程而设计 , 远比以往的模型更加互动和灵活 。 在 ChatGPT 执行任务的过程中 , 用户可以随时打断它 , 进一步澄清指令 , 令其朝着期望的方向发展 , 或完全更换任务内容 。 它会在新的信息基础上继续工作 , 而不会丢失此前的进度 。
同样地 , ChatGPT 也会在需要时主动向用户请求更多细节 , 以确保任务始终与目标保持一致 。 如果某项任务耗时超出预期或陷入停滞 , 用户可以选择暂停任务、请求进度摘要 , 或者直接终止任务并获取当前已有的部分结果 。 如果用户在手机上安装了 ChatGPT 应用 , 它还会在任务完成后发送通知 。
基准测试结果:拓展现实世界的实用性
ChatGPT Agent 及背后模型的能力提升体现在多个基准测试中的顶尖表现 , 评估内容包括网页浏览和现实世界任务的完成能力 。
其中在「人类最后考试」(Humanity's Last Exam)评估中(这项评估衡量了 AI 在各个领域的专家级问题上的表现) , 支持 ChatGPT Agent 的模型在该评估中的 Pass@1 分数为 41.6 。
由于该 Agent 能够动态规划并自主选择工具 , 它可以通过不同的方式处理相同的任务 。 在通过简单的并行策略进行扩展时 —— 同时运行最多八次尝试并选择自我报告信心最高的结果 —— 该 Agent 的 HLE 得分提高到了 44.4 。
FrontierMath 是目前已知最难的数学基准测试 , 包含全新且未公开发表的问题 , 通常需要数学专家花费数小时甚至数天才能解决 。 在具备工具使用能力(例如可访问终端以执行代码)的情况下 , ChatGPT Agent 在该测试中达到了 27.4% 的准确率 , 远远超越此前的所有模型 。
OpenAI 还使用模拟复杂真实任务的基准测试对该模型进行了评估 。 在一个用于评估模型在复杂、具有经济价值的知识型工作任务中表现的内部基准中 , ChatGPT Agent 的输出在大约一半的情况下可与人类相媲美 , 甚至优于人类 , 任务完成时间范围不等 , 并且显著优于 o3 和 o4-mini 模型 。
在 DSBench 基准测试中 , 用于评估 Agent 在涵盖数据分析与建模的真实数据科学任务的表现 。 ChatGPT Agent 超越了人类的平均表现 , 且优势明显 。
在 SpreadsheetBench 基准测试中 , 用于评估模型处理真实场景电子表格编辑任务的能力 。 ChatGPT Agent 表现远超现有模型 。 当赋予直接编辑电子表格的能力时 , 它的得分更是高达 45.5% , 而 Excel 中的 Copilot 仅为 20.0% 。
方法概览如下:SpreadsheetBench 的作者使用的是基于 Windows 系统的 Microsoft Excel 环境来评估电子表格任务 。 而 OpenAI 使用的是 macOS 系统和 LibreOffice , 这可能会导致评分上的细微差异 。 例如 , 作者报告 GPT-4o 在「整体高难度限制」项上的得分为 15.02% , 而 OpenAI 测得的结果为 13.38% 。 OpenAI 使用的是包含全部 912 道题目的完整基准测试集 。
在一个内部基准测试中 , OpenAI 评估了模型处理投资银行分析师一至三年级建模任务的能力 , 例如:为一家《财富》500 强公司制作带有规范格式和引用的三大财务报表模型 。 ChatGPT Agent 所依托的模型在这一评估中显著优于 deep research 和 o3 。
OpenAI 还在 BrowseComp 基准测试中评估了 ChatGPT Agent 。 该基准由 OpenAI 于今年早些时候发布 , 用于衡量浏览型 Agent 在网络上查找难以获取信息的能力 。 ChatGPT Agent 在该测试中创下了新的 SOTA(当前最优表现) , 得分为 68.9% , 比 deep research 高出 17.4 个百分点 。
最后 , 在 WebArena 基准测试中 , 用于评估网页浏览型 Agent 完成真实网页任务的能力 。 ChatGPT Agent 在表现上超越了由 o3 驱动的 CUA(即驱动 Operator 的模型) 。
更多基准测试细节请参阅 ChatGPT agent 系统卡(System Card):
系统卡地址:https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21eacc3459d/chatgpt_agent_system_card.pdf
最后 , 山姆?奥特曼发表了一篇长推介绍了 ChatGPT Agent 的安全限制 。
Agent 代表了 AI 系统能力的新高度 , 它能够利用自身的计算机为你完成一些特殊而复杂的任务 。 它融合了 Deep Research 和 Operator 的精髓 , 但实际功能远超想象 —— 它可以进行长时间思考 , 使用一些工具 , 进行更深入的思考 , 采取一些行动 , 再进行更深入的思考等等 。
例如 , 我们在发布会上展示了一个为朋友的婚礼做准备的演示:购买服装、预订行程、挑选礼物等等 。 我们还展示了一个分析数据并创建工作演示文稿的示例 。
尽管其效用很大 , 但潜在的风险也很大 。 我们已在其中构建了大量的安全措施和警告 , 以及比以往任何时候都更广泛的缓解措施 , 从强大的训练到系统安全措施再到用户控制 , 但我们无法预见一切 。 本着迭代部署的精神 , 我们将向用户发出很多警告 , 并给予用户自主选择是否谨慎采取行动的自由 。
我会向我的家人解释这是前沿和实验性的 。 这是一个尝试未来的机会 , 但在我们有机会在现实世界研究和改进它之前 , 我不会将它用于高风险用途或获取大量个人信息 。 我们尚不清楚具体会造成什么影响 , 但恶意行为者可能会试图「诱骗」用户的 AI Agent , 使其提供不该提供的隐私信息 , 并采取不该采取的行动 , 而这些行为的方式我们无法预测 。
我们建议授予 Agent 完成任务所需的最低访问权限 , 以降低隐私和安全风险 。 例如 , 我可以授权 Agent 访问我的日历 , 以便安排一个合适的聚餐时间 。 但如果我只是让它帮我买衣服 , 就不需要授予它任何访问权限 。 诸如「查看我昨晚收到的电子邮件 , 并采取一切必要措施处理 , 不要问任何后续问题」之类的任务风险更大 。 这可能会导致恶意电子邮件中不可信的内容诱骗模型泄露你的数据 。
我们认为 , 重要的是从接触现实开始学习 , 并且随着我们更好地量化和降低潜在风险 , 人们应该谨慎而缓慢地采用这些工具 。 与其他新的能力水平一样 , 社会、技术和风险缓解策略需要共同发展 。
网友一手体验
至于这款 Agent 是否好用 , 不少网友现身说法 。
X 网友 @rowancheung 提前获得访问权限 , 并让 ChatGPT Agent 在 20 分钟内为他创建一个完整的提前退休计划 。
拿到任务 , ChatGPT Agent 就开始查找温哥华的当地税法、分析平均每月支出率、计算 30 岁退休所需的储蓄金额、研究最佳投资分配 , 还发现了 Rowan 从未听说过的税务优化策略、构建多种财务独立提前退休(FIRE)场景 , 最终创建一个可下载的演示文稿 , 总结结果 。
Rowan 表示 , 这项工作如果由财务顾问完成 , 可能会花费 5000 美元以上 , 并且需要数周时间 。 其中电子表格和幻灯片生成能力确实不错 , 但与 Manus 或 Genspark 等工具得到的结果类似 。
于是 , Genspark 联合创始人、CEO Eric Jing 将 Rowan Cheung 的提示词进行了 OCR , 并将其输入到 Genspark 中 。
他表示 , 在相同的提示下 , Genspark 仅用了一小部分时间和成本 , 就生成了比 ChatGPT Agent 质量高得多的结果 。
还有网友让 ChatGPT Agent 去 Tesco 食品店完成购物 , 订购烤肉晚餐和粘稠焦糖布丁 。
他给出的提示词也相当简单:Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert.
「我看着它浏览网站、提示我输入登录信息、将商品加入购物车 , 并自主完成整个过程 , 真是太不可思议了 。 」
不过 , 该网友也坦言 , ChatGPT Agent 干活的整个过程大约花了 20 分钟 , 如果自己手动操作可能会更高效一些 , 未来还有改进的空间 。
参考内容:
https://openai.com/index/introducing-chatgpt-agent/
https://x.com/OpenAI/status/1945890050077782149
https://x.com/rowancheung/status/1945896543263080736
https://x.com/ericjing_ai/status/1945915234784588272
https://x.com/thealexbanks/status/1945921363237052589
推荐阅读
- AI办公大战升温,OpenAI也要加入飞书和WPS的战场?
- Meta又挖走OpenAI两名顶尖AI人才 上月底已挖走3人
- 刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻
- 刚刚,OpenAI 发布了自己的 Agent模式,Manus Style
- 499元,小米刚刚公布的6000mAh新品,有点骚啊
- 刚刚,亚马逊推Agent全家桶!5招连发,狂堆猛料,吹响AI集结号
- OpenAI正式引入谷歌云作为战略供应商,强化ChatGPT全球算力部署
- 刚刚发布的小屏手机销量榜,把我看懵了
- 种子轮就估值120亿美元,她能打造另一个OpenAI吗?
- 又一华人逃离OpenAI!“思维链第一人”加入Meta
