GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文

文章图片

GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文


作者 | 程茜
编辑 | 云鹏
智东西4月15日报道 , 刚刚 , OpenAI一口气掏出了GPT-4.1系列的三款模型 , 并称这是其有史以来最小、最快、最便宜的模型系列 , 且新模型的整体性能表现要优于GPT-4o和GPT-4o mini 。
GPT-4.1系列模型包含三个模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano , 上下文窗口均达到100万个token , 输出token数达到32768个 , 知识截止日期为2024年6月 。 OpenAI的基准测试显示 , 其在编码、指令遵循、长文本理解方面的得分均超过了GPT-4o和GPT-4o mini 。

GPT-4.1系列模型仅通过API提供 , 现已对所有开发者开放 。 OpenAI将开始在API中弃用GPT-4.5预览版 , 因为GPT-4.1系列模型在许多关键能力上提供了相似性能 , 同时成本和延迟更低 。 GPT-4.5预览版将在今年7月14日关闭 。
具体的性能优化集中于编码、指令遵循、长文本理解上:
编码:GPT-4.1在SWE-bench验证测试中得分54.6% , 较GPT-4o提升了21.4% , 较GPT-4.5提升了26.6% 。
指令遵循:在Scale的衡量指令遵循能力指标的MultiChallenge基准测试中 , GPT-4.1得分38.3% , 较GPT-4o提升了10.5% 。
长文本理解:在多模态长文本理解的Video-MME基准测试中 , GPT-4.1在无字幕的长文本类别中得分72.0% , 较GPT-4o提升了6.7% 。
对于对延迟较为敏感的场景 , OpenAI重点提到了GPT-4.1 nano , 并称这是其最快、最经济的模型 。 GPT-4.1 nano基准测试MMLU得分为80.1% , GPQA得分为50.3% , Aider多语言编码得分为9.8% , 均高于GPT-4o mini 。

GPT-4.1系列模型仅通过API提供 , 现已对所有开发者开放 。 OpenAI将开始在API中弃用GPT-4.5预览版 , 因为GPT-4.1系列模型在许多关键能力上提供了相似性能 , 同时成本和延迟更低 。 GPT-4.5预览版将在今年7月14日关闭 。
OpenAI在博客中提到 , 性能表现更好、更经济的GPT-4.1系列模型将为开发者构建智能系统和复杂的智能体应用开辟新的可能性 。
价格方面 , 对于中等规模的查询 , GPT-4.1的价格比GPT-4o低26% , 对于重复使用相同上下文的查询 , OpenAI将提示缓存折扣从之前的50%提高到了75% 。 最后 , 除了标准的每token费用之外 , OpenAI不会对长上下文请求额外收费 。

一、编码能力:表现优于GPT-4o , 超80%用户喜欢GPT-4.1的应用GPT-4.1在多种编码任务上的表现优于GPT-4o , 包括主动解决编码任务、前端编码、减少不必要的编辑、遵循diff格式、确保工具使用的一致性等 。
相比于GPT-4o , GPT-4.1可以创建功能更强大、美观度更高的Web应用 , 如下图所示的“闪卡”应用:

在衡量现实世界软件工程技能的指标SWE-bench Verified上 , GPT-4.1完成了54.6%的任务 , GPT-4o为33.2% , 这说明GPT-4.1在探索代码库、完成任务以及生成既可运行又可通过测试的代码方面的能力提升 。

▲该测试中 , 模型会收到一个代码库和问题描述 , 然后其需要生成补丁来解决该问题 , 模型的表现会高度依赖于所使用的提示和工具 。
对于希望编辑大文件的API开发者来说 , GPT-4.1在多种格式下的代码差异方面更加可靠 。 GPT-4.1在多语言差异基准测试Aider中的得分 , 是GPT-4o的两倍 , 比GPT-4.5高出8% 。
这项评估既考察模型对各种编程语言编码的能力 , 还有对模型在整体和差异格式下产生变化的能力 。 OpenAI专门训练了GPT-4.1以遵循差异格式 , 这使得开发者可以通过模型仅输出更改的行来节省成本和延迟 , 而不是重写整个文件 。
此外 , OpenAI将GPT-4.1的输出token限制增加到32768个 , GPT-4o为16384个token , 其还建议使用预测输出以减少完整文件重写的延迟 。

▲在Aider中 , 模型通过编辑源文件来解决Exercism的编码练习 , 允许重试一次 。
前端编码方面 , GPT-4.1能够创建功能更强大、美观度更高的Web应用 。 在OpenAI的对比测试中 , 人工评分员在80%的情况下更青睐GPT-4.1生成的网站 , 而非GPT-4o生成的网站 。
在上述基准测试之外 , GPT-4.1可以减少不必要的编辑 。 在OpenAI的内部评估中 , 代码中的不必要的编辑从GPT-4o的9%降至GPT-4.1的2% 。
二、遵循指令:评估6大关键指令性能 , 多轮自然对话效果比GPT-4o提高10.5%OpenAI开发了一个内部评估系统 , 用于跟踪模型在多个维度和几个关键指令遵循类别中的性能 , 包括:
Format following:提供指定模型响应自定义格式的指令 , 例如XML、YAML、Markdown等;
Negative instructions:指定模型应避免的行为 , 例如“不要要求用户联系支持”;
Ordered instructions:为模型提供一组必须按给定顺序执行的指令 , 例如“首先询问用户的姓名 , 然后询问他们的电子邮件”;
Content requirements:输出包含某些信息的内容 , 例如“撰写营养计划时 , 始终包含蛋白质含量”;
Ranking:以特定方式排序输出 , 例如“按人口数量排序” 。
Overconfidence:如果请求的信息不可用或请求不属于给定类别 , 则指导模型说“我不知道”或类似的话 。 例如:“如果你不知道答案 , 请提供支持联系邮箱 。 ”
OpenAI的博客中提到 , 这些类别是根据开发者反馈得出的 。 在每个类别中 , OpenAI将简单、中等和困难提示进行了细分 , GPT-4.1在困难提示方面相对于GPT-4o有显著提升 。

▲GPT-4.1在困难提示方面表现
多轮指令遵循对开发者的重要性在于 , 模型需要保持对话的连贯性 , 并跟踪用户之前告诉它的内容 。 OpenAI训练GPT-4.1 , 以使得其能更好地从过去的对话信息中提取信息 , 从而实现更自然的对话 。 在Scale的MultiChallenge基准中 , GPT-4.1比GPT-4o提高了10.5% 。

▲GPT-4.1在MultiChallenge中测试结果
在IFEval测试中 , 其使用具有可验证指令的提示 , 例如 , 指定内容长度或避免某些术语或格式 。 GPT-4.1得分达到87.4% , GPT-4o为81.0% 。

▲GPT-4.1在IFEval中测试结果
早期测试者指出 , GPT-4.1可能更容易理解字面意思 , 因此OpenAI建议开发者可以在提示中明确具体的指令 。
三、长文本理解:适合处理大型代码库、长文档 , “大海捞针”也不在话下GPT-4.1系列模型可以处理100万个token上下文 , 此前GPT-4o的上下文窗口为128000个 。 100万个token已经是整个React代码库的超过8倍之多 , 因此长上下文适合处理大型代码库或大量长文档 。
OpenAI还对GPT-4.1模型进行了训练 , 使其能在长和短上下文长度中忽略干扰信息 , 这也是法律、编码、客户支持等多个领域的企业应用的关键能力 。
博客中 , OpenAI展示了GPT-4.1在上下文窗口内不同位置检索一条隐藏的少量信息(即一根 “针”)的能力 , 也就是“大海捞针”的能力 。

▲OpenAI内部针对GPT-4.1模型的“大海捞针”评估
其结果显示 , GPT-4.1能够在所有位置以及各种上下文长度(直至长达100万个token)的情况下准确检索到这条关键信息(“针”) 。 无论相关细节在输入内容中的位置如何 , 它都能提取出与当前任务相关的细节 。
在实际使用中 , 用户经常需要模型理解、检索多个信息片段 , 并理解这些片段之间的关系 。 为了评估这一能力 , OpenAI正在开源新的评估工具:OpenAI-MRCR(多轮核心词识别) 。
OpenAI-MRCR可以用来测试模型在上下文中找到和区分多个隐藏得关键信息的能力 。 评估包括用户和助手之间的多轮合成对话 , 用户要求模型写一篇关于某个主题的文章 , 例如或“写一篇关于岩石的博客文章” 。 随后 , 其会在整个对话上下文中插入2、4或8次相同的请求 , 模型需要据此检索出对应特定请求实例的回复 。
在OpenAI-MRCR?中 , 模型回答的问题 , 会拥有2个、4个或8个分散在上下文中的相似提示词干扰项 , 模型需要在这些问题和用户提示之间进行消歧 。

▲在OpenAI-MRCR?中 , 模型回答问题被添加2个干扰项的评估结果

▲在OpenAI-MRCR?中 , 模型回答问题被添加4个干扰项的评估结果

▲在OpenAI-MRCR?中 , 模型回答问题被添加8个干扰项的评估结果
这之中的挑战就是 , 这些请求与上下文其余部分很相似 , 模型容易被细微的差异所误导 。 OpenAI发现 , GPT-4.1在上下文长度达到128K个token时优于GPT-4o 。
OpenAI还发布了用于评估多跳长上下文推理的数据集Graphwalks 。 这是因为 , 许多需要长上下文的开发者用例需要在上下文中进行多个逻辑跳跃 , 例如在编写代码时在多个文件之间跳转 , 或者在回答复杂的法律问题时交叉引用文档等 。
Graphwalks需要模型跨上下文多个位置进行推理 , 其使用由十六进制散列组成的定向图填充上下文窗口 , 然后要求模型从图中的一个随机节点开始进行广度优先搜索(BFS) , 然后要求它返回一定深度的所有节点 。

▲Graphwalks评估结果
GPT-4.1在这个基准测试中达到了61.7%的准确率 , 与o1的表现相当 , 并且击败了GPT-4o 。
除了模型性能和准确性之外 , 开发者还需要能够快速响应以满足用户需求的模型 。 OpenAI改进了推理堆栈 , 以减少首次token的时间 , 并且通过提示缓存进一步降低延迟、节省成本 。
OpenAI的初步测试显示 , GPT-4.1的p95首次token延迟大约为十五秒 , 在128000个上下文token的情况下 , 100万个上下文token为半分钟 。 GPT-4.1 mini和nano更快 , 如GPT-4.1 nano对于128000个输入token的查询 , 通常在五秒内返回第一个token 。
四、多模态理解:无字幕视频答题、看图解数学题 , 表现均超GPT-4o在图像理解方面 , GPT-4.1 mini在图像基准测试中优于GPT-4o 。
对于多模态用例 , 如处理长视频 , 长上下文性能也很重要 。 在Video-MME(长无字幕)中 , 模型根据30-60分钟长的无字幕视频回答多项选择题 , GPT-4.1得分72.0% , 高于GPT-4o的65.3% 。

模型回答包含图表、图表、地图等问题的MMMU测试结果:

模型解决视觉数学任务的MathVista测试结果:

模型回答关于科学论文图表问题的CharXiv-Reasoning测试结果:

结语:为构建复杂智能体开辟可能性GPT-4.1的提升与开发者日常开发的真实需求相关 , 从编码、指令遵循到长上下文理解 , 而性能表现更好、更经济的GPT-4.1系列模型为构建智能系统和复杂的智能体应用开辟了新的可能性 。
【GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文】未来 , 这或许会使得开发者将其与各类API结合使用 , 构建出更有用、更可靠的智能体 , 这些智能体可以在现实世界的软件工程、从大量文档中提取见解、以最小的人工干预解决客户请求以及其他复杂任务方面有应用的潜力 。

    推荐阅读