谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用

谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用

文章图片

谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用

文章图片

谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用

文章图片



【谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用】作者 | 陈骏达
编辑 | 心缘
智东西3月26日报道 , 今天 , 谷歌发布了Gemini 2.5思考模型家族的第一个成员——Gemini 2.5 Pro实验版本 。 这一模型在多项基准测试中全面超越OpenAI o3-mini , Claude 3.7 Sonnet、Grok-3和DeepSeek-R1 , 一经亮相便在大模型竞技场获得1443分 , 凭借39分的大幅优势 , 获得断层第一 。

不过 , 谷歌并未放出Gemini 2.5 Pro与OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基准测试中的对比 。 此外 , 在智能体编程评估基准SWE-bench verified上 , 其得分要低于Claude 3.7 Sonnet 。
Gemini 2.5 Pro除了在衡量人类偏好的大模型竞技场领先之外 , 还在常见的编程、数学和科学基准测试中处于领先地位 , 包括Humanity’s Last Exam(人类最后考试)这一难度超高的基准测试 , 与OpenAI o3-mini相比 , 其得分提升了近5% , 提升比例达34% 。 这款模型现已支持100万tokens上下文窗口 , 并将很快拓展至200万tokens 。
目前 , Gemini 2.5 Pro已上线面向开发者的谷歌AI Studio平台 , 并很快会在谷歌的在线AI开发平台Vertex AI上线 。 普通用户若要体验这款新模型 , 需要具备Gemini Advanced订阅账号 。
未来几周 , 谷歌还将推出模型的定价 , 允许用户使用具有更高速率的2.5 Pro进行大规模商用 。
博客地址:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
体验链接:https://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
一、谷歌大秀新模型编程能力 , 一句话生成互动式图表Gemini 2.5 Pro发布后 , 谷歌DeepMind在其YouTube账号上发布了多个演示视频 , 主要展现了其编程能力与其他领域能力的结合 。
例如 , Gemini 2.5 Pro可以根据用户提出的简单指令 , 在p5.js中探索曼德博集合 。 这要求大模型具备较好的数学、编程和可视化能力 。 最终 , 较好的可视化效果应包括清晰的边缘、平滑的颜色过渡等 。

Gemini 2.5 Pro还能根据提示词 , 创建互动式的图表 。 下方案例中 , 它便将过去几十年的人均GDP数据与健康数据结合 , 在一张图表内呈现了数百个国家过去几十年的变化 , 从而揭示财富与健康之间的关系 。

对于一些更为日常的任务 , 如游戏开发 , Gemini 2.5 Pro也能在指定特定编程语言的情况下 , 给出兼具审美和可玩性的游戏 。 下方的这一恐龙小游戏与Chrome内自带的游戏画风颇为接近 。

二、获得多项SOTA成绩 , 将支持200万tokens长上下文谷歌称 , Gemini 2.5 Pro在一系列需要高级推理能力的基准测试中获得了最佳表现 , 包括GPQA和AIME 2025 。 参与测试时 , Gemini 2.5 Pro没有使用多数投票等token消耗量巨大的测试时计算技巧 。

Gemini 2.5 Pro在Humanity’s Last Exam中获得了18.8%的最佳得分 , 且并未调用工具 。 这一测试集由数百位人类专家设计 , 包含了人类最前沿深奥的知识和推理 。
高级编程能力方面 , Gemini 2.5 Pro在2.0版本的基础上实现了较大提升 , 新模型擅长创建美观的Web应用和智能体编程方面表现突出 , 同时擅长代码转换与编辑任务 。
在行业标准的智能体编程评估基准SWE-bench verified上 , Gemini 2.5 Pro采用定制智能体配置取得了63.8%的得分 , 不过这一得分仍然低于Claude 3.7 Sonnet 。
与Gemini模型家族的其他成员一样 , Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口 。 目前 , 其支持100万tokens的上下文窗口 , 并很快将升级至200万tokens , 让该模型能够解析海量数据集 , 处理来自文本、音频、图像、视频乃至完整代码库等多元信息源的复杂问题 。
结语:编程成为AI玩家角力新前线本次Gemini 2.5 Pro的发布 , 与昨日DeepSeek-V3新版本的发布相隔不到30个小时 。 与DeepSeek-V3一样 , 谷歌也选择提升了Gemini在编程、审美、数学等方面的能力 , 并将其作为模型的亮点重点展示 , 放出的6个演示视频均为AI编程相关 。
AI编程能力的提升 , 既能给普通用户带来直观的感知变化 , 也有望在生产场景中带来明显的效益提升 。 这一领域或将在未来很长一段时间内 , 成为大模型厂商们竞相角力的方向 。

    推荐阅读