
文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片
【商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁】
多模态信息感知与处理的能力 , 是AGI的核心要求 , 也是从语言模型迈向AGI的必由之路 。
从多模态感知、推理 , 再到交互 , 多模态智能的演进将驱动AI下一阶段的发展 。
2025年7月27日 , 由全国工商联人工智能委员会倾力主办 , 商汤科技承办的【大爱无疆·模塑未来】WAIC 2025大模型论坛上 , 商汤科技发布全新「日日新SenseNova V6.5」(简称“日日新V6.5”)大模型体系 , 多模态基座大模型迎来突破性升级 , 带来AI从“生产力工具”到“生产力”的跨越 。 商汤旗下核心产品商汤小浣熊也完成智能体升级 。
1950年 , 图灵通过“模仿游戏”将AI定义为“类人能力” , 但实际的AI一直未能摆脱“工具”的范畴 , 一度陷入发展低谷 。 而在大模型时代 , AI 凭借多模态融合能力的突破 , 逐步触达 AGI 边界 , 真正开始向“类人”标准靠近 。
全国工商联人工智能委员会主席团首任轮值主席、商汤科技董事长兼首席执行官徐立表示:“商汤科技始终探寻人工智能本质 , 以技术创新激发最大智能 , 推动AI完成从“工具”到‘人’的跃迁 , 成为真正的生产力 。 ”
日日新V6.5焕新:突破性升级触碰“理解的深度”商汤「日日新V6.5」多模态基座大模型带来三大突破性升级:
强推理:图文交错多模态思维链 , 推理性能比肩 Gemini 2.5 Pro、Claude 4-Sonnet;
高效率:多模态架构优化 , 性价比提升3倍以上;
智能体:数据分析大幅领先 , 支持端到端的场景落地 , 实现价值闭环 。
通过多模态思维链数据进阶图文交错思维链数据合成 , 商汤「日日新V6.5」多模态推理与交互性能实现了大幅提升:
商汤「日日新V6.5」率先突破图文交错思维链技术 , 在大模型中引入形象思维 , 成为国内首个实现图文交错思维的商业级大模型 。
在人类的思考中 , 形象思维和逻辑思维同等重要 , 两者有机结合才能形成全面的思维能力 。 所谓“一图胜千言” , 一幅图往往比大段文字更能引发有效思考 。 当前 , 主流的多模态模型虽然已经实现了在输入端融合多种模态 , 但思考推理过程依然主要依赖语言推理 , 图形和空间推理仍存在短板 。
多模态思维链构造的关键在于信息的图形化表达 , 相比纯文本思维链更具挑战 , 不仅要呈现文字思考过程 , 还需生成作为思考节点的图像 , 难以通过纯人工方式大规模实现 。 商汤研发团队先基于对思维过程的理解构造种子数据 , 经监督微调(SFT)训练让模型初步具备图文交错思考能力 , 再通过多轮强化学习显著提升多模态推理能力 。
同时 , 商汤还改进了多模态模型的融合架构 , 促进跨模态早期融合 。 新的架构采用了显著变轻的视觉编码器 , 以及深而窄的主干模型 , 使得视觉表征在前馈计算早期就与语言进行对齐和交融 , 从而使感知更高效 , 模态融合更深 。
得益于模型架构的改进 , 商汤「日日新V6.5」在实现成本优化的同时 , 预训练吞吐量提升了20%以上 , 强化学习效率提升了40% , 推理吞吐量提升了35%以上 , 取得性能和成本的完美平衡 。 相较「日日新V6.0」 , 「日日新V6.5」将性价比提升了3倍 。
AI是生产力:商汤小浣熊 , 办公最强智能体登场大语言模型已成为当下不少人的工作辅助工具 , 但仅靠大语言模型 , 不足以让AI完成从“工具”向“人”的跃升 。
人类的日常任务活动 , 天然涉及对文本、图像、视频、网页等多模态信息的处理 。 从生产力工具到生产力 , 关键就在于多模态信息的输入、处理与输出能力 。
基于「日日新V6.5」强大的多模态数据分析能力 , 商汤小浣熊全面升级:能够胜任多模态复杂输入 , 进行多模态融合深入分析 , 给出多模态结果输出 , 实现专业的可视化呈现 , 打造“办公场景的AI生产力” , 让AI实现从「生产力工具」到「生产力」的跨越 。
同时 , 商汤小浣熊始终保持世界领先的复杂数据分析能力 。 在客户场景的综合测试中 , 小浣熊达到在数据分析和智能体领域的国际标杆 Claude 4 Opus 的水平 , 大幅领先OpenAI o3等模型 。 其中 , 在时序计算、数据匹配、数理计算和异常检测等任务中 , 准确率均可接近 100% 。
现实办公场景中 , 数据输入形式极为复杂 。 在数据分析场景中 , 截图、文档和PDF等各类样式的文档屡见不鲜 , 而其中结构化信息及表格仅占约70% 。 即便是看似基础的 Excel 表格 , 也常包含合并单元格、缺失值、嵌套子表格及内嵌图表等复杂元素 , 大幅提升处理难度 。
商汤小浣熊能够以多模态思维实现全局分析 , 通过思维链构造进行多步思考与反思 , 最终输出结构化的结果 。
事实上一个表格看着简单 , 背后的逻辑因果却非常复杂 , 如今商汤小浣熊可以让复杂表格简单化 。
用户上传包含合并单元格、缺失值、子表格、内嵌图表及外部图片的复杂 Excel 表格 。 商汤小浣熊能够精准解析表格内容 , 建立子表格间的逻辑关联 , 最终生成完整的分析报告 。
另一个复杂输入的用户案例 , 小商户在抖音等视频平台刷到有用的表格内容 , 截图后上传 。 商汤小浣熊可以通过图片信息分解任务并去除干扰 , 提取表格信息 , 一键导出可编辑的Excel 表格供用户填写 , 输入、分析、输出全程都有多模态能力支持顺畅进行 。
传统AI工具多扮演辅助角色 , 核心工作仍依赖用户主导完成;而商汤小浣熊实现了交互范式的升级——由AI主动承担核心任务 , 并通过精准提问和用户确认关键信息 , 交互逻辑如同同事协作 。
由AI主动承担核心任务 , 并通过精准提问和用户确认关键信息 , 交互逻辑如同同事协作 。
商汤小浣熊如今推出的任务规划功能 , 其新颖的交互模式更利于用户理解 , 以前段时间大火的“苏超”为例 。
用户上传图像表格 , 要求分析“苏超”TOP球员 。 商汤小浣熊会自动抓取网上信息 , 并依托专家知识生成任务清单(如确定 “TOP5” 标准 , 分析青训成绩等)进行系统性分析 , 最终生成高质量分析文档 , 还可导出为 Excel、PPT、HTML 等可编辑格式 。 整体流程如下↓↓↓
我们来看下分解步骤:当接收任务后 , 小浣熊会主动梳理任务细节 , 就关键节点向用户提出明确问题(如 “是否需要按以下 1、2、3 点推进?”) , 以确保任务方向准确 , 真正实现 “AI 主导干活、用户决策把关” 的高效模式↓↓↓
接下来就能依据专家知识生成任务清单(如确定 “TOP5” 标准 , 分析青训成绩等)进行系统性分析 , 下一步该做什么、可以怎么商量着做一目了然↓↓↓
专业数据+工具调用 , 实现高质量内容过程↓↓↓
最终生成高质量分析文档 , 还可导出为 Excel、PPT、HTML 等可编辑格式↓↓↓
凭借强大的复杂任务处理能力 , 商汤小浣熊加速向行业渗透 , 此次推出了面向两大具体场景的特制版本——教育版和金融版 。
商汤小浣熊教育版可智能分析学生学习表现、课程效果、学习行为模式分析 , 目前已覆盖500+院校、10余种教育场景、25万+教师和学生 , 帮助学生提升学习效率15~30% , 并已在多所学校协助教研团队 , 降低学业焦虑发生率 40% , 课堂参与度提高 2.1倍 , 资源错配率降低30% , 心理健康干预及时性提升了50% 。
商汤小浣熊金融版可为金融业提供知识助手、智能问数、多模态智能理赔产品与解决方案 , 构建金融领域的“人机协同”智能决策新范式 。
截至目前 , “商汤小浣熊家族”产品矩阵广泛服务多行业企业 , 用户数量实现1000万+ 。
以多模态技术激活AI生产力 , 商汤日日新大模型将持续进化 , 与行业共同奔赴下一阶段AI进化的新征程 , 加速通往AGI时代 。
*本文系量子位获授权刊载 , 观点仅为作者所有
推荐阅读
- 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
- 7月31日,网信办传来消息,中企抢购的H20芯片,存在安全问题
- 医疗支付改革走向深水区,镁信健康探索AI「破壁实验」
- Arm CEO:我们将制造自己的芯片!
- 从数字人到有温度的机器人,京东把 AI 深度应用的路线图「摸透」了
- SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
- WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
- WAIC 2025前探:AI硬件如何改变我们的日常生活
- 强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
- 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
