AI云玩家洗牌时刻,百度智能云凭什么六连冠?

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

文章图片



大模型热潮下 , 代入企业IT/AI工程师的视角却会发现 , AI落地处处都是坑:
AI在企业内部应用的场景多了之后 , 一到业务峰值 , 用户并发涌上来 , 要是调度系统不给力、加速引擎没提效、KVCache优化不到位 , 服务一旦卡壳 , 不仅用户体验崩了 , 还会带来业务损失;
智能体当道 , “数字员工”大量上岗 , 相互协作带来了大规模推理服务需求 , 但问题也随之而来 , 要么延迟超了 , 要么吞吐上不去 , 技术人员不得不熬夜做优化 。
这些焦头烂额的场景 , 正是当前企业AI落地过程中的真实写照 。 AI Infra的能力支撑 , 变得愈发重要 。
8月的2025百度云智大会上 , 产业对AI Infra的诉求有了明确的回应:百度智能云正式发布新一代AI基础设施 , 以百度百舸5.0为核心打造超节点云实例等关键能力 , 构建“云智一体、智能优先”的技术底座 。

正如百度集团执行副总裁、百度智能云事业群总裁沈抖所言:企业对基础设施的需求已经从“降本增效”转向“直接创造价值” , AI云不再是企业的“成本中心” , 而会成为新型的利润中心 。
断言背后 , 百度智能云在AI云市场竞争中高歌猛进 , 65%央企选择、连续六年公有云市场第一……无论是超大规模算力调度 , 还是复杂产业场景落地 , 百度智能云都已经形成了技术突破与产业实践的双重护城河 , 成为行业公认的头部玩家 。
但整个云市场的竞争仍在日趋白热化 , 云厂商纷纷将AI软硬件作为拉动增长的核心引擎 , 导致技术路径五花八门 , 解决方案层出不穷 , 让不少企业用户患上了选择困难症 。
到底该如何选 , 才能真正吃透AI Infra的技术红利呢?答案恐怕还要回到产业的真实需求中去寻找 。

风起云涌的AI浪潮中 , 很多企业都想尽快用上AI提升竞争力 , 但现实里却处处受限:芯片性能短期内难有大幅突破 , 自己建AI基础设施要花大价钱 , 而且企业自身大多缺乏搭建软硬件搭建的能力 。
这时候 , AI云就成了最优解 。 企业不用改造自己现有的系统 , 通过云端即可高效调用AI所需的算力、网络等核心能力 。
不过 , 面对五花八门的AI云 , 企业到底该看什么?业内共识是 , 企业落地大模型时 , 最容易被三个地方卡住脖子:算力瓶颈、互联瓶颈、稳定性与可靠性挑战 。
算力是企业应用AI的第一道关卡 。
大模型训练的算力消耗就很惊人了 , 以OpenAI为例 , 今年底上线的GPU数量就超过100万块 。 而智能体的爆发 , 也使得token使用量激增 , 带动推理算力需求上行 。

比如创下MPV纪录的罗永浩数字人直播间 , 前台讲解的两个数字人主播背后 , 助播智能体负责烘托气氛 , 剧本智能体撰写双人对话脚本 , 不同智能体按职责动态调整 。 每个智能体都要靠专门的AI模型驱动 , 这些模型同时跑起来 , 瞬间爆发的高并发算力需求 , 传统集群的固定资源分配模式完全跟不上节奏 。
所以 , 现在AI Infra的首要任务就是打破算力瓶颈 , 让大模型“装得下、跑得起” 。
攻克算力瓶颈 , 需要释放硬件性能 , 这时另一个卡脖子的问题又冒了出来 , 那就是:互联瓶颈 。
现在企业建AI集群 , 主要走两条路:Scale Out(横向扩展)与Scale Up(纵向扩展) 。 其中 , Scale Up超节点架构凭借单节点高密度算力集成的特性 , 支撑DeepSeek这类单体算力消耗不大的模型 , 成为企业应用AI的热门选择 。 但在实际落地中 , 用Scale Up替换Scale Out , 解决EP并行下的AlltoAll通信问题 , 需要构建适配数十块芯片在Scale Up域内实现高速全互联的网络架构 , 研发与之匹配的高效通信协议 , 并且对上层模型服务进行对应的适配优化 , 通过这样的“技术组合拳” , 才能充分发挥Scale Up网络 , 解决互联瓶颈 , 释放高密度算力集群的效能 , 支撑DeepSeek等模型在企业级AI场景中的高效部署与运行 。

无论Scale Out还是与Scale Up , 都绕不开一个规律:Scaling law(扩展法则) , 这就带来第三个难题:系统的稳定性与可靠性挑战与日俱增 。
模型性能随参数规模增长的需求仍在主导着AI Infra的演进 , 更直接影响着MoE(混合专家模型)等前沿架构的落地诉求 。 像DeepSeek那样的MoE模型(混合专家模型) , 得调动几千上万个专家节点一起工作 , 再加上现在越来越多人用强化学习、搞训推一体 , 这些动态弹性高并发的诉求 , 都对系统稳定性与可靠性带来冲击 。
稳定性与可靠性问题无法解决 , AI服务就容易出现卡顿、延迟 。 这种情况下 , 哪怕场景需求明确、应用价值很高 , AI也很难真正落地 。 当下阶段 , 单纯依赖硬件层面的优化已经不够了 , 必须让软件(比如推理系统)和硬件深度配合 , 才能增强集群韧性 , 保证系统稳定运行 。 更重要的是 , 深入产业场景还会发现 , 上述瓶颈并非是孤立存在的 。
AI落地 , 难关重重 , 企业需要在诸多彼此牵制的因素中寻找解法 , 自然头痛不已 。
而对于云厂商来说 , 企业的痛点既是挑战 , 也是机遇 。 要赢得这个庞大且迅速增长的市场 , 必须帮企业真问题 , 仅靠单一技术显然无法破局 , 唯有对AI Infra来一场彻底的系统性创新 , 才能在日趋激烈的竞争中撕开突破口 。

任何脱离企业实际应用需求的技术探索 , 都难以形成稳定可信赖的服务价值 。 企业当下所需要的AI Infra , 早已不再是简单的算力供给 , 还要解决网络、稳定、模型适配等一系列复杂难题 。 唯有如此 , 才能真正用好AI 。
沈抖就在云智大会上直言:这几年我们一直在思考 , AI云怎样才能真正做到智能优先?答案是算力、模型、数据和工程能力 。 基于这一判断 , 百度智能云推出了全新升级的百度百舸5.0 。

当然了 , 云厂商说得再好 , 不如企业用户现身说法 。 我们还是从一个个行业和企业的切实变化 , 来看看新一代基础设施如何精准回应产业落地AI的核心痛点 。
第一个需求 , 就是让AI跑起来 。
最直观的就是具身智能机器人 。 无论是WAIC大会现场 , 还是世界人形机器人运动会的赛场上 , 跑动的机器人都贡献了不少出圈的名场面 。 让机器人跑起来得办好两件事:一是智商高 , 二就是会学习 。
解决机器人的智商问题 , 机器人的“大脑”(决策大模型)与“小脑”(运动控制小模型)得经过高效训练 , 这就需要庞大算力 。 百度智能云的昆仑芯超节点 , 将64张全栈自研昆仑芯集成于单节点 , 实现单卡性能提升95%、单实例推理能力提升8倍 , 让算力无忧 。

云智大会上 , 百度百舸还正式上线了昆仑芯超节点公有云实例 , 现在具身智能企业只需调用云实例 , 几分钟就能跑万亿级开源模型 。 让机器人的大脑(世界模型)和眼睛(视觉语言动作模型VLA)训得快 , 大幅缩短了机器人的落地周期 。
二是会学习 , 机器人要到真实世界中接受地面摩擦力变化、障碍物突发等不确定性挑战 , 这要求机器人能适时调整动作策略 , 应对复杂条件 , 这就需要强化学习的试错-反?。 呕?, 来赋予机器人自主学习的灵魂 , 不仅对算力要求高 , 还需要强化学习框架 , 来提高具身智能企业在多模态数据处理等方面的工程能力 。
百度智能云通过深度工程创新 , 打造了适配具身智能的百舸强化学习框架 。 在训练、推理、存储等环节 , 将吞吐推至极限 , 更通过系统性协同实现全局效率最优 , 把强化学习效率拉到了行业新高度 。
北京人形机器人创新中心等“国家队”选择与百度智能云合作 , 正是因为在百舸的支撑下 , 机器人的身心都有了坚实的承载底座 , 加速具身智能从实验室走向家庭、工厂 。
下一个需求 , 就是跑得快 。
对金融、汽车、AIGC影视等行业来说 , 模型“跑得动”只是基础 , “跑得快”才直接决定商业价值 。
如今许多金融机构都接入了DeepSeek等开源大模型 , 应用在智能客服、智能投顾、文书写作等领域 , 但MoE模型的专家并行需要高频通信 , 推理时流量波动、超长文本处理需要节点协同 , 若网络带宽不足、延迟过高 , 会直接导致“算力等数据”的延迟 , 十分影响业务人员和用户的对话体验 。
除此之外 , 超大规模集群的算力堆了不少 , 但训练效率就是上不去的问题经常出现 。 正如前面提到的新能源车企的智驾模型训练问题 , 要解决网络延迟、终端导致的训练故障 , 提升计算效率与资源利用率至关重要 。 让AI跑得快 , 就得打通算力和模型的通信卡点 。 为此 , 百舸5.0针对性升级VPC、RDMA、XPU-Link三大网络 , 构建了低延迟、高可靠的通信底座 , 让算力跑上了高速路 。

百度百舸200Gbps的高速VPC网络 , 能够支持巨型帧传输 , 可以显著提升推理阶段KV Cache传输、训练阶段Checkpoint读写这些核心环节的计算效率 。 单集群十万卡RDMA互联网络 , 可以把端到端的延迟压缩到4微秒 。 面对MoE模型海量、高频、延迟敏感的All-to-All通信的瓶颈 , 百度自研的XPU-Link协议把卡间带宽提升8倍 , 把延迟做到国内最低 , 让专家并行的通信更快 , 最大程度地释放芯片的计算性能 。
无论是垂直行业训练专有大模型 , 还是各行各业上线实时推理的DeepSeek , 只有跑在高速通信的网络上 , 都能更快更高效 。
第三个也是企业落地AI的底线考验:跑得稳 。
2025年产业AI的一个主要变化 , 就是Deepseek带火了MoE架构 , 计算任务也从预训练转向了后训练、推理环节 , 而推理的工作负载会随着流量规模、上下文长度的变化而变化 。 各行业使用AI的热情高涨 , 新场景不断涌现 , 进一步增加了推理的动态和复杂性 。
如沈抖所说 , 这时候单靠堆卡是不够的 , 需要做系统性的优化 。 百度智能云最新推出了百舸5.0推理系统 , 就是为此而来 , 通过软硬协同优化 , 为AI业务场景提供高效支撑 。
今年上半年 , 百度百舸上线了领先业界的PD分离能力 , 以大规模推理的效率 , 而如今面对大规模、复杂MoE的场景 , 百度百舸5.0将分离做得更彻底 , 还推出了VIT分离(视觉和语言) , 以及Attention-MLP分离 , 通过深度解耦这些计算模式不同的模块 , 让整个系统更加高效 , 实现了数十倍的吞吐提升 , 从而更好地提升MoE 时代的推理性能 。

针对多智能体协作时KV Cache增多的问题 , 百舸5.0 KV Cache系统还可以实时感知集群全局状态 , 从HBM灵活迁移至内存、SSD乃至远程分布式文件系统中 , 实现缓存智能管理 , 让存储资源的弹性适配 , 从而提升整体系统的调度效率与资源利用率 。
在律师处理法律合同、政务部门处理超长文档等场景中 , 百舸5.0的自适应能力 , 能够根据输入文本长度动态调整张量、序列和专家并行策略 , 让MoE模型推理效率显著提升 。 128K超长文本3秒内出首字 , 能减少等待时间 , 显著提升用户的使用感受 。 在相同成本下 , 能处理更多请求 , 模型能完成的任务量更多了 。
还有像3D建模平台VAST这样的企业 , 如果平台的百万设计师同时在线调用模型 , 那么百舸5.0的智能调度 , 通过数据并行、专家并行双重负载均衡 , 优化推理效率 , 即使是大规模高并发的实时访问场景 , 也能为设计师们源源不断的创作灵感保驾护航 。
可以发现 , 百舸5.0的四大升级并非孤立技术 , 而是围绕“企业如何用好AI”来构建系统性解决方案 。
这也印证了产业实践中 , 算力瓶颈、网络瓶颈与稳定性与可靠性挑战三大关卡彼此制约的复杂难题 , 必须靠组合拳才能击穿 。 举个例子 , 业内也有云厂商推出了吸引眼球的技术 , 如高密度超节点 , 但并没有搭好云实例 , 企业看得到但用不上 , 最后还是卡在上不了手的死胡同 。
让企业真正靠AI Infra把AI用起来 , 百舸5.0的系统性方案 , 正是百度智能云轰向AI落地关卡的一组组合拳 。

一位油气领域专家曾向我们感慨:智能化一旦启动 , 就不会停止 。 这是行业一线从业者的真实体感 , 而综合数据也印证了这一点 。
IDC发布的 《2025年第一季度全球服务器市场跟踪报告》显示 , 2025 年第一季度服务器销量大幅上涨 , 其中GPU需求成为推动增长的核心因素 。 随着AI大模型的广泛应用 , 企业对GPU加速服务器与云端算力的依赖显著加强 , 原本依赖本地数据中心的组织 , 正在将AI相关工作负载逐步迁移至云端;而已经部署云架构的企业 , 也在持续将AI能力嵌入业务流程与数据系统 , 带动对GPU与云基础设施的长期需求 。
对各行各业来说 , 智能化是一场漫长的长跑 , 那么 ,AI云市场 , 谁能陪企业跑得更远、更久?
一份报告揭开了行业秘密:8月18日IDC发布的IDC报告显示 , 2024年中国AI公有云服务市场规模达195.9亿元 , 百度智能云以24.6%的市场份额稳居第一 , 连续六年、累计十次蝉联中国AI公有云市场冠军 。

百度智能云能成为65%央企的AI创新合作伙伴 , 背后的秘密或许就藏在累计十次、六连冠的长期主义中 。 毫无疑问 , 百度智能云是一个深耕AI云赛道的耐力型选手 , 技术能力和产业耐力都得到了时间的检验 。 这意味着 , 在政企落地AI的智能化长跑中 , 选择百度智能云一同陪跑 , 会得到以下助力:
一是多年沉淀的产业级技术护城河 。 从云智大会披露的进展来看 , 昆仑芯超节点云实例、百舸训推升级、强化学习框架等产品、新技术 , 不只是为了炫技 , 更紧贴产业需求 。 这种技术竞争力 , 来自百度智能云多年来押注产业智能化的积累 。 早在2015年百度正式对外提供云服务时 , 便强调云的智能属性 。 2019年 , 百度智能云将“云+AI”确立为核心战略 , 提出“云智一体、深入产业” , 进一步明确了AI云的发展方向 。
能深度理解AI业务 , 并具备持续迭代的技术韧性 , 这在公有云市场当中是一种十分稀缺的能力 , 也为产业客户带来了长期信心 。
特别是对于大型政企来说 , 业务关系国计民生 , 在布局AI时 , 每一次选择都关乎产业升级的方向与节奏 。 中国邮政储蓄银行依托百舸完成GPU/CPU算力重组 , 提升混合芯片集群利用率;长安汽车也牵手百度智能云建设AI基础设施 , 进一步加速智能驾驶模型迭代 。 这些企业本质是选择一个战略伙伴 , 作为智能化路上的定心丸和压舱石 , 支撑自身转型的全周期需求 。

二是300+行业场景验证的AI落地方法论 。 产业AI的本质是“产业为先” , 技术落地必须贴合业务场景的节奏 , 无法一蹴而就 。 百度智能云在服务政企的过程中 , 积累了覆盖金融(招行)、能源(中石化)、汽车(长安汽车)、AIGC(生数科技)、具身智能(人形机器人创新中心)的300+场景经验 , 既能为行业龙头提供超大规模算力调度 , 也能为创业公司提供精准场景突破 , 与各个产品同频共进 , 精准赋能 , 才能让技术真正成为智能升级的助推器 。
智能化征程中 , 每一个人与企业都是跑者 。 而AI Infra作为底层根基 , 牵一发而动全身 , 一旦在企业中扎下根来 , 就很难被轻易替代 。 正因如此 , 当下的AI云市场不是温和竞逐 , 而是抢算力、拼方案的白热化厮杀 , 本质是跟时间赛跑 , 抢夺企业AI陪跑者的身位 。
谁能抢先接住企业落地AI的真需求 , 相当于拿下了未来的市场 。 百度智能云累计十次、连续六年蝉联中国AI公有云冠军 , 就是佐证 。 把技术突破转化成贴合用户的智能化陪跑能力 , 不仅抢到了与65%央企共同探索AI创新的入场券 , 更是为自己筑起了别人难以快速赶上的领先优势 。
目前AI技术仍在快速迭代 , Infra层面仍存挑战 , 这也提醒我们 , 唯有以技术破局、为产业筑牢底座 , 云厂商才能赢下这场AI决战 。
【AI云玩家洗牌时刻,百度智能云凭什么六连冠?】

    推荐阅读