大模型训练“练兵千日”,别输在AI推理“用兵一时”

大模型训练“练兵千日”,别输在AI推理“用兵一时”

文章图片

大模型训练“练兵千日”,别输在AI推理“用兵一时”

文章图片

大模型训练“练兵千日”,别输在AI推理“用兵一时”

2025年被认为是AI智能体的元年 , 是AI走向大规模应用的开始 。 随着AI应用爆发 , 算力的需求逻辑也正在被重塑:AI推理——而不是训练 , 将成为未来算力需求的核心增长点 。

这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现 。 一方面 , 主流大模型玩家纷纷推动成熟产品“瘦身” , 以轻量化模型适配更多终端设备 。 另一方面 , 多家AI Infra创企押注AI推理芯片 , 抢抓AI模型从实验室走向生产场景的红利 。
中信建投在2025 WAIC期间发布的白皮书指出 , 随着AI算力消耗从训练向推理的结构性转变 , 国内算力消耗正快速增长(如字节跳动每三个月Token消耗接近翻一倍 , 5月底为16.4万亿Token) , 按此趋势主流云服务商将很快感受到算力紧张、出现算力缺口 。
就在这个节骨眼上 , 中美AI推理体验的鸿沟已经显现 。 相比以美国为代表的领先国家 , 中国大模型的推理体验(包括时延、准确度、上下文推理等方面)已大幅落后;风靡一时的DeepSeek等国内开源大模型 , 活跃用户数遭遇了严重下滑 。
如果说大模型训练是“练兵千日” , 那么推理就是“用兵一时” 。 站在2025这个本该兑现AI商用价值的关键时刻 , 推理算力却成了新的“吞金兽” , 不持续“堆芯片”用户体验就难以为继 , 这要求全球各国、各行各业都引起高度重视 , 找到推理体验与算力成本的平衡点 。
尤其是对于高端算力芯片受限、软件及生态薄弱的中国AI产业来说 , 我们必须在“戴着镣铐跳舞”的现实中寻求新的突破、找到新的解法 , 别让中美AI竞争输在“最后一公里”!
Token经济时代:打不起的价格战 , 输不得的体验战
在AI商业化过程中 , Token(词元)被迅速推至台前 。 它既是大模型训练及推理过程中处理的最小语义单元 , 也是最基础的计量计费单位 , 用于衡量AI产品服务使用量和商业化收费标准 , 因而AI时代也被称为Token经济时代 。

类似于移动通信数据流量伴随3G-4G-5G升级而大幅提升 , 随着模型逐渐复杂化和业务场景不断丰富 , 用户的Token消耗量也在与日俱增 。 比如 , 智能体(Agent)执行一次任务平均消耗的Token已达到10万量级;海量用户汇聚使得单个头部大模型日均Token消耗量已达百亿级 , 推理成本持续攀升 。
这种成本攀升折射到国内市场 , 可以发现去年打得火热的Token价格战到今年已经趋于冷静 , 主流大模型厂商已从单纯降价转向技术升级与场景优化结合(包括支持超长文本处理、多模态推理等差异化能力) , 避免沦为芯片厂商的“打工人” , 甚至赔本赚吆喝 。
即便如此 , 受限于高端芯片供给和资本开支差距 , 中国大模型的推理体验已经落后于美国领先大模型 。 资料显示 , OpenAI O3 mini、Google Gemini等模型的单用户输出速度已进入200 Tokens/s区间(时延5ms) , 中国普遍小于60 Tokens/s(时延50~100ms) 。 比如OpenAI O3 mini每秒能输出的Token(214个)约为DeepSeek(21个)的10倍 , 用户会直接感受到OpenAI给出回答的时间要比DeepSeek快很多 。

体验掉队的代价是巨大的 。 有数据显示 , 相比其他顶尖模型用户数持续增长 , DeepSeek用户数自发布后绝对流量一直在下降 , 其使用率已从年初的50%暴跌至当前的3%左右 , 用户正在从DeepSeek流失转向其他模型应用 。
一言以蔽之 , 不同于边际成本极低的互联网时代 , 算力成本高企(GPU价格昂贵且超负荷使用两三年就得换新)的Token经济时代 , Token量越大越是打不起价格战 , 当然也输不得体验战 。 要在AI时代健康可持续发展 , 必须解决推理体验与算力成本平衡的难题 。
“戴着镣铐跳舞”:GPU+HBM被锁死 , 软件生态也旁落
面对这一难题 , 在以美国为首的算力充沛国家 , 中高端GPU搭载HBM(高带宽内存)的产品形态已成为主流趋势 。 MLPerfTM基准测试显示 , HBM可使推理速度提升30-60%;反之 , HBM不足时 , 推理体验会明显下降 , 如出现任务卡顿、响应慢等问题 。
背后的技术逻辑在于 , AI推理需要频繁读取模型参数和输入数据 , 而HBM是解决“数据搬运”的关键 。 作为一种通过3D堆叠和超宽接口实现极高数据传输带宽的先进内存技术 , HBM可显著提升内存与GPU、NPU等处理器之间传输数据的速度 , 确保计算核心以极高的速度获取所需的数据 , 从而最大限度利用AI加速器的强大算力 , 提高推理吞吐量 。

然而 , 和中高端GPU一样 , 全球HBM市场也高度集中并掌握在国外头部厂商手里 。 它们与先进芯片一起被纳入美国“长臂管辖”的销售管制清单 , 中国厂商无法获?。 ㄌ毓┌鍳PU和HBM能力都被严重“阉割”) , 导致中国大模型的推理体验提升受到极大制约 , “钱花了还办不成事” 。
【大模型训练“练兵千日”,别输在AI推理“用兵一时”】更触目惊心的是 , “戴着镣铐跳舞”(比如使用英伟达的低端H20产品)的中国模型服务商 , 正匍匐在一条将应用生态构筑在别人“地基”(比如英伟达CUDA)之上的老路 。 当英伟达通过“硬件迭代→软件优化→生态绑定”构建起推理时代的“铁三角”时 , 中国厂商连对方的低端产品也很难离开(调研显示从英伟达等生态迁移至国产平台需重构70%代码 , 成本相当于三个程序员年薪) , 完全陷入美国编织的AI秩序里 。
这里面涉及的技术账、经济账、安全账都是十分沉重的 , 必须引起高度的重视!从技术效率上讲 , 低端技术长期看肯定打不过中高端技术 , 必然导致产品竞争力下降;从经济成本看 , “质次价高”的特供芯片 , 绝非平衡推理体验与算力成本的优选方案;从供应链安全角度看 , 国产化迁移改造的历史进程 , 绝对容不得算力芯片漏洞后门的掣肘 。
破局之道畅想:从单点突破到系统创新 , 重视软件及生态
何以破局?参照我国在AI训练阶段的突围之道(比如昇腾384超节点以集群方式突破性能极限) , AI推理或许也可以从单点突破走向系统创新 , 重视软件能力并及早培育生态 , 弥补硬件物理层面的不足和限制 , 探寻一条可持续、可复制的最佳路径 。
从技术层面看 , AI推理的关键在于键值缓存(KV Cache) , 其好比一份“上下文备忘录”——缓存前面所有内容的关键信息(Key和Value) , 让AI生成下一个词时不用重复计算历史信息 , 从而大幅加速推理过程 。 但KV Cache需要占用GPU的显存(如HBM) , 生成的文本越长 , 缓存的数据量就越大 , 容易触发容量限制 , 导致推理时延增加、吞吐量下降 。 业界可以考虑通过硬件+软件系统创新的方式 , 将KV Cache缓存至存储层 , 以AI存储方案加速AI推理 , 减少对昂贵HBM的依赖 。

从生态层面看 , 面对国产化改造和AI推理爆发的巨大机遇 , 业界龙头厂商、行业头部用户要站出来先行先试 , 验证技术方案 , 打造联盟生态 , 别让“楼房建起来了再去重构地基” , 费时费力又费钱 。 特别是数字化程度高、数据密度大、AI应用场景丰富的金融、医疗、教育等行业 , 一定要从一开始便算好技术账、经济账和安全账 , 以生态之力护航AI转型行稳致远 。
回顾过去 , 美国凭借龙头企业技术引领+产业生态深度协同的“组合拳” , 统治了计算产业从专用计算到通用计算的大部分时期 。 就在7月下旬 , 美国又发布了《赢得AI竞赛:美国AI行动计划》 , 再次显露主导全球人工智能发展的野心 。 此时此刻 , 在AI大模型“练兵千日 , 用兵一时”的历史拐点 , 产业各界必须警觉起来 , 别让中美AI竞争输在“最后一公里”!

    推荐阅读