AI狂飙,地基不牢

AI狂飙,地基不牢

文章图片

AI狂飙,地基不牢

文章图片



甲骨文正在经历其历史上规模最大的重组 。
这家软件巨头 , 计划投入高达16亿美元的重组成本 , 包括向离职员工支付遣散费 。 这次重组的规模远超甲骨文此前披露的任何类似计划 。 加利福尼亚州和华盛顿州最近的WARN文件显示 , 已有超过500名员工收到裁员通知 , 而实际影响的员工数量可能超过3000人 。
重组的背后是甲骨文业务重心的根本性转变 , 公司正从传统软件制造商转型为AI基础设施提供商 。 为了履行与OpenAI和Meta等公司签署的大规模云基础设施协议 , 甲骨文需要租赁数据中心 , 配置先进的英伟达芯片 , 并为这些设施供电 。
根据彭博一致预期估算 , 甲骨文未来几年将投入数千亿美元用于基础设施建设 。 仅在德克萨斯州西部的一个数据中心 , 甲骨文就计划每年投入超过10亿美元用于现场燃气发电 。
这些巨额投资使得甲骨文的现金流在2025年首次转为负值 , 这也是该公司自1992年以来的首次为负 。 分析师预计这一指标在未来一年将继续恶化 , 直到2029年才能重新转正 。
01
甲骨文的经历并非个例 。 微软在投入数百亿美元建设数据中心并承诺控制成本后 , 今年裁员约15000人 。 通过裁员来抵消AI投资成本 , 已经成为主要科技公司普遍采用的策略 。 根据行业追踪平台Layoffs.fyi的数据 , 2025年前三个季度已有超过83000名科技工作者失业 , 涉及194家公司 。
甲骨文多年来在竞争激烈的云基础设施市场中远远落后于前三大供应商亚马逊、微软和谷歌 。 如今签署了重要的云协议 , 作为前期成本的“负现金流”就成为了入场门票 。
甲骨文的股价在2025年上涨近90% , 既有可能超过自1999年以来的最佳年度表现 。 根据Forrester的预测 , 甲骨文将花费16亿美元进行重组 , 截至8月31日仅花费了4.15亿美元 , 以用于给予那些被辞退的员工 , 而12月底还将有大约10000个职位面临裁减 。

AI基础设施建设的逻辑与传统软件开发截然不同 。 软件可以快速迭代 , 应用可以灵活部署 , 但数据中心建设需要长期规划 , 芯片采购需要提前预订 , 电力供应需要稳定保障 。 当软件的发展速度远超硬件的供给能力时 , 整个产业就会遭遇基础设施瓶颈的根本性制约 。
甲骨文2025年9月10日发布的财报数据为这个问题提供了最直观的证明 。 4550亿美元的订单积压 , 股价单日盘中暴涨41% , 市值增加近千亿美元 。 甲骨文的AI基础设施收入实现了55%的显著增长 。 公司预计这一增长势头将持续 , 并预测本财年该业务收入将达到180亿美元 , 五年内将达到1440亿美元 。
事实上 , 虽然订单业的数额很大 , 但理解起来并不复杂 。 就拿甲骨文和OpenAI的大订单为例 , 甲骨文主要提供OpenAI提供数据中心 , 让OpenAI可以把数以PB级别的原始数据放在这个数据中心的数据库里 。
这些数据结构包括文本、代码、JSON文件 , 还有图片 。 OpenAI要对这些原始数据进行清洗、去重、标注和格式化 , 进而训练自己的大模型 。 于是甲骨文就要提供一个足够大的数据库 , 以存储这些数据 。
然而还有一个问题 , 大模型并不能直接理解数据 , 它只能理解Tokens 。 所以甲骨文还要通过这个数据库 , 将所有的原始数据转换为Tokens , 将其“向量化” , 因此这个数据库也被称作是向量数据库 。
甲骨文的数据中心另一大作用就是帮助OpenAI实现调用 。 因为一个万亿参数的模型本身可能就占用数TB的显存 。 没有任何单一的GPU能装下它 。 因此 , 模型被“切片”后 , 分布加载到这4096个GPU的显存中 。
那么 , 当OpenAI请求一个例如包含4096个NVIDIA H100 GPU的计算集群 , 那么甲骨文的数据中心就要能第一时间响应这个请求 , 点亮并调用这些GPU 。
财报显示 , 甲骨文与亚马逊、谷歌和微软合作的多云数据库服务收入增长率高达1529% 。 更夸张地是 , 甲骨文最近还和OpenAI签署的协议价值高达3000亿美元 。
【AI狂飙,地基不牢】甲骨文现在要做的 , 是新一代的AI基础设施 。 以Oracle AI Database为例 。 这个产品可以让客户在甲骨文数据库上直接使用各种大型语言模型 , 因此 , 客户不需要单独采购计算资源、存储资源和AI模型 , 跳过了原先复杂的部署阶段 。
这种数据库与AI模型的深度集成代表了基础设施服务的新方向 , 不再是简单的计算资源租赁 , 而是提供完整的AI解决方案平台 。 通过将企业数据进行向量化处理 , 使ChatGPT、Gemini等主流大模型能够轻松理解和运用企业数据 。
甲骨文的成功揭示了AI基础设施竞争的新逻辑 。 甲骨文首席财务官Safra Catz透露 , 公司能够在一周内完成客户原本预期需要数月时间的大型数据中心交付 。 能与OpenAI、xAI和Meta等AI巨头签署数十亿美元合同 , 快速交付和成本优化才是关键因素 。
什么叫成本优化呢?
数据中心的地理分布和网络架构设计对AI应用的性能影响巨大 。 AI训练需要大量数据在不同节点间传输 , 推理服务需要低延迟的响应能力 。 甲骨文通过优化数据中心的网络拓扑和互联架构 , 实现了更高的数据传输效率和更低的延迟表现 。
甲骨文的网络数据传输速度优势 , 使得按小时计费的客户成本减半 。
这无疑不再释放着一个信号:行业不再仅仅围绕模型发布或消费者应用 , AI基础设施成为了最重要的参考系 。
当海外云巨头还在为产能不足发愁时 , 甲骨文通过更高效的资源调度和更灵活的部署模式 , 成功抢占了市场份额 。 在这个需求爆发式增长、供给严重不足的时代 , 甲骨文的成功本质上是基础设施稀缺的直接体现 。
表面上看 , 海外云巨头都在创造订单奇迹 。 根据Canalys的最新数据 , 全球云基础设施支出在2025年第二季度同比增长22% , 达到953亿美元 , 这是连续第四个季度增长超过20% 。 谷歌云1060亿美元订单积压 , 微软Azure 3680亿美元履约义务 , AWS 1950亿美元订单积压 。
表面上看 , 巨额订单积压 , 表明市场对产品或服务的旺盛需求 。 然而事实却恰恰相反 。
AWS公司管理层明确表示 , 需要几个季度的时间才能重新平衡供需关系 。 就相当于现在下单 , 要到2025年底或2026年初才能完工 。 微软则至少要到2026年上半年才能完工 。
AI基础设施的核心在于计算资源的高效调度和数据处理能力的优化 。 传统的云服务更多关注存储和网络 , 而AI基础设施需要专门针对机器学习工作负载进行优化 。 这包括GPU集群的管理、模型训练的资源分配、推理服务的负载均衡等专业能力 。
也正是因此 , 海外云巨头正在经历一场史无前例的产能危机 , 手握大量订单却无法及时交付 。
02
2025年9月 , 蚂蚁数科在外滩大会上宣布推出按“效果付费”的新型商业模式 , 支持企业客户根据大模型应用的实际效果来付费 , 而非传统的项目制或订阅制模式 。
传统云服务的商业逻辑正在被AI应用彻底颠覆 。 客户关注的不再是租用了多少台服务器 , 而是完成了多少次模型训练或处理了多少推理请求 。
在传统云服务模式下 , 企业按照CPU核数、内存容量、存储空间等硬件资源付费 。 但AI应用的特殊性在于 , 相同的硬件配置在不同场景下的实际效果可能相差数倍 。 一次GPT-4级别的大模型训练可能需要数千张GPU卡运行数周 , 而同样的硬件用于推理服务可能每秒处理数百次请求 。
AI模型训练过程可能持续数天甚至数周 , 任何中断都会造成巨大损失 。 推理服务需要7x24小时稳定运行 , 任何故障都会直接影响业务连续性 。 这要求AI基础设施具备更强的容错能力、更快的故障恢复能力和更完善的监控预警机制 。 AI基础设施的安全性和可靠性要求远超传统云服务 。

这种差异催生了全新的计费模式 。 客户开始按照“训练完成的模型数量”、“推理请求的处理次数”、“模型精度的提升幅度”等实际业务指标付费 。
“按效付费”模式正在成为行业新标准 。
亚马逊计划在2025年的资本支出超过1000亿美元 , 重点不再是简单的服务器扩容 , 而是针对AI工作负载的专门优化 。 这包括定制AI训练芯片Amazon Trainium和Inferentia的大规模部署 , 以及在美国超过300亿美元的新一代数据中心投资 。
微软宣布的800亿美元基础设施扩张计划 , 核心是构建“AI-first”的云服务架构 。 不同于传统数据中心的通用计算能力 , 新架构专门针对大模型训练和推理场景进行优化 , 能够显著提升AI任务的执行效率 。
谷歌将2025年资本支出目标从750亿美元提高到850亿美元 , 增量部分主要用于TPU集群扩建和AI专用网络架构升级 。
不过我们得认清一个事实 , 产能危机的根源在于AI基础设施的特殊性需求 。 与传统云服务不同 , AI基础设施需要专门的GPU集群管理、模型训练的资源分配、推理服务的负载均衡等专业能力 。 这些需求无法通过简单的横向扩展来满足 , 而需要针对性的架构设计和硬件配置 。
更严重的是 , AI基础设施面临多重供应链瓶颈 。 英伟达GPU短缺、台积电CoWoS封装产能不足、数据中心电力供应紧张等问题相互叠加 , 形成了系统性的供应制约 。 即使云巨头拥有充足的资金 , 也难以在短期内大幅扩充有效产能 。
03
2024年10月 , 美国商务部进一步收紧对华芯片出口管制 , 英伟达H20芯片面临停产风险 。 这款专门为中国市场设计的阉割版芯片 , 性能相比H100大幅削减 , 但仍然是中国企业能够合法采购的最先进AI芯片之一 。
时间来到2025年的7月15日 , 黄仁勋在中国高调宣布 , 美国政府已批准英伟达H20芯片在华销售许可 , 并表示“中国市场规模庞大、充满活力且极具创新性 , 美国企业扎根中国市场的确至关重要” 。
半个月后 , 国家互联网信息办公室约谈英伟达公司 , 要求其就对华销售的H20算力芯片漏洞后门安全风险问题进行说明并提交相关证明材料 。 网信办指出 , 美国议员曾呼吁要求美出口的先进芯片必须配备追踪定位功能 , 美国人工智能领域专家透露英伟达算力芯片追踪定位和远程关闭技术已经成熟 。
这次约谈并非空穴来风 。 2025年5月 , 美国众议院提出《芯片安全法案》 , 要求美国商务部强制受出口管制的芯片植入位置验证和远程控制功能 。 7月 , 美国白宫发布《人工智能行动计划》 , 要求企业建立芯片位置验证机制 , 通过技术手段阻止高端AI计算芯片流入“密切关注国家” 。

根据伯恩斯坦报告 , 2025年中国AI芯片市场规模达到380亿美元 , 国产芯片销售额从60亿美元跃升至160亿美元 , 市场占比从29%提升到42% 。
国产AI芯片虽然数量增长迅速 , 但配套体系还不够完善 。 大多数企业在选择AI基础设施时 , 需要对性能和成本进行权衡 , 一些关键的训练 , 仍然离不开英伟达产品 。
国产AI芯片的替代方案被统称为“类CUDA” 。 这是因为英伟达为AI提供算力 , 需要通过物理设备GPU , 以及软件系统CUDA共同完成 。 没有CUDA , GPU强大的并行计算能力就无法被释放 , 对于AI开发者来说 , 没有CUDA的GPU就是一块废铁 。
全球数百万的AI开发者、科研人员都是在CUDA环境下学习和工作的 。 他们的代码、项目、经验和习惯都和CUDA深度绑定 , 迁移到另一个平台的学习成本和时间成本极高 。
国内的AI芯片厂商 , 比如华为的昇腾 , 百度的昆仑芯 , 他们造出的芯片 , 在理论峰值算力上可能已经可以追赶甚至在某些指标上超越英伟达的同代产品 , 可在软件生态上 , 必须向CUDA看齐 。
但是CUDA不仅仅是一个编程框架 , 而是一个包含编译器、调试器、性能分析工具、数学库在内的完整开发生态系统 。 英伟达用了17年时间构建这个生态 , 中国企业想要做出一个包含编译器、驱动 , 还有库的软件栈 , 去做CUDA平替 , 这是一个非常困难的事情 。
英伟达下一代Vera Rubin系统将于2026年下半年上线 , 届时性能优势将进一步扩大 。 如果国产AI芯片无法在CUDA生态替代上取得突破性进展 , 技术差距只会越来越大 。
时间很紧迫!

    推荐阅读