中国院士:大模型绝不能靠堆芯片来实现,那只是外国技术的跟随者

中国院士:大模型绝不能靠堆芯片来实现,那只是外国技术的跟随者

文章图片

中国院士:大模型绝不能靠堆芯片来实现,那只是外国技术的跟随者

文章图片

中国院士:大模型绝不能靠堆芯片来实现,那只是外国技术的跟随者

文章图片

中国院士:大模型绝不能靠堆芯片来实现,那只是外国技术的跟随者
前沿导读在中国算力研讨会当中 , 中科院陈润生院士对于现在中国AI领域的发展表明了看法 , 大模型系统绝对不是靠着我们现在越堆芯片越多来实现的 。 一定会是向人的大脑一样去学习 , 把空间复杂度和时间复杂度压缩的更小 , 能耗降的更低 。

所以我自己觉得 , 目前最基本的问题是要研究空间复杂度来完成计算的基础理论 。 如果我们能在基础理论上有所发展的话 , 那我们就是根本和原始的创新 。 否则的话 , 目前国内的大模型 , 都只是海外技术的跟随者 。
发展路线AI技术的发展路线 , 通过堆叠性能更强、数量更多的GPU芯片是最简单 , 也是思路最清晰的发展方案 。 但是这种方案极其依靠硬件层面的水平 , 性能更强的AI芯片就需要更高的制造和使用成本 , 并且过于密集的芯片堆叠 , 虽然可以有效提升算力性能 , 但是其散热难度也会成倍的增加 。
先进AI芯片的技术发展 , 已经度过了追逐先进制造工艺的阶段 , 来到了封装技术的比拼上面 。
对比传统的2D和2.5D芯片技术 , 3D芯片封装可以实现真正的三维晶体管集成技术 。 通过将多个芯片进行垂直放置 , 然后通过TSV硅通孔的技术实现芯片之间的互相连接 。 3D封装可以将多个高性能芯片贴合在一起 , 极大提升芯片的性能上限 。
【中国院士:大模型绝不能靠堆芯片来实现,那只是外国技术的跟随者】
2.5D芯片虽然也可以集成多个芯片的封装 , 但是由于其添加了硅中介层 , 导致堆叠数量和芯片密度降低 , 性能也会比3D封装技术差不少 。
但是2.5D封装技术的成本更低 , 可以通过堆叠成熟制程的芯片实现性能更强、传输延迟更低的芯片技术 。 比如台积电的第一代CoWoS技术 , 就是采用了两块16nm工艺的芯片进行封装 , 实现了性能上面的跨越 。 但是由于其对于散热效率的要求 , 这种封装技术的芯片被应用在了服务器上面 。

在AI时代到来之后 , 芯片算力的迭代速度明显加快 。
英伟达作为全球AI领域的顶级硬件供应商 , 其推出的高性能计算芯片成为了AI领域的抢手货 。 尤其是以H100、H200为代表的GPU芯片 , 被大量发展AI技术的企业所采购 。
这两款AI芯片是基于英伟达的Hopper架构制造 , 针对大规模的AI语言训练进行了单独优化 。 并且依靠这两款芯片 , 可以建设AI算力集群 , 通过英伟达的CUDA技术 , 将AI芯片直接应用到大数据运算当中 。

通过堆叠大量的AI芯片 , 建设高性能的算力集群 , 这是行业内公认的一条主流发展路线 。 包括华为的昇腾芯片 , 也是采用了3D封装技术外加上芯片堆叠的方法 , 建设了昇腾AI集群 , 进行大模型语言的技术训练 。
美国的open AI、微软等企业推出的大模型技术 , 都是依靠英伟达提供的专业AI芯片进行大模型计算 。 包括英伟达第一代AI芯片上市之后 , 英伟达CEO黄仁勋就将芯片亲自交付给了open AI团队 , 让其开发性能更强的推理大模型 。

open AI团队开发的Chat GPT , 尤其是最新的GPT-4、GPT-5 , 其开发成本是非常高昂的 , 需要涉及到由数千个高性能芯片堆叠起来的AI集群进行训练 , 其训练成本以百万美元起步 , 具体的成本价格将会跟训练规模和训练时间有关系 。
由于训练成本高 , GPT通过API付费的方式进行盈利 。 对于企业用户来说 , GPT也可以通过定制化服务、大批量购买等方法实现更强性能的理论推断 。
但是中国AI企业DeepSeek的出现 , 对美国AI企业的产业链进行了冲击 , 并且造成了一系列的连锁反应 。
技术优化DeepSeek推出了V3和R1两款大模型 , 这两款大模型在硬件上面都是基于英伟达H800芯片进行训练 。 H800芯片是英伟达针对于中国市场推出的专供芯片 , 在性能上面要低于完全体的H100 。
虽然DeepSeek使用的训练芯片在性能和数量上面远远不及open AI , 但是其推出的两款大模型 , 在性能上面却与open AI推出的GPT模型不相上下 , 甚至DeepSeek团队的训练成本还非常低 。

DeepSeek-V3的训练成本为557.6万美元 , 使用了2048块英伟达H800 GPU集群 。 而open AI的GPT-4o的训练成本约为1亿美元 , 使用性能更强的H100 GPU集群 。
DeepSeek-R1大模型在AIME 2024数学基准测试中 , 得分率为79.8% , 略高于OpenAI o1的79.2% 。
在推理成本上面 , R1大模型每百万输入tokens成本为0.55美元 , 每百万输出tokens成本为2.19美元 。 GPT大模型每百万输入tokens成本为15美元 , 每百万输出tokens成本为60美元 。

在硬件和训练成本存在劣势的情况下 , DeepSeek通过混合专家架构的优化方法 , 整合多个小型模型的预测方法来提升整体的性能水平 , 在不大幅度增加计算成本的情况下 , 提升了模型容量 。
V3大模型拥有6710亿参数 , 但是在实际的训练与推算当中 , 会根据情况选择激活参数的数量 , 以此来平衡计算资源的消耗 。 V3还支持FP8的混合精度训练 , 这种训练方法可以显著降低计算和存储需求 , 在更少GPU资源的加持下完成大模型的训练 , 同时还能保持较高的训练性能 。
并且DeepSeek在推出了两款高性价比的大模型语言之后 , 选择以技术开源的方式允许行业内其他企业进行使用 。 这对于硬件水平强、训练成本高并且在部分推理上面需要付费的GPT来说 , DeepSeek开创了一个新局面 。

    推荐阅读