
文章图片
DeepSeek是一家成立于2023年的公司 , 以其创新的开源技术挑战领先AI厂商而闻名 , 最近发布了全新超大型模型:DeepSeek-V3 。
新模型通过公司许可协议在Hugging Face上发布 , 拥有6710亿参数 , 并采用专家混合架构(Mixture-of-Experts) , 以激活特定参数 , 从而高效准确地处理指定任务 。
根据DeepSeek发布的基准测试结果 , 该模型在性能排行榜上已处于领先地位 , 超越了包括Meta的Llama 3.1-405B在内的顶级开源模型 , 并接近Anthropic和OpenAI的闭源模型的性能 。
DeepSeek-V3的优势是什么?
与其前身DeepSeek-V2类似 , 这款超大型模型采用以多头潜在注意力(MLA)和DeepSeekMoE为核心的基础架构 。
这种方法保证了高效的训练和推理性能 , 通过激活6710亿参数中的370亿参数(由模型内的独立或共享“专家”——更小的神经网络实现) , 提升任务效率 。
DeepSeek-V3的两项重大创新
1. 无辅助损失的负载平衡策略: 动态监控并调整专家的负载 , 确保平衡使用 , 同时不影响模型整体性能 。
2. 多标记预测(MTP): 允许模型同时预测多个未来标记 , 提升训练效率 , 使模型每秒生成60个标记 , 比以往快3倍 。
训练效率与成本
在预训练过程中 , DeepSeek-V3使用了14.8万亿高质量标记数据 , 并通过两个阶段将上下文长度扩展至32K和128K 。
后期训练阶段包括监督微调(SFT)和强化学习(RL) , 以使模型更贴合人类偏好 。
训练过程中采用了硬件和算法优化技术 , 如FP8混合精度框架和DualPipe流水线并行算法 。
整个训练耗费约278.8万小时的H800 GPU计算时间 , 成本约为557万美元 , 远低于通常训练类似大型语言模型所需的数亿美元 。
基准测试表现
尽管训练成本较低 , DeepSeek-V3仍成为目前最强的开源模型 。
它超越了Llama-3.1-405B和Qwen 2.5-72B , 并在大多数基准测试中击败了GPT-4o , 但在以英语为主的SimpleQA和FRAMES测试中表现略逊一筹 。
DeepSeek-V3在中文和数学基准测试中表现尤为突出 , 如Math-500测试中 , 它的得分为90.2 , 而Qwen仅为80 。
开源对AI行业的影响
DeepSeek-V3表明开源模型正在赶上闭源系统 , 在多个任务中提供接近的性能表现 。
这一进展对行业有利 , 因为它阻止了垄断 , 并为企业提供了构建AI系统的多种选择 。
获取方式与定价
DeepSeek-V3在GitHub上以MIT许可发布 , 模型本身则以公司许可提供 。 企业可通过DeepSeek Chat或API进行测试 。
【DeepSeek-V3:超大型开源AI发布,性能超越Llama和Qwen】从2025年2月8日起 , API费用为每百万输入标记0.27美元(有缓存命中时为0.07美元) , 每百万输出标记1.10美元 。
推荐阅读
- 未来可期!开源鸿蒙5.0已正式发布,华为生态更稳了
- 速度升级新版本!两款知名国产前端开源项目被植入恶意代码
- 开源鸿蒙5.0版将发布:国内自主原创开源之路越走越宽
- 基于开源鸿蒙的机器人概念,完整的人型机器人概念梳理。
- Linux开源翻车、RISC-V开放隐忧:中国自主科技的真正出路在哪儿
- 腾讯加入“开源”阵营:更符合长期主义,支持更庞大场景落地
- 是时候用开源降低AI落地门槛了
- Arm加入OpenCloudOS操作系统开源社区
- 对标华为纯血鸿蒙!小米完全自研系统突然开源:不止手机可用!
- Rust做啥项目练手?这6个开源项目让你不再纸上谈兵
