如何在本地部署 DeepSeek R1 671B 模型

如何在本地部署 DeepSeek R1 671B 模型
详细介绍了如何在本地部署 DeepSeek R1 671B 模型(未经过蒸馏的完整版本)的过程 , 特别是通过使用 Ollama 来实现本地运行 。
主要内容:
1. 模型选择
? DeepSeek R1 671B 原始模型大小为 720GB , 经过 Unsloth AI 的动态量化后 , 模型大小可压缩至 131GB(1.58-bit)至 212GB(2.51-bit) , 便于本地用户运行 。
? 文章推荐了两种模型:
? `DeepSeek-R1-UD-IQ1_M`:1.73-bit 动态量化 , 158GB 。
? `DeepSeek-R1-Q4_K_M`:标准 4-bit 量化 , 404GB 。
【如何在本地部署 DeepSeek R1 671B 模型】2. 硬件要求
? 主要瓶颈在于内存(RAM+VRAM):
? `DeepSeek-R1-UD-IQ1_M`:至少需要 200GB 内存 。
? `DeepSeek-R1-Q4_K_M`:至少需要 500GB 内存 。
? Ollama 支持 CPU 和 GPU 混合推理 , 可以根据硬件配置调整 。
? 推荐的硬件包括:
? 高性能 Mac Studio(192GB 统一内存) 。
? 高内存带宽服务器 。
? 云 GPU 服务器(如 NVIDIA H100 80GB) 。
3. 部署步骤
? 下载模型文件(.gguf)并合并 。
? 安装 Ollama 。
? 创建模型文件(Modelfile)以指导 Ollama 创建模型 。
? 使用 Ollama 创建并运行模型 。
? 如果出现内存不足(OOM)或 CUDA 错误 , 调整`num_gpu`和`num_ctx`参数 。
4. 性能观察
? `DeepSeek-R1-UD-IQ1_M`的短文本生成速度为 7-8 tokens/s(使用 GPU) , 仅用 CPU 时为 4-5 tokens/s 。
? `DeepSeek-R1-Q4_K_M`的短文本生成速度为 2-4 tokens/s , 长文本速度会降至 1-2 tokens/s 。
? 4-bit 版本比 1.73-bit 版本更“安全” , 倾向于拒绝“冒犯性”或“愚蠢”的提示 。
? 1.73-bit 版本偶尔会出现格式问题(如标签未正确配对) 。
? 运行时 CPU 利用率很高 , 而 GPU 利用率极低(1-3%) , 瓶颈主要在 CPU 和 RAM 。
5. 结论与建议
? 如果无法将模型完全加载到 VRAM 中 , 1.73-bit 版本更实用 。
? 建议将模型用于不需要长思考过程或大量对话的“轻量级”任务 , 因为随着上下文长度的增加 , 生成速度会显著下降 。
6. 其他内容
? 文章还提供了如何安装 LLM 接口(如 Open WebUI)以及如何通过 Cloudflare Tunnel 共享模型服务的建议 。
? 提供了模型性能的观察结果 , 包括对不同提示的响应方式 。



    推荐阅读