如何在本地部署 DeepSeek R1 671B 模型_GPU|CPU

详细介绍了如何在本地部署 DeepSeek R1 671B 模型（未经过蒸馏的完整版本）的过程，特别是通过使用 Ollama 来实现本地运行。
主要内容：
1. 模型选择
? DeepSeek R1 671B 原始模型大小为 720GB ，经过 Unsloth AI 的动态量化后，模型大小可压缩至 131GB（1.58-bit）至 212GB（2.51-bit），便于本地用户运行。
? 文章推荐了两种模型：
? `DeepSeek-R1-UD-IQ1_M`：1.73-bit 动态量化， 158GB 。
? `DeepSeek-R1-Q4_K_M`：标准 4-bit 量化， 404GB 。
【如何在本地部署 DeepSeek R1 671B 模型】2. 硬件要求
? 主要瓶颈在于内存（RAM+VRAM）：
? `DeepSeek-R1-UD-IQ1_M`：至少需要 200GB 内存。
? `DeepSeek-R1-Q4_K_M`：至少需要 500GB 内存。
? Ollama 支持 CPU 和 GPU 混合推理，可以根据硬件配置调整。
? 推荐的硬件包括：
? 高性能 Mac Studio（192GB 统一内存）。
? 高内存带宽服务器。
? 云 GPU 服务器（如 NVIDIA H100 80GB）。
3. 部署步骤
? 下载模型文件（.gguf）并合并。
? 安装 Ollama 。
? 创建模型文件（Modelfile）以指导 Ollama 创建模型。
? 使用 Ollama 创建并运行模型。
? 如果出现内存不足（OOM）或 CUDA 错误，调整`num_gpu`和`num_ctx`参数。
4. 性能观察
? `DeepSeek-R1-UD-IQ1_M`的短文本生成速度为 7-8 tokens/s（使用 GPU），仅用 CPU 时为 4-5 tokens/s 。
? `DeepSeek-R1-Q4_K_M`的短文本生成速度为 2-4 tokens/s ，长文本速度会降至 1-2 tokens/s 。
? 4-bit 版本比 1.73-bit 版本更“安全” ，倾向于拒绝“冒犯性”或“愚蠢”的提示。
? 1.73-bit 版本偶尔会出现格式问题（如标签未正确配对）。
? 运行时 CPU 利用率很高，而 GPU 利用率极低（1-3%），瓶颈主要在 CPU 和 RAM 。
5. 结论与建议
? 如果无法将模型完全加载到 VRAM 中， 1.73-bit 版本更实用。
? 建议将模型用于不需要长思考过程或大量对话的“轻量级”任务，因为随着上下文长度的增加，生成速度会显著下降。
6. 其他内容
? 文章还提供了如何安装 LLM 接口（如 Open WebUI）以及如何通过 Cloudflare Tunnel 共享模型服务的建议。
? 提供了模型性能的观察结果，包括对不同提示的响应方式。

如何在本地部署 DeepSeek R1 671B 模型

推荐阅读

普通的反义词是什么

上传照片格式不对怎么办

恋与制作人李泽言喵不可言介绍李泽言喵不可言获取途径

羽绒服可以二次加绒吗

班主任如何处理学生之间送礼物的事情班主任如何更好地处理学生之间送礼物是事情

洗衣机底盘脱落怎么办

线上+电话+线下杭州医保查询方式+查询教程

排气管被堵多久能发现，排气管堵了

萝卜放冰箱冷藏能存放多久

LPL小组赛首轮9胜3负 S12小组赛LPL小组赛首轮各战队战绩

梦见和别人一起摘枣是什么征兆

猫身上有静电是什么原因？如何减少静电愉快撸猫？

分享联想电脑管家如何添加到桌面

化学工业岩土工程有限公司，东营金昊化工有限责任公司

婚礼司仪简单的主持词司仪台词

用海蓝之谜精粹水还需要用精华吗