
详细介绍了如何在本地部署 DeepSeek R1 671B 模型(未经过蒸馏的完整版本)的过程 , 特别是通过使用 Ollama 来实现本地运行 。
主要内容:
1. 模型选择
? DeepSeek R1 671B 原始模型大小为 720GB , 经过 Unsloth AI 的动态量化后 , 模型大小可压缩至 131GB(1.58-bit)至 212GB(2.51-bit) , 便于本地用户运行 。
? 文章推荐了两种模型:
? `DeepSeek-R1-UD-IQ1_M`:1.73-bit 动态量化 , 158GB 。
? `DeepSeek-R1-Q4_K_M`:标准 4-bit 量化 , 404GB 。
【如何在本地部署 DeepSeek R1 671B 模型】2. 硬件要求
? 主要瓶颈在于内存(RAM+VRAM):
? `DeepSeek-R1-UD-IQ1_M`:至少需要 200GB 内存 。
? `DeepSeek-R1-Q4_K_M`:至少需要 500GB 内存 。
? Ollama 支持 CPU 和 GPU 混合推理 , 可以根据硬件配置调整 。
? 推荐的硬件包括:
? 高性能 Mac Studio(192GB 统一内存) 。
? 高内存带宽服务器 。
? 云 GPU 服务器(如 NVIDIA H100 80GB) 。
3. 部署步骤
? 下载模型文件(.gguf)并合并 。
? 安装 Ollama 。
? 创建模型文件(Modelfile)以指导 Ollama 创建模型 。
? 使用 Ollama 创建并运行模型 。
? 如果出现内存不足(OOM)或 CUDA 错误 , 调整`num_gpu`和`num_ctx`参数 。
4. 性能观察
? `DeepSeek-R1-UD-IQ1_M`的短文本生成速度为 7-8 tokens/s(使用 GPU) , 仅用 CPU 时为 4-5 tokens/s 。
? `DeepSeek-R1-Q4_K_M`的短文本生成速度为 2-4 tokens/s , 长文本速度会降至 1-2 tokens/s 。
? 4-bit 版本比 1.73-bit 版本更“安全” , 倾向于拒绝“冒犯性”或“愚蠢”的提示 。
? 1.73-bit 版本偶尔会出现格式问题(如标签未正确配对) 。
? 运行时 CPU 利用率很高 , 而 GPU 利用率极低(1-3%) , 瓶颈主要在 CPU 和 RAM 。
5. 结论与建议
? 如果无法将模型完全加载到 VRAM 中 , 1.73-bit 版本更实用 。
? 建议将模型用于不需要长思考过程或大量对话的“轻量级”任务 , 因为随着上下文长度的增加 , 生成速度会显著下降 。
6. 其他内容
? 文章还提供了如何安装 LLM 接口(如 Open WebUI)以及如何通过 Cloudflare Tunnel 共享模型服务的建议 。
? 提供了模型性能的观察结果 , 包括对不同提示的响应方式 。
推荐阅读
- Mate 60降价千元,麒麟芯片+顶级屏幕,好评如潮,值得一看
- 华为打响价格战,麒麟芯片+512GB+卫星通信,如今低至3269元起
- 欧美芯片企业发出警告,如果中国再降价,世界芯片产业或“变天”
- 如何笔记从一个 iCloud 传输到另一个 iCloud?
- 外国专家解读DeepSeek:预算有限,如何复制R1推理模型?
- 打印机如何连接电脑?分享4个方法给您
- 苹果机器人台灯正式亮相,如同有生命照明宠物还会与人互动
- 英伟达、谷歌之后,如今又要对苹果出手,外媒:中国开始亮剑了
- 这些很多人以为被淘汰了的家电,如今依然有市场,而且无法被替代
- 1570亿枚芯片!中芯突然宣布,外媒:没想到“制裁”竟来得如此之快
