DeepSeek 本地部署提速实战：显存、并发、推理命令一次讲透

发布人：慈云数据-客服中心发布时间：2026-06-07 00:58 阅读量：156

DeepSeek 性能优化教程｜附完整命令

DeepSeek 系列模型因推理能力强、开源生态活跃，已经成为很多开发者本地部署大模型、搭建企业知识库、开发智能体应用时的热门选择。但在实际使用中，不少人会遇到类似问题：响应慢、显存不够、并发能力差、首字延迟高、长上下文容易爆显存、CPU 推理卡顿等。

本文将围绕 DeepSeek 本地部署与推理服务，从硬件选择、模型版本、量化方案、推理框架、启动参数、并发优化、显存优化、CPU 优化、服务化部署等方面，系统讲解如何提升 DeepSeek 的运行性能，并附上可直接使用的完整命令。

说明：本文主要以 DeepSeek-R1-Distill、DeepSeek-Coder、DeepSeek-V2/V3 相关蒸馏模型、本地 GGUF 量化模型以及 vLLM、Ollama、llama.cpp 等常用部署方式为例。不同模型文件名可能略有差异，请根据你实际下载的模型路径调整命令。

一、DeepSeek 性能瓶颈主要来自哪里？

在优化之前，需要先理解性能瓶颈。DeepSeek 推理速度主要受以下因素影响：

影响因素	说明
模型参数量	参数越大，推理越慢，显存占用越高
量化精度	FP16 质量高但显存占用大，INT4/INT8 更省资源
上下文长度	context 越长，KV Cache 越大，显存占用越高
推理框架	vLLM、SGLang、llama.cpp、Ollama 性能差异明显
GPU 显存	显存不足会导致无法加载或频繁降速
CPU/内存带宽	CPU 推理时内存带宽是关键瓶颈
并发请求数	多用户访问时，调度能力直接影响吞吐量
采样参数	max_tokens、temperature、top_p 等也会影响生成速度

简单来说，如果你想获得更好的速度，需要从以下几个方向入手：

选择合适大小的模型
使用合适的量化版本
优先使用 GPU 推理
使用高性能推理框架
降低无意义的上下文长度
合理设置并发和批处理参数
避免一次生成过长内容

二、选择合适的 DeepSeek 模型版本

很多性能问题并不是优化参数能解决的，而是模型本身太大。例如，你只有一张 8GB 显存的显卡，却想流畅运行 70B 模型，这基本不现实。

1. 常见模型选择建议

硬件条件	推荐模型
纯 CPU，16GB 内存	1.5B / 7B 的 Q4 量化模型
8GB 显存	1.5B / 7B INT4 或 GGUF Q4
12GB 显存	7B / 8B Q4、Q5，部分 14B Q4
16GB 显存	14B Q4/Q5，7B FP16
24GB 显存	32B Q4、14B FP16、7B 高并发
48GB 显存及以上	32B FP16 或更大模型量化版本
多卡服务器	vLLM + tensor parallel 部署大模型

2. 推荐优先使用蒸馏模型

如果主要用于推理、问答、代码辅助，可以优先考虑 DeepSeek-R1-Distill 系列。例如：

DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B

蒸馏模型通常比原始大模型更适合个人电脑或单卡部署。

三、使用 vLLM 部署 DeepSeek 并优化性能

如果你有 NVIDIA GPU，并且希望提供 OpenAI API 兼容服务，推荐使用 vLLM。vLLM 对并发、KV Cache 管理、吞吐量优化非常好，适合服务化部署。

四、安装 vLLM 环境

建议使用 Conda 创建独立环境。

conda create -n deepseek-vllm python=3.10 -y
conda activate deepseek-vllm

安装 PyTorch，以下命令以 CUDA 12.1 为例：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

安装 vLLM：

pip install vllm

检查 CUDA 是否可用：

python -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))"

如果输出为 True 并显示显卡名称，说明 GPU 环境正常。

五、使用 vLLM 启动 DeepSeek API 服务

假设你已经从 Hugging Face 或 ModelScope 下载了模型，例如：

/home/models/DeepSeek-R1-Distill-Qwen-7B

可以使用以下命令启动服务：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --trust-remote-code

参数说明：

参数	作用
`--dtype float16`	使用 FP16，提升 GPU 推理速度
`--max-model-len 8192`	限制最大上下文长度，减少显存占用
`--gpu-memory-utilization 0.90`	允许 vLLM 使用 90% 显存
`--trust-remote-code`	允许加载模型自定义代码
`--host 0.0.0.0`	允许局域网访问
`--port 8000`	服务端口

六、vLLM 高性能启动命令

如果你追求更高吞吐量，可以使用下面这个优化版命令：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.92 \
  --max-num-seqs 64 \
  --max-num-batched-tokens 8192 \
  --enable-prefix-caching \
  --trust-remote-code

优化点解释

--max-model-len 4096：如果你的业务不需要超长上下文，建议降低到 4096，可明显节省显存。
--max-num-seqs 64：允许更多请求同时进入调度。
--max-num-batched-tokens 8192：控制批处理 token 数，提升吞吐。
--enable-prefix-caching：开启前缀缓存，对固定系统提示词、多轮对话场景非常有效。
--gpu-memory-utilization 0.92：提高显存使用率，但过高可能 OOM。

七、vLLM 多卡部署命令

如果你有多张 GPU，可以使用张量并行。

例如 2 张 GPU：

CUDA_VISIBLE_DEVICES=0,1 vllm serve /home/models/DeepSeek-R1-Distill-Qwen-32B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --tensor-parallel-size 2 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --trust-remote-code

4 张 GPU：

CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /home/models/DeepSeek-R1-Distill-Qwen-70B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --tensor-parallel-size 4 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --trust-remote-code

需要注意：

--tensor-parallel-size 必须与使用的 GPU 数量一致。
多卡部署建议使用同型号显卡。
显卡之间最好有 NVLink，否则跨卡通信会影响速度。
如果显存不足，优先降低 --max-model-len。

八、测试 vLLM API 是否正常

vLLM 默认提供 OpenAI 兼容接口，可以用 curl 测试：

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/home/models/DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
      {
        "role": "system",
        "content": "你是一个专业的中文技术助手。"
      },
      {
        "role": "user",
        "content": "请用通俗语言解释什么是 KV Cache。"
      }
    ],
    "temperature": 0.6,
    "top_p": 0.9,
    "max_tokens": 512
  }'

如果你想查看流式输出：

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/home/models/DeepSeek-R1-Distill-Qwen-7B",
    "stream": true,
    "messages": [
      {
        "role": "user",
        "content": "写一段 Python 快速排序代码。"
      }
    ],
    "max_tokens": 512
  }'

九、通过量化降低显存占用

如果显存不够，可以使用量化模型。常见量化方式包括：

量化方式	特点
FP16	精度高，显存占用大
BF16	适合 A100/H100 等支持 BF16 的显卡
INT8	显存降低，质量损失较小
INT4	显存占用低，速度快，质量略降
GGUF Q4_K_M	llama.cpp 常用，兼顾质量与速度
GGUF Q5_K_M	质量更好，显存/内存占用更高
AWQ/GPTQ	常用于 GPU 量化推理

如果你使用 vLLM 加载 AWQ 模型，可以这样启动：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B-AWQ \
  --host 0.0.0.0 \
  --port 8000 \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90 \
  --trust-remote-code

GPTQ 模型启动示例：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B-GPTQ \
  --host 0.0.0.0 \
  --port 8000 \
  --quantization gptq \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90 \
  --trust-remote-code

十、使用 Ollama 快速运行 DeepSeek

如果你不想折腾复杂环境，Ollama 是最简单的本地运行方式之一，适合个人电脑、Mac、Linux 服务器。

1. 安装 Ollama

Linux/macOS：

curl -fsSL https://ollama.com/install.sh | sh

查看版本：

ollama --version

启动服务：

ollama serve

2. 运行 DeepSeek 模型

直接运行：

ollama run deepseek-r1:7b

如果机器配置较低，可以选择更小模型：

ollama run deepseek-r1:1.5b

如果显存或内存更充足，可以运行 14B：

ollama run deepseek-r1:14b

3. Ollama 性能优化环境变量

Ollama 可以通过环境变量调整并发、上下文长度等。

Linux 示例：

export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=1
export OLLAMA_KEEP_ALIVE=30m
export OLLAMA_HOST=0.0.0.0:11434
ollama serve

参数解释：

环境变量	说明
`OLLAMA_NUM_PARALLEL`	并行请求数
`OLLAMA_MAX_LOADED_MODELS`	最大同时加载模型数
`OLLAMA_KEEP_ALIVE`	模型保留在内存中的时间
`OLLAMA_HOST`	服务监听地址

4. Ollama API 测试命令

curl http://127.0.0.1:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1:7b",
    "messages": [
      {
        "role": "user",
        "content": "请解释 DeepSeek 本地部署时如何优化显存。"
      }
    ],
    "stream": false
  }'

十一、使用 llama.cpp 运行 GGUF 量化模型

如果你是 CPU 用户，或者想在低显存设备上运行 DeepSeek，推荐使用 llama.cpp。它支持 GGUF 量化模型，尤其适合个人电脑、Mac、Linux 小服务器。

十二、编译 llama.cpp

安装依赖：

sudo apt update
sudo apt install -y build-essential cmake git

克隆项目：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

CPU 编译：

cmake -B build
cmake --build build --config Release -j

如果你有 NVIDIA GPU，可以开启 CUDA：

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

如果你使用 Apple Silicon Mac，可以开启 Metal：

cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

十三、llama.cpp 推理命令优化

假设模型路径为：

/home/models/deepseek-r1-distill-qwen-7b-q4_k_m.gguf

CPU 运行：

./build/bin/llama-cli \
  -m /home/models/deepseek-r1-distill-qwen-7b-q4_k_m.gguf \
  -p "请用中文解释什么是大模型量化。" \
  -n 512 \
  -c 4096 \
  -t 8

参数说明：

参数	说明
`-m`	模型文件路径
`-p`	提示词
`-n`	最大生成 token 数
`-c`	上下文长度
`-t`	CPU 线程数

如果使用 GPU 加速，可以增加 -ngl 参数：

./build/bin/llama-cli \
  -m /home/models/deepseek-r1-distill-qwen-7b-q4_k_m.gguf \
  -p "写一个 Python 版本的二分查找。" \
  -n 512 \
  -c 4096 \
  -t 8 \
  -ngl 99

-ngl 99 表示尽可能多地把层放到 GPU 上。显存不够时可以降低：

./build/bin/llama-cli \
  -m /home/models/deepseek-r1-distill-qwen-7b-q4_k_m.gguf \
  -p "总结一下本地部署大模型的优化方法。" \
  -n 512 \
  -c 4096 \
  -t 8 \
  -ngl 20

十四、llama.cpp 启动 API 服务

llama.cpp 也可以启动 HTTP 服务：

./build/bin/llama-server \
  -m /home/models/deepseek-r1-distill-qwen-7b-q4_k_m.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  -c 4096 \
  -t 8 \
  -ngl 99

测试接口：

curl http://127.0.0.1:8080/completion \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "请解释 llama.cpp 中 -ngl 参数的作用。",
    "n_predict": 512,
    "temperature": 0.7
  }'

十五、核心参数优化建议

1. 降低上下文长度

很多人一上来就设置 32K、64K 上下文，但实际业务可能只需要 4K 或 8K。上下文越长，KV Cache 越大，显存占用越高。

建议：

--max-model-len 4096

或者：

-c 4096

如果是简单问答、代码生成、摘要任务，4096 通常够用。

2. 限制最大生成长度

不要无脑设置 max_tokens=4096。生成越长，占用时间越久，也会拖慢并发。

3. 合理设置 temperature

对于代码生成、知识问答，建议使用较低温度：

"temperature": 0.2

对于创作类任务：

"temperature": 0.7

低温度通常更稳定，也能减少无效发散输出。

4. 开启流式输出

流式输出不能提高总生成速度，但可以降低用户感知延迟。

"stream": true

curl 示例：

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/home/models/DeepSeek-R1-Distill-Qwen-7B",
    "stream": true,
    "messages": [
      {
        "role": "user",
        "content": "请给出 Linux 性能排查步骤。"
      }
    ],
    "max_tokens": 512
  }'

十六、显存不足时的处理方案

如果启动时报 OOM，可以按以下顺序处理：

方案一：降低上下文长度

--max-model-len 2048

方案二：降低显存利用率

--gpu-memory-utilization 0.80

方案三：使用量化模型

例如 AWQ：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.85 \
  --trust-remote-code

方案四：换更小模型

例如从 14B 降到 7B：

ollama run deepseek-r1:7b

或者从 7B 降到 1.5B：

ollama run deepseek-r1:1.5b

方案五：减少并发

--max-num-seqs 16

十七、CPU 推理优化建议

如果你只能用 CPU，优化重点是线程数、量化格式和内存带宽。

1. 使用 Q4_K_M 或 Q5_K_M

一般推荐：

Q4_K_M：速度快，占用低，质量不错
Q5_K_M：质量更好，占用略高
Q8_0：质量较高，但速度和内存压力更大

2. 设置合理线程数

线程数不一定越高越好。一般设置为物理核心数或略低于逻辑核心数。

查看 CPU 核心：

lscpu

运行时设置：

-t 8

如果你是 16 核 CPU，可以尝试：

-t 12

3. 减少上下文长度

CPU 推理时建议：

-c 2048

或：

-c 4096

不建议盲目设置 16K。

十八、生产环境部署建议

如果要把 DeepSeek 部署成长期运行服务，建议使用 systemd 或 Docker。

1. 使用 Docker 运行 vLLM

安装 NVIDIA Container Toolkit 后，可以执行：

docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v /home/models:/models \
  vllm/vllm-openai:latest \
  --model /models/DeepSeek-R1-Distill-Qwen-7B \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --trust-remote-code

2. 后台运行

docker run -d --name deepseek-vllm \
  --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v /home/models:/models \
  vllm/vllm-openai:latest \
  --model /models/DeepSeek-R1-Distill-Qwen-7B \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --trust-remote-code

查看日志：

docker logs -f deepseek-vllm

停止服务：

docker stop deepseek-vllm

删除容器：

docker rm deepseek-vllm

十九、推荐配置组合

1. 个人电脑低配置

模型：DeepSeek-R1 1.5B 或 7B Q4
框架：Ollama / llama.cpp
上下文：2048 或 4096
用途：学习、简单问答、轻量代码辅助

推荐命令：

ollama run deepseek-r1:1.5b

2. 单张 12GB 显卡

模型：7B AWQ / GPTQ / GGUF Q4
框架：vLLM 或 llama.cpp
上下文：4096
用途：个人助手、低并发 API

推荐命令：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B-AWQ \
  --host 0.0.0.0 \
  --port 8000 \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.88 \
  --trust-remote-code

3. 单张 24GB 显卡

模型：14B Q4/Q5 或 32B 量化
框架：vLLM
上下文：4096/8192
用途：企业知识库、中低并发服务

推荐命令：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-14B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --max-num-seqs 32 \
  --enable-prefix-caching \
  --trust-remote-code

4. 多卡服务器

模型：32B / 70B
框架：vLLM
并行：Tensor Parallel
用途：高质量推理、企业级 API 服务

推荐命令：

CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /home/models/DeepSeek-R1-Distill-Llama-70B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --tensor-parallel-size 4 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --max-num-seqs 64 \
  --enable-prefix-caching \
  --trust-remote-code

二十、常见问题排查

1. 启动时报 CUDA out of memory

解决顺序：

--max-model-len 4096

仍不行：

--max-model-len 2048

再不行：

--gpu-memory-utilization 0.80

最后换量化模型或更小模型。

2. 首字很慢

可尝试：

--enable-prefix-caching

同时减少 prompt 长度，控制上下文。

3. 并发一高就变慢

可以调大：

--max-num-seqs 64
--max-num-batched-tokens 8192

如果 OOM，则降低并发：

--max-num-seqs 16

4. 输出太啰嗦

限制生成长度：

"max_tokens": 512

系统提示词中加入：

请直接回答问题，避免重复解释。

二十一、总结

DeepSeek 性能优化的核心并不是单纯追求“参数越大越好”，而是在模型大小、硬件资源、上下文长度、量化方式和推理框架之间做平衡。

如果你追求简单易用，推荐：

ollama run deepseek-r1:7b

如果你追求 GPU 服务化和高并发，推荐：

vllm serve /home/models/DeepSeek-R1-Distill-Qwen-7B \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90 \
  --max-num-seqs 64 \
  --max-num-batched-tokens 8192 \
  --enable-prefix-caching \
  --trust-remote-code

如果你是低配置电脑或 CPU 用户，推荐：

./build/bin/llama-cli \
  -m /home/models/deepseek-r1-distill-qwen-7b-q4_k_m.gguf \
  -p "请介绍 DeepSeek 本地部署优化方法。" \
  -n 512 \
  -c 4096 \
  -t 8

最终建议是：先选对模型，再选对框架，然后通过上下文长度、量化、并发参数、KV Cache 和批处理参数进行微调。这样才能在有限硬件上获得更稳定、更流畅、更高性价比的 DeepSeek 推理体验。

文章标签： DeepSeek性能优化 vLLM部署量化模型显存优化

上一篇：DeepSeek 部署提速实战：从显存占用到高并发的完整优化命令

下一篇：DeepSeek提速实战：从参数配置到生产部署的完整优化指南

更多栏目

新闻动态

文档中心

下载中心

目录结构

全文

产品与服务

新闻帮助

生态合作

了解我们

DeepSeek 本地部署提速实战：显存、并发、推理命令一次讲透

DeepSeek 性能优化教程｜附完整命令

一、DeepSeek 性能瓶颈主要来自哪里？

二、选择合适的 DeepSeek 模型版本

1. 常见模型选择建议

2. 推荐优先使用蒸馏模型

三、使用 vLLM 部署 DeepSeek 并优化性能

四、安装 vLLM 环境

五、使用 vLLM 启动 DeepSeek API 服务

六、vLLM 高性能启动命令

优化点解释

七、vLLM 多卡部署命令

八、测试 vLLM API 是否正常

九、通过量化降低显存占用

十、使用 Ollama 快速运行 DeepSeek

1. 安装 Ollama

2. 运行 DeepSeek 模型

3. Ollama 性能优化环境变量

4. Ollama API 测试命令

十一、使用 llama.cpp 运行 GGUF 量化模型

十二、编译 llama.cpp

十三、llama.cpp 推理命令优化

十四、llama.cpp 启动 API 服务

十五、核心参数优化建议

1. 降低上下文长度

2. 限制最大生成长度

3. 合理设置 temperature

4. 开启流式输出

十六、显存不足时的处理方案

方案一：降低上下文长度

方案二：降低显存利用率

方案三：使用量化模型

方案四：换更小模型

方案五：减少并发

十七、CPU 推理优化建议

1. 使用 Q4_K_M 或 Q5_K_M

2. 设置合理线程数

3. 减少上下文长度

十八、生产环境部署建议

1. 使用 Docker 运行 vLLM

2. 后台运行

十九、推荐配置组合

1. 个人电脑低配置

2. 单张 12GB 显卡

3. 单张 24GB 显卡

4. 多卡服务器

二十、常见问题排查

1. 启动时报 CUDA out of memory

2. 首字很慢

3. 并发一高就变慢

4. 输出太啰嗦

二十一、总结