DeepSeek 私有化上线实战：从一键部署到生产可用

发布人：慈云数据-客服中心发布时间：2026-06-07 02:00 阅读量：160

DeepSeek 生产环境部署指南｜一键部署

随着大模型能力的不断提升，越来越多企业开始将 DeepSeek 等开源大语言模型引入到内部知识库、智能客服、代码助手、数据分析、办公自动化等业务场景中。相比直接调用第三方 API，本地化或私有化部署 DeepSeek 具有更强的数据安全性、更可控的成本结构、更灵活的模型调优能力，也更适合对合规、稳定性和响应速度有较高要求的生产环境。

不过，生产环境部署并不只是“把模型跑起来”这么简单。真正可用的 DeepSeek 服务，需要同时考虑模型推理性能、GPU 资源利用率、服务高可用、接口鉴权、日志监控、限流熔断、数据安全、灰度发布、故障恢复等一系列问题。本文将以“一键部署”为核心思路，系统介绍 DeepSeek 在生产环境中的部署方案，并提供可落地的 Docker Compose 与 Kubernetes 部署参考。

一、部署目标与整体架构

在生产环境中部署 DeepSeek，通常需要达到以下目标：

服务稳定可用
支持长时间运行，具备异常自动恢复能力。
接口统一访问
对外提供标准 API，例如 OpenAI-Compatible API，便于业务系统快速接入。
性能可控
合理利用 GPU、显存、CPU、内存和网络资源，避免资源浪费。
安全合规
支持身份认证、访问控制、日志审计、敏感数据保护。
易于扩展
可以根据访问量增加推理实例，实现横向扩容。
便于运维
支持监控、日志、告警、备份和版本升级。

一个较为典型的生产部署架构如下：

用户 / 业务系统
        │
        ▼
API 网关 / Nginx / Ingress
        │
        ▼
鉴权与限流服务
        │
        ▼
DeepSeek 推理服务
        │
        ├── 模型权重存储
        ├── GPU 计算资源
        ├── 日志系统
        └── 监控系统

如果是企业内部使用，也可以将 DeepSeek 部署在内网环境中，通过 VPN、堡垒机或内部网关访问，进一步降低安全风险。

二、生产环境硬件与系统要求

DeepSeek 模型有不同规模和版本，不同模型对硬件要求差异较大。生产环境中，硬件配置应根据模型大小、并发量、响应时间要求和上下文长度综合评估。

1. GPU 建议

如果部署较大的 DeepSeek 模型，建议使用 NVIDIA GPU。常见选择包括：

场景	推荐 GPU	说明
测试与小规模服务	RTX 4090 / L40S	成本相对较低，适合验证
中等规模生产	A10 / A100 / L40S	性能稳定，适合企业业务
高并发生产	A100 / H100	适合大规模并发推理
多节点集群	A100 / H100 多卡	支持模型并行与弹性扩容

如果显存不足，可以考虑以下优化方式：

使用量化模型，例如 INT4、INT8、AWQ、GPTQ；
降低最大上下文长度；
使用 vLLM 等高性能推理框架；
开启连续批处理；
使用多 GPU 并行；
根据业务需求选择蒸馏版本或较小参数模型。

2. CPU、内存与磁盘

生产环境建议配置如下：

CPU：16 核以上
内存：64GB 以上，较大模型建议 128GB+
磁盘：NVMe SSD，至少 500GB
网络：万兆网络更佳
操作系统：Ubuntu 22.04 LTS / Ubuntu 20.04 LTS
容器环境：Docker + NVIDIA Container Toolkit

模型文件通常较大，建议将模型权重存放在独立磁盘或对象存储挂载目录中。对于多节点部署，可以使用共享存储、模型缓存或镜像预热方式减少启动时间。

三、部署方式选择

DeepSeek 生产部署常见方式主要有三种：

1. Docker Compose 部署

适合单机单卡或单机多卡场景，优点是部署简单、维护成本低，适合中小团队快速上线。

2. Kubernetes 部署

适合多节点、多实例、高可用和弹性伸缩场景，适合中大型企业生产环境。

3. 云平台托管部署

例如使用云厂商 GPU 实例、容器服务、模型服务平台等。优点是资源弹性好、运维压力小，但成本和平台依赖需要评估。

本文重点介绍 Docker Compose 一键部署方案，并补充 Kubernetes 生产部署思路。

四、方案一：Docker Compose 一键部署 DeepSeek

这里推荐使用高性能推理框架部署 DeepSeek，例如 vLLM。vLLM 支持 OpenAI API 兼容接口，业务系统可以像调用 OpenAI API 一样调用本地 DeepSeek 服务。

1. 安装 NVIDIA 驱动

首先确认服务器可以正常识别 GPU：

nvidia-smi

如果能够看到 GPU 型号、驱动版本和显存信息，说明驱动安装成功。

2. 安装 Docker

curl -fsSL https://get.docker.com | bash
systemctl enable docker
systemctl start docker
docker version

3. 安装 NVIDIA Container Toolkit

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | \
  gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
  tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

apt update
apt install -y nvidia-container-toolkit

nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

测试容器是否可以访问 GPU：

docker run --rm --gpus all nvidia/cuda:12.1.1-base-ubuntu22.04 nvidia-smi

如果能正常输出 GPU 信息，说明 Docker GPU 环境已经准备完成。

五、准备模型目录

建议在服务器上创建统一模型目录：

mkdir -p /data/models/deepseek
mkdir -p /data/logs/deepseek

模型可以提前下载到 /data/models/deepseek。如果使用 Hugging Face 或 ModelScope，也可以在容器启动时自动下载，但生产环境建议提前下载，避免服务启动依赖外部网络。

示例目录结构：

/data/models/deepseek
├── config.json
├── tokenizer.json
├── tokenizer_config.json
├── model-00001-of-000xx.safetensors
├── model-00002-of-000xx.safetensors
└── ...

如果企业内网无法直接访问外部模型仓库，可以先在有网络的机器上下载模型，再通过离线方式同步到生产服务器。

六、一键部署脚本

下面提供一个简化的一键部署脚本，用于快速启动 DeepSeek 推理服务。

创建文件：

vim deploy-deepseek.sh

写入以下内容：

#!/usr/bin/env bash

set -e

APP_NAME="deepseek-vllm"
MODEL_PATH="/data/models/deepseek"
LOG_PATH="/data/logs/deepseek"
PORT="8000"
API_KEY="change-me-to-a-strong-key"

echo "==== DeepSeek Production Deployment Start ===="

if ! command -v docker >/dev/null 2>&1; then
  echo "Docker not found, please install Docker first."
  exit 1
fi

if ! command -v nvidia-smi >/dev/null 2>&1; then
  echo "nvidia-smi not found, please install NVIDIA driver first."
  exit 1
fi

mkdir -p ${MODEL_PATH}
mkdir -p ${LOG_PATH}

cat > docker-compose.yml <


赋予执行权限：
chmod +x deploy-deepseek.sh
执行部署：
./deploy-deepseek.sh
部署完成后，可以查看日志：
docker logs -f deepseek-vllm

七、接口调用测试
vLLM 提供 OpenAI-Compatible API，可以使用 curl 测试：
curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Authorization: Bearer change-me-to-a-strong-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek",
    "messages": [
      {
        "role": "system",
        "content": "你是一个专业的企业级AI助手。"
      },
      {
        "role": "user",
        "content": "请介绍一下DeepSeek生产环境部署的核心注意事项。"
      }
    ],
    "temperature": 0.7,
    "max_tokens": 512
  }'
如果返回正常的 JSON 响应，说明服务已经部署成功。
业务系统也可以直接使用 OpenAI SDK，只需将 base_url 修改为本地 DeepSeek 服务地址即可。
Python 示例：
from openai import OpenAI

client = OpenAI(
    api_key="change-me-to-a-strong-key",
    base_url="http://127.0.0.1:8000/v1"
)

response = client.chat.completions.create(
    model="deepseek",
    messages=[
        {"role": "system", "content": "你是一个企业级AI助手。"},
        {"role": "user", "content": "请生成一份生产环境部署检查清单。"}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

八、Nginx 反向代理与 HTTPS 配置
生产环境不建议直接将推理服务裸露在公网。建议在前面增加 Nginx 或 API 网关，实现 HTTPS、访问控制、限流和日志记录。
1. Nginx 配置示例
server {
    listen 443 ssl;
    server_name ai.example.com;

    ssl_certificate /etc/nginx/certs/ai.example.com.crt;
    ssl_certificate_key /etc/nginx/certs/ai.example.com.key;

    client_max_body_size 20m;

    location / {
        proxy_pass http://127.0.0.1:8000;
        proxy_http_version 1.1;

        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

        proxy_read_timeout 600s;
        proxy_send_timeout 600s;
    }
}
如果模型响应较慢，需要适当调大 proxy_read_timeout，否则长文本生成时可能出现连接中断。
2. 限流配置示例
limit_req_zone $binary_remote_addr zone=api_limit:10m rate=5r/s;

server {
    listen 443 ssl;
    server_name ai.example.com;

    location / {
        limit_req zone=api_limit burst=20 nodelay;
        proxy_pass http://127.0.0.1:8000;
    }
}
限流可以防止某个业务方或异常请求占满 GPU 资源。

九、生产参数调优建议
DeepSeek 推理性能与参数配置密切相关，以下参数需要重点关注。
1. tensor-parallel-size
该参数表示张量并行数量。单卡部署时设置为：
--tensor-parallel-size 1
如果使用 2 张 GPU，可以设置：
--tensor-parallel-size 2
多卡并行时，模型会被切分到多张 GPU 上，可以部署更大的模型，但也会引入通信开销。
2. max-model-len
该参数表示模型最大上下文长度。上下文越长，显存占用越高，推理速度可能越慢。
生产环境建议根据业务实际需求设置，例如：
--max-model-len 4096
或：
--max-model-len 8192
如果业务不需要超长上下文，不建议盲目设置过大。
3. gpu-memory-utilization
该参数控制 GPU 显存利用率：
--gpu-memory-utilization 0.90
如果服务启动后容易出现显存溢出，可以适当降低到 0.85 或 0.80。
4. max-num-seqs
该参数控制最大并发序列数量。并发越高，吞吐越高，但单请求延迟可能增加。生产中需要通过压测确定最佳值。
示例：
--max-num-seqs 64

十、日志、监控与告警
生产环境必须具备可观测能力，否则一旦服务出现性能下降、显存不足、请求堆积或接口异常，将很难快速定位问题。
1. 日志关注点
建议记录以下信息：

请求时间；
请求来源；
模型名称；
输入 token 数；
输出 token 数；
响应耗时；
HTTP 状态码；
错误信息；
GPU 使用情况。

需要注意，生产环境不应默认记录完整用户输入和模型输出，尤其是涉及隐私、商业数据或敏感信息的场景。可以只记录摘要、哈希值或脱敏后的内容。
2. GPU 监控
可以使用 DCGM Exporter 采集 NVIDIA GPU 指标，再通过 Prometheus 和 Grafana 展示。
常见关注指标包括：
GPU 利用率
GPU 显存使用率
GPU 温度
GPU 功耗
推理服务 QPS
请求平均耗时
P95 / P99 延迟
失败率
容器重启次数
3. 告警策略
建议至少配置以下告警：



告警项
建议阈值




GPU 显存使用率
连续 5 分钟高于 95%


GPU 温度
高于 80℃


API 错误率
5 分钟内高于 5%


P99 延迟
超过业务 SLA


容器重启
10 分钟内重启超过 2 次


磁盘空间
剩余低于 15%




十一、权限、安全与数据保护
生产环境部署 DeepSeek 时，安全问题必须前置考虑。
1. API Key 管理
不要使用示例中的默认 API Key。建议使用高强度密钥，并定期轮换。
API_KEY="your-production-secret-key"
如果有多个业务系统调用 DeepSeek，建议为每个业务方分配独立 Key，便于审计和限流。
2. 网络隔离
推荐部署方式：

推理服务只监听内网；
通过 API 网关统一暴露接口；
公网访问必须走 HTTPS；
关键服务部署在安全组或防火墙之后；
禁止无鉴权访问。

3. 敏感信息脱敏
如果业务请求中可能包含身份证号、手机号、客户资料、合同内容等敏感信息，应在进入模型前进行脱敏处理。
例如：
手机号：138****8888
身份证号：110101********1234
邮箱：u***@example.com
4. 日志审计
需要明确以下问题：

谁在什么时间调用了模型；
调用了哪个模型；
使用了多少 token；
是否出现异常；
是否存在高频调用或异常调用。

对于金融、医疗、政企等行业，日志审计尤其重要。

十二、Kubernetes 生产部署思路
当业务访问量较大，或者需要多节点高可用时，可以将 DeepSeek 部署到 Kubernetes 集群中。
1. 节点要求
Kubernetes GPU 节点需要安装：

NVIDIA Driver；
NVIDIA Container Toolkit；
NVIDIA Device Plugin；
containerd 或 Docker；
GPU 监控组件。

2. Deployment 示例
apiVersion: apps/v1
kind: Deployment
metadata:
  name: deepseek-vllm
  namespace: ai
spec:
  replicas: 1
  selector:
    matchLabels:
      app: deepseek-vllm
  template:
    metadata:
      labels:
        app: deepseek-vllm
    spec:
      containers:
        - name: deepseek-vllm
          image: vllm/vllm-openai:latest
          ports:
            - containerPort: 8000
          env:
            - name: VLLM_API_KEY
              valueFrom:
                secretKeyRef:
                  name: deepseek-secret
                  key: api-key
          command:
            - python3
            - -m
            - vllm.entrypoints.openai.api_server
          args:
            - --model
            - /models/deepseek
            - --host
            - 0.0.0.0
            - --port
            - "8000"
            - --served-model-name
            - deepseek
            - --tensor-parallel-size
            - "1"
            - --max-model-len
            - "8192"
            - --gpu-memory-utilization
            - "0.90"
          volumeMounts:
            - name: model-volume
              mountPath: /models/deepseek
          resources:
            limits:
              nvidia.com/gpu: 1
      volumes:
        - name: model-volume
          hostPath:
            path: /data/models/deepseek
            type: Directory
3. Service 示例
apiVersion: v1
kind: Service
metadata:
  name: deepseek-vllm
  namespace: ai
spec:
  selector:
    app: deepseek-vllm
  ports:
    - port: 8000
      targetPort: 8000
  type: ClusterIP
4. Secret 示例
apiVersion: v1
kind: Secret
metadata:
  name: deepseek-secret
  namespace: ai
type: Opaque
stringData:
  api-key: "your-production-secret-key"
在 Kubernetes 中，建议通过 Ingress Gateway 或 API Gateway 统一对外暴露服务，并结合 HPA、日志系统和监控系统进行运维管理。

十三、灰度发布与版本升级
模型和推理框架升级存在一定风险。生产环境不建议直接替换线上服务，而应采用灰度发布策略。
推荐流程：

在测试环境部署新版本模型；
使用固定测试集验证回答质量；
进行性能压测；
部署灰度实例；
将少量流量切换到新版本；
观察错误率、延迟、用户反馈；
确认稳定后逐步扩大流量；
保留旧版本回滚能力。

如果使用 API 网关，可以按权重分流：
deepseek-v1：90%
deepseek-v2：10%
当新版本出现问题时，可以快速将流量切回旧版本。

十四、压测与容量规划
上线前必须进行压测。压测重点不是单纯追求 QPS，而是要评估不同请求长度、不同输出长度、不同并发量下的真实表现。
建议测试以下场景：



场景
输入长度
输出长度
并发




短问答
500 tokens
300 tokens
10 / 50 / 100


长文总结
4000 tokens
800 tokens
5 / 10 / 20


代码生成
1000 tokens
1500 tokens
5 / 20 / 50


多轮对话
2000 tokens
500 tokens
10 / 30 / 50



关注指标包括：

首 token 延迟；
总响应时间；
tokens/s；
并发吞吐；
GPU 利用率；
显存占用；
错误率；
超时率。

根据压测结果，可以确定单实例容量，并进一步规划需要多少 GPU 实例。

十五、常见问题与解决方案
1. 服务启动时报显存不足
可能原因：

模型过大；
上下文长度设置过高；
GPU 显存不足；
并发参数过高。

解决方案：
降低 max-model-len
降低 gpu-memory-utilization
使用量化模型
增加 GPU 数量
选择更小模型
2. 接口响应慢
可能原因：

输入上下文太长；
输出 token 太多；
并发过高；
GPU 利用率过高；
网关超时设置过短。

解决方案：
限制 max_tokens
优化 prompt
增加推理实例
开启流式输出
进行压测调参
3. Docker 容器无法识别 GPU
检查：
nvidia-smi
docker run --rm --gpus all nvidia/cuda:12.1.1-base-ubuntu22.04 nvidia-smi
如果宿主机可识别 GPU，但容器不可识别，通常是 NVIDIA Container Toolkit 未正确安装或 Docker runtime 未配置。
4. 模型下载失败
生产环境建议不要依赖启动时在线下载。可以提前下载模型权重，并挂载到容器中。
5. 长文本生成中断
检查 Nginx 或网关超时时间，例如：
proxy_read_timeout 600s;
proxy_send_timeout 600s;
同时建议使用流式输出，改善用户体验。

十六、生产上线检查清单
上线前建议逐项确认：
[ ] GPU 驱动正常
[ ] Docker GPU Runtime 正常
[ ] 模型文件完整
[ ] 推理服务可正常启动
[ ] API Key 已修改为强密钥
[ ] 服务未直接裸露公网
[ ] Nginx / 网关已配置 HTTPS
[ ] 已配置限流策略
[ ] 已配置日志采集
[ ] 已配置 GPU 监控
[ ] 已配置错误率和延迟告警
[ ] 已完成压测
[ ] 已准备回滚方案
[ ] 已设置数据脱敏策略
[ ] 已明确日志保留周期
[ ] 已完成业务系统联调

十七、总结
DeepSeek 的生产环境部署，核心并不是简单地启动一个模型服务，而是构建一套稳定、安全、可观测、可扩展的 AI 推理平台。对于中小规模场景，可以优先采用 Docker Compose 配合 vLLM 的方式实现一键部署，快速提供 OpenAI-Compatible API；对于大规模生产场景，则建议使用 Kubernetes、API 网关、Prometheus、Grafana、日志平台和灰度发布体系，形成完整的工程化能力。
从实践角度看，企业落地 DeepSeek 时应重点关注以下几点：

根据业务场景选择合适模型，不盲目追求最大参数规模；
使用高性能推理框架提升 GPU 利用率；
通过 API 网关实现鉴权、限流和审计；
通过监控告警保障服务稳定；
通过压测确定容量边界；
通过灰度发布降低升级风险；
通过数据脱敏和网络隔离保障安全合规。

如果希望快速上线，本文提供的一键部署脚本已经可以满足基础生产使用需求。但在正式承载核心业务前，仍应根据企业实际情况完善安全、监控、备份、回滚和容量规划。只有这样，DeepSeek 才能真正从“模型可运行”走向“业务可依赖”。

告警项	建议阈值
GPU 显存使用率	连续 5 分钟高于 95%
GPU 温度	高于 80℃
API 错误率	5 分钟内高于 5%
P99 延迟	超过业务 SLA
容器重启	10 分钟内重启超过 2 次
磁盘空间	剩余低于 15%

场景	输入长度	输出长度	并发
短问答	500 tokens	300 tokens	10 / 50 / 100
长文总结	4000 tokens	800 tokens	5 / 10 / 20
代码生成	1000 tokens	1500 tokens	5 / 20 / 50
多轮对话	2000 tokens	500 tokens	10 / 30 / 50


                                
                                                                        
                                        文章标签：
                                                                                DeepSeek生产部署
                                                                                DockerCompose
                                                                                Kubernetes
                                                                                vLLM
                                                                            
                                                                        
                                        上一篇：DeepSeek 落地生产环境：从 GPU 集群到安全运维的实战指南
                                    
                                                                        
                                        下一篇：DeepSeek 私有化上线实战：从部署到稳定运行的生产级方案

产品与服务

新闻帮助

生态合作

了解我们

DeepSeek 私有化上线实战：从一键部署到生产可用

DeepSeek 生产环境部署指南｜一键部署

一、部署目标与整体架构

二、生产环境硬件与系统要求

1. GPU 建议

2. CPU、内存与磁盘

三、部署方式选择

1. Docker Compose 部署

2. Kubernetes 部署

3. 云平台托管部署

四、方案一：Docker Compose 一键部署 DeepSeek

1. 安装 NVIDIA 驱动

2. 安装 Docker

3. 安装 NVIDIA Container Toolkit

五、准备模型目录

六、一键部署脚本

七、接口调用测试

八、Nginx 反向代理与 HTTPS 配置

1. Nginx 配置示例

2. 限流配置示例

九、生产参数调优建议

1. tensor-parallel-size

2. max-model-len

3. gpu-memory-utilization

4. max-num-seqs

十、日志、监控与告警

1. 日志关注点

2. GPU 监控

3. 告警策略

十一、权限、安全与数据保护

1. API Key 管理

2. 网络隔离

3. 敏感信息脱敏

4. 日志审计

十二、Kubernetes 生产部署思路

1. 节点要求

2. Deployment 示例

3. Service 示例

4. Secret 示例

十三、灰度发布与版本升级

十四、压测与容量规划

十五、常见问题与解决方案

1. 服务启动时报显存不足

2. 接口响应慢

3. Docker 容器无法识别 GPU

4. 模型下载失败

5. 长文本生成中断

十六、生产上线检查清单

十七、总结