DeepSeek 私有化落地指南:从部署命令到企业级知识库实战
DeepSeek 企业级实战方案|附完整命令
随着大模型在企业内部的落地加速,越来越多团队开始关注如何将 DeepSeek 这类高性价比大模型能力引入研发、运营、客服、知识库、数据分析、代码辅助等业务场景中。相比单纯调用公网 API,企业级落地更关注数据安全、私有化部署、权限控制、稳定性、成本可控、可观测性以及和现有业务系统集成。
本文将从企业实战角度,给出一套较完整的 DeepSeek 落地方案,涵盖:
- DeepSeek 企业级部署架构
- 本地快速体验方案
- GPU 服务器部署方案
- OpenAI 兼容 API 接入
- 企业知识库 RAG 方案
- Web UI 管理入口
- Docker Compose 部署
- Kubernetes 部署思路
- Nginx 反向代理
- 鉴权与安全控制
- 日志、监控与运维建议
- 常用完整命令
说明:本文以 DeepSeek 系列开源模型或兼容 DeepSeek API 的部署方案为核心,实际模型版本、显存占用、性能表现会随模型大小、量化方式、推理框架和硬件环境而变化。生产环境请结合自身硬件资源进行压测。
一、企业为什么需要 DeepSeek 私有化方案?
在企业场景中,直接使用公网大模型 API 的确方便,但通常会遇到以下问题:
-
数据安全要求高
研发代码、合同文本、财务数据、客户资料、内部制度、运维日志等信息通常不能直接上传到第三方服务。 -
成本不可控
一旦大模型应用被多个系统集成,比如客服、知识库、BI、代码助手同时使用,Token 消耗可能快速增长。 -
响应稳定性依赖外部服务
外部 API 的网络质量、限流策略、服务波动都会影响企业内部系统。 -
权限和审计能力不足
企业需要知道谁在使用、用了多少、问了什么、是否命中敏感内容。 -
需要和内部系统深度集成
比如 LDAP、企业微信、飞书、钉钉、OA、CRM、工单系统、知识库、GitLab、Jenkins 等。
因此,企业级 DeepSeek 方案通常不是“部署一个模型”这么简单,而是要构建一套可集成、可管理、可扩展、可审计的大模型服务平台。
二、推荐总体架构
一个较完整的企业级 DeepSeek 架构可以分为以下几层:
用户层
├── Web 聊天界面
├── 企业微信 / 飞书 / 钉钉机器人
├── 内部业务系统
├── IDE 插件 / 代码助手
└── API 调用方
接入层
├── Nginx / API Gateway
├── HTTPS 证书
├── 鉴权认证
├── 限流熔断
└── 请求日志
模型服务层
├── vLLM / Ollama / LMDeploy / Text Generation Inference
├── DeepSeek 模型
├── OpenAI Compatible API
└── 多模型路由
应用增强层
├── RAG 知识库
├── Embedding 模型
├── 向量数据库
├── Prompt 模板
├── 工具调用
└── Agent 编排
数据层
├── PostgreSQL
├── Redis
├── MinIO
├── Milvus / Qdrant / Elasticsearch
└── 日志存储
运维层
├── Prometheus
├── Grafana
├── Loki / ELK
├── GPU 监控
└── 告警系统
在中小企业中,可以先采用单机 Docker Compose 架构;在中大型企业中,建议使用 Kubernetes 部署,并通过 GPU 节点池、模型服务池、网关层和监控系统进行统一管理。
三、硬件与系统建议
1. 操作系统建议
生产环境建议使用:
- Ubuntu Server 22.04 LTS
- Ubuntu Server 24.04 LTS
- Debian 12
- Rocky Linux 9
- CentOS Stream 9
本文示例以 Ubuntu 22.04 为主。
查看系统信息:
lsb_release -a
uname -a
更新系统:
sudo apt update
sudo apt upgrade -y
安装基础工具:
sudo apt install -y curl wget git vim htop net-tools unzip tar ca-certificates gnupg lsb-release
2. GPU 资源建议
不同模型对显存要求不同。一般来说:
| 场景 | 推荐模型规模 | 推荐硬件 |
|---|---|---|
| 个人体验 | 1.5B / 7B 量化 | 8GB~16GB 显存 |
| 小团队知识库 | 7B / 14B 量化 | 24GB 显存 |
| 企业内部助手 | 14B / 32B 量化 | 48GB~80GB 显存 |
| 高并发生产服务 | 32B / 70B 级别 | 多卡 A100 / H100 / L40S |
查看 GPU:
nvidia-smi
持续查看 GPU 使用情况:
watch -n 1 nvidia-smi
四、安装 NVIDIA 驱动与 Docker GPU 环境
如果服务器已安装驱动,可以跳过驱动安装部分。
1. 安装 NVIDIA 驱动
查看推荐驱动:
ubuntu-drivers devices
自动安装推荐驱动:
sudo ubuntu-drivers autoinstall
sudo reboot
重启后验证:
nvidia-smi
2. 安装 Docker
卸载旧版本:
sudo apt remove -y docker docker-engine docker.io containerd runc
安装依赖:
sudo apt update
sudo apt install -y ca-certificates curl gnupg
添加 Docker GPG key:
sudo install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | \
sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
添加 Docker 源:
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] \
https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
安装 Docker:
sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
设置开机启动:
sudo systemctl enable docker
sudo systemctl start docker
将当前用户加入 docker 组:
sudo usermod -aG docker $USER
newgrp docker
验证 Docker:
docker version
docker compose version
3. 安装 NVIDIA Container Toolkit
添加源:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
安装:
sudo apt update
sudo apt install -y nvidia-container-toolkit
配置 Docker:
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
验证容器访问 GPU:
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
五、方案一:使用 Ollama 快速部署 DeepSeek
Ollama 适合快速验证、小团队内部使用、低门槛部署。它可以非常方便地拉取和运行模型,并提供本地 API。
1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
查看版本:
ollama --version
启动服务:
sudo systemctl enable ollama
sudo systemctl start ollama
查看服务状态:
systemctl status ollama
2. 拉取 DeepSeek 模型
根据机器资源选择模型。例如:
ollama pull deepseek-r1:1.5b
或者:
ollama pull deepseek-r1:7b
如果资源充足,可以选择更大模型:
ollama pull deepseek-r1:14b
查看已安装模型:
ollama list
3. 命令行测试
ollama run deepseek-r1:7b
输入:
请用中文解释一下企业知识库 RAG 的工作流程。
4. 使用 Ollama API 调用
Ollama 默认监听本地 11434 端口。
测试接口:
curl http://localhost:11434/api/generate \
-d '{
"model": "deepseek-r1:7b",
"prompt": "请写一个 Java Spring Boot 接口示例",
"stream": false
}'
聊天接口:
curl http://localhost:11434/api/chat \
-d '{
"model": "deepseek-r1:7b",
"messages": [
{
"role": "system",
"content": "你是企业内部 AI 助手,回答要准确、简洁。"
},
{
"role": "user",
"content": "请解释 Kubernetes 中 Deployment 和 StatefulSet 的区别。"
}
],
"stream": false
}'
5. 允许局域网访问 Ollama
默认 Ollama 可能只监听 127.0.0.1。可以修改 systemd 配置。
创建覆盖配置:
sudo systemctl edit ollama
写入:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
重载并重启:
sudo systemctl daemon-reload
sudo systemctl restart ollama
确认监听地址:
ss -lntp | grep 11434
注意:生产环境不建议直接暴露 Ollama 端口,应通过 Nginx、API Gateway、鉴权服务进行访问控制。
六、方案二:使用 vLLM 部署 OpenAI 兼容服务
vLLM 更适合企业生产环境,具备较好的吞吐能力、批处理能力和 OpenAI API 兼容性。业务系统可以像调用 OpenAI 一样调用内部模型服务。
1. 创建目录
mkdir -p /data/deepseek-vllm
cd /data/deepseek-vllm
2. 使用 Docker 启动 vLLM
以下命令示例使用 Hugging Face 上的模型路径,实际请根据你使用的 DeepSeek 模型调整。
docker run -d \
--name deepseek-vllm \
--gpus all \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models \
vllm/vllm-openai:latest \
--model /models/deepseek-model \
--served-model-name deepseek \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 8192
查看日志:
docker logs -f deepseek-vllm
查看容器:
docker ps
停止服务:
docker stop deepseek-vllm
删除服务:
docker rm deepseek-vllm
3. OpenAI 兼容接口测试
查看模型:
curl http://localhost:8000/v1/models
聊天测试:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek",
"messages": [
{
"role": "system",
"content": "你是企业内部技术专家。"
},
{
"role": "user",
"content": "请给出一套 Java 微服务灰度发布方案。"
}
],
"temperature": 0.3,
"max_tokens": 1024
}'
Python 调用示例:
pip install openai
创建 test_deepseek.py:
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://127.0.0.1:8000/v1"
)
response = client.chat.completions.create(
model="deepseek",
messages=[
{"role": "system", "content": "你是企业内部 AI 助手。"},
{"role": "user", "content": "请解释什么是 RAG,并给出企业落地步骤。"}
],
temperature=0.3,
max_tokens=1024
)
print(response.choices[0].message.content)
运行:
python test_deepseek.py
七、部署 Open WebUI:企业内部聊天入口
Open WebUI 可以为员工提供类似 ChatGPT 的 Web 入口,支持多用户、模型接入、知识库等能力。它可以连接 Ollama,也可以连接 OpenAI 兼容 API。
1. 使用 Docker 部署 Open WebUI
连接 Ollama 的方式:
docker run -d \
--name open-webui \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
如果是在 Linux 中,host.docker.internal 可能不可用,可以改成服务器内网 IP,例如:
docker run -d \
--name open-webui \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://192.168.1.100:11434 \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
访问:
http://服务器IP:3000
2. 连接 vLLM OpenAI 接口
如果你使用 vLLM,可以在 Open WebUI 中配置 OpenAI 兼容接口:
API Base URL: http://服务器IP:8000/v1
API Key: EMPTY
Model: deepseek
也可以通过环境变量指定:
docker run -d \
--name open-webui \
-p 3000:8080 \
-e OPENAI_API_BASE_URL=http://192.168.1.100:8000/v1 \
-e OPENAI_API_KEY=EMPTY \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
八、Docker Compose 一键化部署示例
下面给出一个适合企业内网测试环境的 Compose 示例,包含:
- Ollama
- Open WebUI
- Nginx
创建目录:
mkdir -p /data/deepseek-stack
cd /data/deepseek-stack
创建 docker-compose.yml:
cat > docker-compose.yml <<'EOF'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ./ollama:/root/.ollama
restart: always
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- ./open-webui:/app/backend/data
depends_on:
- ollama
restart: always
nginx:
image: nginx:1.25
container_name: deepseek-nginx
ports:
- "80:80"
volumes:
- ./nginx/default.conf:/etc/nginx/conf.d/default.conf
depends_on:
- open-webui
restart: always
EOF
创建 Nginx 配置目录:
mkdir -p nginx
创建 Nginx 配置:
cat > nginx/default.conf <<'EOF'
server {
listen 80;
server_name _;
client_max_body_size 50m;
location / {
proxy_pass http://open-webui:8080;
proxy_http_version 1.1;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection "upgrade";
proxy_read_timeout 3600s;
proxy_send_timeout 3600s;
}
}
EOF
启动:
docker compose up -d
查看:
docker compose ps
docker compose logs -f
拉取模型:
docker exec -it ollama ollama pull deepseek-r1:7b
测试模型:
docker exec -it ollama ollama run deepseek-r1:7b
访问:
http://服务器IP
停止:
docker compose down
升级镜像:
docker compose pull
docker compose up -d
九、企业知识库 RAG 实战方案
仅部署 DeepSeek 模型并不能解决企业知识问题。因为模型本身并不知道企业内部制度、产品文档、项目资料、历史工单、合同模板等内容。企业知识问答通常需要 RAG,即 Retrieval-Augmented Generation,中文通常叫“检索增强生成”。
1. RAG 工作流程
典型 RAG 流程如下:
文档采集
↓
文档清洗
↓
文本切分
↓
向量化 Embedding
↓
写入向量数据库
↓
用户提问
↓
问题向量化
↓
相似度检索
↓
召回相关文档片段
↓
组装 Prompt
↓
调用 DeepSeek
↓
返回答案与引用来源
2. 推荐组件
| 模块 | 可选方案 |
|---|---|
| 文档解析 | Unstructured、MinerU、Apache Tika |
| 向量模型 | bge-m3、bge-large-zh、text2vec |
| 向量数据库 | Milvus、Qdrant、pgvector、Elasticsearch |
| RAG 框架 | LangChain、LlamaIndex、Dify、FastGPT |
| 大模型服务 | DeepSeek + Ollama / vLLM |
| 文件存储 | MinIO |
| 元数据存储 | PostgreSQL |
十、使用 Dify 快速构建企业 RAG 应用
如果团队希望低代码搭建知识库应用,可以使用 Dify。它支持知识库、工作流、工具调用、API 发布等能力。
1. 获取 Dify
git clone https://github.com/langgenius/dify.git
cd dify/docker
2. 启动 Dify
复制环境变量:
cp .env.example .env
启动:
docker compose up -d
查看状态:
docker compose ps
访问:
http://服务器IP
3. 配置 DeepSeek 模型
如果 DeepSeek 通过 vLLM 提供 OpenAI 兼容 API,可以在 Dify 中配置:
Provider: OpenAI-API-Compatible
API endpoint URL: http://服务器IP:8000/v1
API Key: EMPTY
Model Name: deepseek
如果是公网 DeepSeek API,则填写官方 API 地址和 Key。
十一、Nginx 反向代理与 HTTPS 配置
企业内部系统建议统一通过 Nginx 或 API Gateway 暴露服务,避免模型端口直接对外。
1. 安装 Nginx
sudo apt install -y nginx
sudo systemctl enable nginx
sudo systemctl start nginx
2. 配置反向代理到 vLLM
创建配置:
sudo vim /etc/nginx/conf.d/deepseek-api.conf
写入:
server {
listen 80;
server_name deepseek-api.example.com;
client_max_body_size 20m;
location / {
proxy_pass http://127.0.0.1:8000;
proxy_http_version 1.1;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_connect_timeout 60s;
proxy_read_timeout 3600s;
proxy_send_timeout 3600s;
}
}
检查配置:
sudo nginx -t
重载:
sudo systemctl reload nginx
3. 配置 HTTPS
安装 Certbot:
sudo apt install -y certbot python3-certbot-nginx
申请证书:
sudo certbot --nginx -d deepseek-api.example.com
自动续期测试:
sudo certbot renew --dry-run
十二、API 鉴权与访问控制
模型服务不能裸奔。企业环境至少要实现:
- API Key 鉴权
- 用户维度限流
- IP 白名单
- 请求日志审计
- 敏感词过滤
- Token 用量统计
- 超时控制
如果只是简单场景,可以先用 Nginx 增加 Basic Auth。
1. 安装工具
sudo apt install -y apache2-utils
2. 创建密码文件
sudo htpasswd -c /etc/nginx/.deepseek_htpasswd admin
输入密码后生成认证文件。
3. 修改 Nginx 配置
location / {
auth_basic "DeepSeek Enterprise API";
auth_basic_user_file /etc/nginx/.deepseek_htpasswd;
proxy_pass http://127.0.0.1:8000;
proxy_http_version 1.1;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_read_timeout 3600s;
}
重载:
sudo nginx -t
sudo systemctl reload nginx
调用示例:
curl -u admin:你的密码 http://deepseek-api.example.com/v1/models
十三、Python 后端业务集成示例
企业内部系统通常会通过后端服务调用 DeepSeek,而不是让前端直接访问模型服务。
安装依赖:
pip install fastapi uvicorn openai
创建 app.py:
from fastapi import FastAPI
from pydantic import BaseModel
from openai import OpenAI
app = FastAPI()
client = OpenAI(
api_key="EMPTY",
base_url="http://127.0.0.1:8000/v1"
)
class ChatRequest(BaseModel):
question: str
@app.post("/chat")
def chat(req: ChatRequest):
response = client.chat.completions.create(
model="deepseek",
messages=[
{
"role": "system",
"content": "你是企业内部 AI 助手。回答必须准确,不能编造,不确定时说明原因。"
},
{
"role": "user",
"content": req.question
}
],
temperature=0.2,
max_tokens=1024
)
return {
"answer": response.choices[0].message.content
}
启动:
uvicorn app:app --host 0.0.0.0 --port 9000
测试:
curl http://127.0.0.1:9000/chat \
-H "Content-Type: application/json" \
-d '{"question":"请给出企业内部知识库建设方案"}'
十四、Kubernetes 部署思路
对于中大型企业,建议将模型服务部署到 Kubernetes 中,并将 GPU 节点独立管理。
1. 节点打标签
kubectl label node gpu-node-01 accelerator=nvidia
查看标签:
kubectl get nodes --show-labels
2. 部署 NVIDIA Device Plugin
kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.5/nvidia-device-plugin.yml
检查:
kubectl get pods -n kube-system | grep nvidia
3. vLLM Deployment 示例
创建 deepseek-vllm.yaml:
apiVersion: apps/v1
kind: Deployment
metadata:
name: deepseek-vllm
namespace: default
spec:
replicas: 1
selector:
matchLabels:
app: deepseek-vllm
template:
metadata:
labels:
app: deepseek-vllm
spec:
nodeSelector:
accelerator: nvidia
containers:
- name: vllm
image: vllm/vllm-openai:latest
imagePullPolicy: IfNotPresent
ports:
- containerPort: 8000
args:
- "--model"
- "/models/deepseek-model"
- "--served-model-name"
- "deepseek"
- "--host"
- "0.0.0.0"
- "--port"
- "8000"
- "--max-model-len"
- "8192"
volumeMounts:
- name: model-volume
mountPath: /models
resources:
limits:
nvidia.com/gpu: 1
volumes:
- name: model-volume
hostPath:
path: /data/models
type: Directory
---
apiVersion: v1
kind: Service
metadata:
name: deepseek-vllm
namespace: default
spec:
selector:
app: deepseek-vllm
ports:
- protocol: TCP
port: 8000
targetPort: 8000
type: ClusterIP
应用:
kubectl apply -f deepseek-vllm.yaml
查看:
kubectl get pods
kubectl get svc
kubectl logs -f deploy/deepseek-vllm
端口转发测试:
kubectl port-forward svc/deepseek-vllm 8000:8000
测试:
curl http://127.0.0.1:8000/v1/models
十五、监控与运维建议
企业级方案不能只关注“能不能跑”,还要关注“能不能稳定跑”。
1. 关键监控指标
建议关注:
- GPU 使用率
- GPU 显存占用
- GPU 温度
- 请求 QPS
- 平均响应时间
- 首 Token 延迟
- 每秒生成 Token 数
- 请求失败率
- 队列等待时间
- 单用户 Token 消耗
- 模型服务重启次数
2. 查看容器资源
docker stats
3. 查看 GPU
nvidia-smi
4. 查看服务日志
docker logs -f deepseek-vllm
或者:
journalctl -u ollama -f
5. 清理无用 Docker 数据
docker system df
docker system prune -a
注意:
docker system prune -a会删除未使用镜像,生产环境执行前要确认影响。
十六、生产环境安全建议
DeepSeek 企业部署时,安全是重点。建议至少做到以下几点:
1. 网络隔离
- 模型服务仅允许内网访问
- 不直接暴露模型端口到公网
- 使用 VPN、堡垒机或零信任网关访问
- 通过防火墙限制来源 IP
UFW 示例:
sudo ufw allow 22/tcp
sudo ufw allow 80/tcp
sudo ufw allow 443/tcp
sudo ufw deny 8000/tcp
sudo ufw enable
sudo ufw status
2. API Key 管理
- 为不同业务系统分配不同 API Key
- 定期轮换 Key
- 禁止在前端代码中暴露 Key
- 对 Key 设置调用额度
3. 内容安全
- 敏感信息脱敏
- Prompt 注入防护
- 输出内容审核
- 对内部知识库按部门授权
- 记录用户提问与模型回答,满足审计需求
4. 数据留存策略
- 用户对话是否保存要明确
- 日志中避免记录密码、Token、身份证、银行卡等敏感信息
- 重要系统需要对日志做加密和权限控制
十七、常见问题排查
1. Docker 容器无法识别 GPU
执行:
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
如果失败,检查:
nvidia-smi
dpkg -l | grep nvidia-container-toolkit
docker info | grep -i runtime
重启 Docker:
sudo systemctl restart docker
2. 模型启动后显存不足
可以尝试:
- 使用更小模型
- 使用量化模型
- 降低
max-model-len - 减少并发
- 使用多卡张量并行
- 使用 CPU offload,但性能会下降
vLLM 示例:
docker run -d \
--name deepseek-vllm \
--gpus all \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models \
vllm/vllm-openai:latest \
--model /models/deepseek-model \
--served-model-name deepseek \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 4096
3. 接口响应慢
排查方向:
nvidia-smi
docker stats
docker logs -f deepseek-vllm
优化建议:
- 使用 vLLM 代替简单推理服务
- 降低输出
max_tokens - 对用户请求做限流
- 增加 GPU
- 使用更小模型处理简单任务
- 对业务场景做模型路由
十八、企业落地路线图
建议企业不要一开始就追求“大而全”,可以分阶段落地。
第一阶段:内部体验
目标:
- 部署 Ollama 或 vLLM
- 接入 Open WebUI
- 让研发、运维、产品团队试用
交付物:
- 一个内部聊天入口
- 一个 OpenAI 兼容 API
- 基础访问控制
第二阶段:知识库问答
目标:
- 建设企业制度、产品文档、研发文档知识库
- 接入 RAG
- 支持答案引用来源
交付物:
- 企业知识库问答机器人
- 部门知识库权限
- 文档更新流程
第三阶段:业务系统集成
目标:
- 接入工单系统
- 接入客服系统
- 接入代码仓库
- 接入 BI 和报表系统
交付物:
- 智能客服
- 工单自动分类
- 代码解释与代码审查
- 数据问答助手
第四阶段:平台化治理
目标:
- 统一模型网关
- 统一 API Key
- 统一监控告警
- 成本统计
- 安全审计
交付物:
- 企业大模型中台
- 模型路由系统
- Token 计费系统
- 安全合规审计报表
十九、总结
DeepSeek 企业级实战落地的关键,不是简单跑通一个模型,而是围绕企业真实需求构建完整体系:
- 用 Ollama 快速验证
- 用 vLLM 提供生产级 OpenAI 兼容 API
- 用 Open WebUI 提供员工使用入口
- 用 Dify、FastGPT、LangChain 或 LlamaIndex 构建 RAG 知识库
- 用 Nginx 或 API Gateway 做统一入口
- 用权限、审计、限流、监控保障生产安全
- 用 Kubernetes 支撑规模化部署
- 用模型路由降低成本并提升体验
对于大多数企业,推荐从“单机 GPU + Ollama/vLLM + Open WebUI + RAG 知识库”开始,先解决实际业务问题,再逐步演进到多模型、多租户、多应用的大模型平台。
最终,企业部署 DeepSeek 的目标不是炫技,而是让 AI 真正进入研发、客服、运营、知识管理和数据分析流程中,形成可复制、可运维、可度量的生产力工具。