DeepSeek 本地部署实战:从一键安装到 WebUI 使用全流程
DeepSeek 部署完整教程|一键部署
随着大模型应用的快速普及,越来越多的开发者、企业和个人用户开始尝试在本地或服务器上部署大语言模型。DeepSeek 作为近年来关注度较高的开源大模型系列,凭借较强的推理能力、代码能力以及较高的性价比,成为很多人搭建本地 AI 助手、企业知识库、代码助手和私有化智能应用的首选模型之一。
本文将围绕 DeepSeek 一键部署 展开,详细介绍 DeepSeek 的部署方式、环境准备、常见部署方案、Docker 一键部署、本地部署、WebUI 可视化界面接入、API 调用方式以及常见问题排查。无论你是刚接触大模型的新手,还是希望快速搭建私有 AI 服务的开发者,都可以按照本文完成 DeepSeek 的部署。
一、DeepSeek 是什么?
DeepSeek 是由深度求索推出的大语言模型系列,包含通用对话模型、代码模型、推理模型等多个方向。常见的模型包括:
- DeepSeek-V3:通用对话能力较强,适合聊天、写作、总结、翻译、知识问答等场景。
- DeepSeek-R1:推理能力突出,适合数学推理、复杂问题分析、逻辑推导等任务。
- DeepSeek-Coder:面向代码生成、代码补全、代码解释和程序开发场景。
- DeepSeek-R1-Distill 系列:基于 DeepSeek-R1 蒸馏得到的小参数模型,更适合本地部署。
对于个人电脑、本地服务器或者中小型企业来说,通常不会直接部署超大参数版本,而是选择蒸馏版或量化版模型。例如:
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-Coder-6.7B
- DeepSeek-Coder-33B
- DeepSeek-R1 的 GGUF 量化版本
这些模型可以通过 Ollama、LM Studio、vLLM、Text Generation WebUI、Docker、Open WebUI 等方式快速运行。
二、部署 DeepSeek 前需要准备什么?
在正式部署之前,需要先确认自己的硬件和软件环境。不同规模的模型对硬件要求不同,如果配置不足,可以选择更小的模型或者量化版本。
1. 硬件要求
如果只是个人体验,建议配置如下:
| 模型规模 | 推荐显存 | 适合场景 |
|---|---|---|
| 1.5B / 3B | 4GB 以上 | 简单问答、轻量测试 |
| 7B / 8B | 8GB 以上 | 本地聊天、写作、代码辅助 |
| 14B | 16GB 以上 | 更高质量问答和推理 |
| 32B / 33B | 24GB 以上 | 专业代码、复杂推理 |
| 70B 以上 | 48GB 以上或多卡 | 企业级服务、复杂应用 |
如果没有独立显卡,也可以使用 CPU 运行量化模型,但速度会明显变慢。对于普通用户来说,使用 Ollama + 量化模型 是最简单的方式。
2. 软件环境
推荐环境如下:
- 操作系统:Ubuntu 20.04 / 22.04、Debian、CentOS、macOS、Windows 10/11
- Docker:建议安装 Docker 和 Docker Compose
- GPU 驱动:如果使用 NVIDIA 显卡,需要安装 NVIDIA Driver
- CUDA:根据模型推理框架选择安装
- Python:建议 3.10 以上
- 网络:首次下载模型需要稳定网络
如果你只是想“一键部署”,本文推荐优先使用以下组合:
Ollama + Open WebUI + Docker Compose
这个方案的优点是:
- 部署简单
- 支持本地运行
- 支持 Web 页面聊天
- 支持多模型管理
- 可通过 API 调用
- 适合个人和小团队使用
三、方案一:使用 Ollama 一键部署 DeepSeek
Ollama 是目前非常流行的本地大模型运行工具,它可以让用户像安装软件一样拉取和运行模型。对于新手来说,这是部署 DeepSeek 最简单的方式。
四、在 Linux 服务器上安装 Ollama
如果你使用的是 Ubuntu 或其他 Linux 发行版,可以使用下面的命令安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,查看版本:
ollama --version
启动 Ollama 服务:
ollama serve
如果系统已经自动启动服务,则无需重复执行。
查看 Ollama 服务状态:
systemctl status ollama
如果没有启动,可以执行:
sudo systemctl start ollama
设置开机自启:
sudo systemctl enable ollama
五、在 macOS 上安装 Ollama
macOS 用户可以直接访问 Ollama 官网下载安装包:
https://ollama.com
下载安装后,打开 Ollama 应用即可。安装完成后,在终端执行:
ollama --version
如果能正常显示版本号,说明安装成功。
六、在 Windows 上安装 Ollama
Windows 用户同样可以前往 Ollama 官网下载安装包:
https://ollama.com/download
安装完成后,打开 PowerShell 或 CMD,执行:
ollama --version
确认安装成功后,即可拉取 DeepSeek 模型。
七、拉取并运行 DeepSeek 模型
Ollama 支持直接拉取 DeepSeek 相关模型。以 DeepSeek-R1 为例:
ollama run deepseek-r1
如果你希望运行较小版本,可以选择:
ollama run deepseek-r1:1.5b
或者运行 7B 版本:
ollama run deepseek-r1:7b
运行 14B 版本:
ollama run deepseek-r1:14b
如果你想运行代码模型,可以使用:
ollama run deepseek-coder
当命令执行后,Ollama 会自动下载模型文件。下载完成后,会进入交互式对话界面,你可以直接输入问题,例如:
请用 Python 写一个快速排序算法,并解释代码逻辑。
如果模型能够正常回答,就说明 DeepSeek 已经部署成功。
八、查看本地模型列表
可以通过以下命令查看已经下载的模型:
ollama list
示例输出:
NAME ID SIZE MODIFIED
deepseek-r1:7b xxxxxxxx 4.7GB 2 hours ago
deepseek-coder xxxxxxxx 3.8GB 1 day ago
如果想删除不需要的模型,可以执行:
ollama rm deepseek-r1:7b
九、通过 API 调用 DeepSeek
Ollama 默认会在本地启动 API 服务,地址通常是:
http://localhost:11434
可以使用 curl 测试:
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "请介绍一下 DeepSeek 的特点",
"stream": false
}'
如果返回模型回答内容,说明 API 调用正常。
也可以使用 Python 调用:
import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "deepseek-r1:7b",
"prompt": "请用通俗语言解释什么是大语言模型。",
"stream": False
}
response = requests.post(url, json=data)
print(response.json()["response"])
如果你希望将 DeepSeek 接入自己的业务系统,例如智能客服、知识库问答、代码助手等,就可以基于这个 API 进行二次开发。
十、方案二:Docker Compose 一键部署 DeepSeek + Open WebUI
虽然 Ollama 命令行已经很方便,但很多用户更希望拥有一个类似 ChatGPT 的网页界面。此时可以使用 Open WebUI。
Open WebUI 是一个开源的大模型 Web 管理界面,支持连接 Ollama,并提供聊天界面、用户管理、模型管理、提示词管理等功能。
下面介绍一套更接近“一键部署”的方案:使用 Docker Compose 同时部署 Ollama 和 Open WebUI。
十一、安装 Docker 和 Docker Compose
如果你使用 Ubuntu,可以执行:
sudo apt update
sudo apt install -y docker.io docker-compose
启动 Docker:
sudo systemctl start docker
sudo systemctl enable docker
查看 Docker 版本:
docker --version
查看 Docker Compose 版本:
docker-compose --version
如果你的系统使用新版 Docker Compose,也可以使用:
docker compose version
十二、编写 docker-compose.yml
创建一个目录:
mkdir deepseek-deploy
cd deepseek-deploy
创建 docker-compose.yml 文件:
vim docker-compose.yml
写入以下内容:
version: "3.8"
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
restart: always
ports:
- "11434:11434"
volumes:
- ./ollama:/root/.ollama
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: always
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- ./open-webui:/app/backend/data
depends_on:
- ollama
如果你的服务器有 NVIDIA GPU,并且已经安装好 NVIDIA Container Toolkit,可以使用 GPU 版本配置:
version: "3.8"
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
restart: always
ports:
- "11434:11434"
volumes:
- ./ollama:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: always
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- ./open-webui:/app/backend/data
depends_on:
- ollama
十三、一键启动服务
在 docker-compose.yml 所在目录执行:
docker-compose up -d
如果是新版 Docker Compose,可以执行:
docker compose up -d
查看容器状态:
docker ps
正常情况下会看到两个容器:
ollama
open-webui
接下来进入 Ollama 容器拉取模型:
docker exec -it ollama ollama pull deepseek-r1:7b
如果你想拉取更轻量版本:
docker exec -it ollama ollama pull deepseek-r1:1.5b
如果你显存足够,可以拉取更大版本:
docker exec -it ollama ollama pull deepseek-r1:14b
拉取完成后,访问浏览器:
http://服务器IP:3000
首次访问 Open WebUI 会要求创建管理员账号。注册后进入系统,即可选择 DeepSeek 模型开始聊天。
到这里,一个完整的 DeepSeek Web 聊天系统就部署完成了。
十四、开放外网访问注意事项
如果你是在云服务器上部署,需要确保安全组或防火墙开放端口:
3000:Open WebUI 页面访问端口11434:Ollama API 端口,通常不建议直接暴露到公网
开放防火墙端口:
sudo ufw allow 3000
如果你希望通过域名访问,可以使用 Nginx 反向代理,例如:
server {
listen 80;
server_name ai.example.com;
location / {
proxy_pass http://127.0.0.1:3000;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
配置完成后重启 Nginx:
sudo systemctl restart nginx
生产环境中建议启用 HTTPS,可以使用 Certbot 申请免费 SSL 证书。
十五、方案三:使用 vLLM 部署 DeepSeek API 服务
如果你希望部署高性能 API 服务,特别是面向多用户并发调用,Ollama 可能不是最佳选择。此时可以考虑使用 vLLM。
vLLM 是一个高性能大模型推理框架,支持连续批处理、PagedAttention、OpenAI API 兼容接口,非常适合企业级服务部署。
1. 安装 vLLM
建议使用 Python 虚拟环境:
conda create -n deepseek python=3.10 -y
conda activate deepseek
安装 vLLM:
pip install vllm
2. 启动 OpenAI 兼容 API
以 Hugging Face 上的 DeepSeek 模型为例:
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
--host 0.0.0.0 \
--port 8000
启动成功后,可以使用 OpenAI 格式调用:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{"role": "user", "content": "请解释什么是 Transformer。"}
],
"temperature": 0.7
}'
Python 调用示例:
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1"
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
messages=[
{"role": "user", "content": "请写一个 DeepSeek 部署方案。"}
],
temperature=0.7
)
print(response.choices[0].message.content)
vLLM 更适合开发者和企业使用,但对显卡、CUDA 环境和模型格式要求更高。如果你只是个人体验,建议优先选择 Ollama。
十六、如何选择模型版本?
部署 DeepSeek 时,模型选择非常关键。如果模型太大,硬件跑不动;如果模型太小,回答质量可能不够理想。
个人电脑推荐
如果你的电脑显存为 8GB,可以选择:
ollama run deepseek-r1:7b
如果显存较小,可以选择:
ollama run deepseek-r1:1.5b
普通服务器推荐
如果服务器显存为 16GB 或 24GB,可以选择:
ollama run deepseek-r1:14b
或者使用 vLLM 部署 7B / 14B 模型。
企业内网推荐
如果需要多人使用,建议:
- 使用 vLLM 或 TGI 部署推理服务
- 使用 Open WebUI 提供前端界面
- 使用 Nginx 做反向代理
- 使用 HTTPS 加密访问
- 增加用户认证和访问控制
- 对模型调用做日志记录和限流
十七、常见问题与解决方案
1. 模型下载很慢怎么办?
可以尝试:
- 更换网络环境
- 使用代理
- 使用国内镜像源
- 手动下载模型文件
- 选择较小模型测试
如果只是验证部署流程,建议先拉取 1.5b 或 7b 版本,成功后再下载更大的模型。
2. Ollama 服务无法访问怎么办?
先检查服务是否启动:
systemctl status ollama
检查端口:
netstat -tunlp | grep 11434
或者:
ss -tunlp | grep 11434
如果端口没有监听,可以重启:
sudo systemctl restart ollama
Docker 部署时,可以查看日志:
docker logs ollama
3. Open WebUI 访问不了怎么办?
检查容器状态:
docker ps
查看日志:
docker logs open-webui
确认端口映射是否正确:
docker port open-webui
如果是云服务器,还需要检查安全组是否开放 3000 端口。
4. 显存不足怎么办?
显存不足是本地部署大模型最常见的问题。可以尝试:
- 换用更小的模型
- 使用量化模型
- 降低上下文长度
- 关闭其他占用显存的程序
- 使用 CPU 推理,但速度会变慢
- 使用云服务器 GPU
5. 回答速度慢怎么办?
可能原因包括:
- 模型参数过大
- 显卡性能不足
- 使用 CPU 推理
- 并发请求过多
- 上下文内容太长
优化方式:
- 使用更小的模型
- 使用 GPU 推理
- 减少 prompt 长度
- 使用 vLLM 提升并发能力
- 对常见问题增加缓存
十八、生产环境部署建议
如果你打算将 DeepSeek 用于正式业务,不建议只用简单命令裸跑。生产环境建议从以下几个方面完善:
1. 使用 Docker 部署
Docker 能够隔离环境,便于迁移和升级。推荐使用 Docker Compose 管理多个服务。
2. 配置反向代理
使用 Nginx 或 Caddy 做统一入口,方便配置域名、HTTPS、访问日志和限流。
3. 增加身份认证
如果 Open WebUI 或 API 暴露到公网,一定要配置登录认证,不要将模型接口无保护地开放出去。
4. 做好权限控制
企业内部使用时,可以根据用户角色限制可访问的模型、知识库和功能。
5. 监控资源占用
建议监控:
- GPU 使用率
- 显存占用
- CPU 使用率
- 内存使用
- 请求耗时
- 并发数量
可以使用 nvidia-smi 查看显卡状态:
watch -n 1 nvidia-smi
6. 定期备份数据
如果你使用 Open WebUI,需要备份用户数据、聊天记录和配置文件。Docker Compose 部署时,本文已经将数据挂载到本地目录:
./open-webui
./ollama
定期备份这两个目录即可。
十九、完整一键部署脚本示例
如果你希望进一步简化流程,可以编写一个一键部署脚本。
创建脚本:
vim install-deepseek.sh
写入内容:
#!/bin/bash
set -e
echo "开始安装 Docker..."
if ! command -v docker >/dev/null 2>&1; then
sudo apt update
sudo apt install -y docker.io docker-compose
sudo systemctl start docker
sudo systemctl enable docker
else
echo "Docker 已安装,跳过。"
fi
echo "创建部署目录..."
mkdir -p deepseek-deploy
cd deepseek-deploy
echo "生成 docker-compose.yml..."
cat > docker-compose.yml <
赋予执行权限:
chmod +x install-deepseek.sh
运行脚本:
./install-deepseek.sh
等待脚本执行完成后,访问:
http://服务器IP:3000
即可使用 DeepSeek。
二十、总结
本文从零开始介绍了 DeepSeek 的完整部署流程,包括本地部署、Ollama 快速运行、Docker Compose 一键部署、Open WebUI 可视化界面、API 调用、vLLM 高性能部署以及常见问题排查。
如果你是个人用户,推荐使用:
Ollama + DeepSeek-R1:7B
如果你希望拥有网页聊天界面,推荐使用:
Ollama + Open WebUI
如果你是企业用户,希望提供高并发 API 服务,推荐使用:
vLLM + DeepSeek Distill 模型 + Nginx + HTTPS + 权限控制
整体来看,DeepSeek 的私有化部署门槛已经大幅降低。通过 Ollama 和 Docker Compose,用户可以在几分钟内完成模型部署,并快速搭建自己的本地 AI 助手。对于重视数据安全、希望降低 API 成本、需要内网智能化能力的团队来说,DeepSeek 私有化部署是一条非常值得尝试的技术路线。