上一篇 下一篇 分享链接 返回 返回顶部

DeepSeek 本地部署实战:从一键安装到 WebUI 使用全流程

发布人:慈云数据-客服中心 发布时间:24小时前 阅读量:1

DeepSeek 部署完整教程|一键部署

随着大模型应用的快速普及,越来越多的开发者、企业和个人用户开始尝试在本地或服务器上部署大语言模型。DeepSeek 作为近年来关注度较高的开源大模型系列,凭借较强的推理能力、代码能力以及较高的性价比,成为很多人搭建本地 AI 助手、企业知识库、代码助手和私有化智能应用的首选模型之一。

本文将围绕 DeepSeek 一键部署 展开,详细介绍 DeepSeek 的部署方式、环境准备、常见部署方案、Docker 一键部署、本地部署、WebUI 可视化界面接入、API 调用方式以及常见问题排查。无论你是刚接触大模型的新手,还是希望快速搭建私有 AI 服务的开发者,都可以按照本文完成 DeepSeek 的部署。


一、DeepSeek 是什么?

DeepSeek 是由深度求索推出的大语言模型系列,包含通用对话模型、代码模型、推理模型等多个方向。常见的模型包括:

  • DeepSeek-V3:通用对话能力较强,适合聊天、写作、总结、翻译、知识问答等场景。
  • DeepSeek-R1:推理能力突出,适合数学推理、复杂问题分析、逻辑推导等任务。
  • DeepSeek-Coder:面向代码生成、代码补全、代码解释和程序开发场景。
  • DeepSeek-R1-Distill 系列:基于 DeepSeek-R1 蒸馏得到的小参数模型,更适合本地部署。

对于个人电脑、本地服务器或者中小型企业来说,通常不会直接部署超大参数版本,而是选择蒸馏版或量化版模型。例如:

  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-Coder-6.7B
  • DeepSeek-Coder-33B
  • DeepSeek-R1 的 GGUF 量化版本

这些模型可以通过 Ollama、LM Studio、vLLM、Text Generation WebUI、Docker、Open WebUI 等方式快速运行。


二、部署 DeepSeek 前需要准备什么?

在正式部署之前,需要先确认自己的硬件和软件环境。不同规模的模型对硬件要求不同,如果配置不足,可以选择更小的模型或者量化版本。

1. 硬件要求

如果只是个人体验,建议配置如下:

模型规模 推荐显存 适合场景
1.5B / 3B 4GB 以上 简单问答、轻量测试
7B / 8B 8GB 以上 本地聊天、写作、代码辅助
14B 16GB 以上 更高质量问答和推理
32B / 33B 24GB 以上 专业代码、复杂推理
70B 以上 48GB 以上或多卡 企业级服务、复杂应用

如果没有独立显卡,也可以使用 CPU 运行量化模型,但速度会明显变慢。对于普通用户来说,使用 Ollama + 量化模型 是最简单的方式。

2. 软件环境

推荐环境如下:

  • 操作系统:Ubuntu 20.04 / 22.04、Debian、CentOS、macOS、Windows 10/11
  • Docker:建议安装 Docker 和 Docker Compose
  • GPU 驱动:如果使用 NVIDIA 显卡,需要安装 NVIDIA Driver
  • CUDA:根据模型推理框架选择安装
  • Python:建议 3.10 以上
  • 网络:首次下载模型需要稳定网络

如果你只是想“一键部署”,本文推荐优先使用以下组合:

Ollama + Open WebUI + Docker Compose

这个方案的优点是:

  • 部署简单
  • 支持本地运行
  • 支持 Web 页面聊天
  • 支持多模型管理
  • 可通过 API 调用
  • 适合个人和小团队使用

三、方案一:使用 Ollama 一键部署 DeepSeek

Ollama 是目前非常流行的本地大模型运行工具,它可以让用户像安装软件一样拉取和运行模型。对于新手来说,这是部署 DeepSeek 最简单的方式。


四、在 Linux 服务器上安装 Ollama

如果你使用的是 Ubuntu 或其他 Linux 发行版,可以使用下面的命令安装 Ollama:

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,查看版本:

ollama --version

启动 Ollama 服务:

ollama serve

如果系统已经自动启动服务,则无需重复执行。

查看 Ollama 服务状态:

systemctl status ollama

如果没有启动,可以执行:

sudo systemctl start ollama

设置开机自启:

sudo systemctl enable ollama

五、在 macOS 上安装 Ollama

macOS 用户可以直接访问 Ollama 官网下载安装包:

https://ollama.com

下载安装后,打开 Ollama 应用即可。安装完成后,在终端执行:

ollama --version

如果能正常显示版本号,说明安装成功。


六、在 Windows 上安装 Ollama

Windows 用户同样可以前往 Ollama 官网下载安装包:

https://ollama.com/download

安装完成后,打开 PowerShell 或 CMD,执行:

ollama --version

确认安装成功后,即可拉取 DeepSeek 模型。


七、拉取并运行 DeepSeek 模型

Ollama 支持直接拉取 DeepSeek 相关模型。以 DeepSeek-R1 为例:

ollama run deepseek-r1

如果你希望运行较小版本,可以选择:

ollama run deepseek-r1:1.5b

或者运行 7B 版本:

ollama run deepseek-r1:7b

运行 14B 版本:

ollama run deepseek-r1:14b

如果你想运行代码模型,可以使用:

ollama run deepseek-coder

当命令执行后,Ollama 会自动下载模型文件。下载完成后,会进入交互式对话界面,你可以直接输入问题,例如:

请用 Python 写一个快速排序算法,并解释代码逻辑。

如果模型能够正常回答,就说明 DeepSeek 已经部署成功。


八、查看本地模型列表

可以通过以下命令查看已经下载的模型:

ollama list

示例输出:

NAME                 ID              SIZE      MODIFIED
deepseek-r1:7b        xxxxxxxx        4.7GB     2 hours ago
deepseek-coder        xxxxxxxx        3.8GB     1 day ago

如果想删除不需要的模型,可以执行:

ollama rm deepseek-r1:7b

九、通过 API 调用 DeepSeek

Ollama 默认会在本地启动 API 服务,地址通常是:

http://localhost:11434

可以使用 curl 测试:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "请介绍一下 DeepSeek 的特点",
  "stream": false
}'

如果返回模型回答内容,说明 API 调用正常。

也可以使用 Python 调用:

import requests

url = "http://localhost:11434/api/generate"

data = {
    "model": "deepseek-r1:7b",
    "prompt": "请用通俗语言解释什么是大语言模型。",
    "stream": False
}

response = requests.post(url, json=data)
print(response.json()["response"])

如果你希望将 DeepSeek 接入自己的业务系统,例如智能客服、知识库问答、代码助手等,就可以基于这个 API 进行二次开发。


十、方案二:Docker Compose 一键部署 DeepSeek + Open WebUI

虽然 Ollama 命令行已经很方便,但很多用户更希望拥有一个类似 ChatGPT 的网页界面。此时可以使用 Open WebUI

Open WebUI 是一个开源的大模型 Web 管理界面,支持连接 Ollama,并提供聊天界面、用户管理、模型管理、提示词管理等功能。

下面介绍一套更接近“一键部署”的方案:使用 Docker Compose 同时部署 Ollama 和 Open WebUI。


十一、安装 Docker 和 Docker Compose

如果你使用 Ubuntu,可以执行:

sudo apt update
sudo apt install -y docker.io docker-compose

启动 Docker:

sudo systemctl start docker
sudo systemctl enable docker

查看 Docker 版本:

docker --version

查看 Docker Compose 版本:

docker-compose --version

如果你的系统使用新版 Docker Compose,也可以使用:

docker compose version

十二、编写 docker-compose.yml

创建一个目录:

mkdir deepseek-deploy
cd deepseek-deploy

创建 docker-compose.yml 文件:

vim docker-compose.yml

写入以下内容:

version: "3.8"

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: always
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: always
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - ollama

如果你的服务器有 NVIDIA GPU,并且已经安装好 NVIDIA Container Toolkit,可以使用 GPU 版本配置:

version: "3.8"

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: always
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: always
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - ollama

十三、一键启动服务

docker-compose.yml 所在目录执行:

docker-compose up -d

如果是新版 Docker Compose,可以执行:

docker compose up -d

查看容器状态:

docker ps

正常情况下会看到两个容器:

ollama
open-webui

接下来进入 Ollama 容器拉取模型:

docker exec -it ollama ollama pull deepseek-r1:7b

如果你想拉取更轻量版本:

docker exec -it ollama ollama pull deepseek-r1:1.5b

如果你显存足够,可以拉取更大版本:

docker exec -it ollama ollama pull deepseek-r1:14b

拉取完成后,访问浏览器:

http://服务器IP:3000

首次访问 Open WebUI 会要求创建管理员账号。注册后进入系统,即可选择 DeepSeek 模型开始聊天。

到这里,一个完整的 DeepSeek Web 聊天系统就部署完成了。


十四、开放外网访问注意事项

如果你是在云服务器上部署,需要确保安全组或防火墙开放端口:

  • 3000:Open WebUI 页面访问端口
  • 11434:Ollama API 端口,通常不建议直接暴露到公网

开放防火墙端口:

sudo ufw allow 3000

如果你希望通过域名访问,可以使用 Nginx 反向代理,例如:

server {
    listen 80;
    server_name ai.example.com;

    location / {
        proxy_pass http://127.0.0.1:3000;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

配置完成后重启 Nginx:

sudo systemctl restart nginx

生产环境中建议启用 HTTPS,可以使用 Certbot 申请免费 SSL 证书。


十五、方案三:使用 vLLM 部署 DeepSeek API 服务

如果你希望部署高性能 API 服务,特别是面向多用户并发调用,Ollama 可能不是最佳选择。此时可以考虑使用 vLLM。

vLLM 是一个高性能大模型推理框架,支持连续批处理、PagedAttention、OpenAI API 兼容接口,非常适合企业级服务部署。

1. 安装 vLLM

建议使用 Python 虚拟环境:

conda create -n deepseek python=3.10 -y
conda activate deepseek

安装 vLLM:

pip install vllm

2. 启动 OpenAI 兼容 API

以 Hugging Face 上的 DeepSeek 模型为例:

python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
  --host 0.0.0.0 \
  --port 8000

启动成功后,可以使用 OpenAI 格式调用:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
      {"role": "user", "content": "请解释什么是 Transformer。"}
    ],
    "temperature": 0.7
  }'

Python 调用示例:

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    messages=[
        {"role": "user", "content": "请写一个 DeepSeek 部署方案。"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

vLLM 更适合开发者和企业使用,但对显卡、CUDA 环境和模型格式要求更高。如果你只是个人体验,建议优先选择 Ollama。


十六、如何选择模型版本?

部署 DeepSeek 时,模型选择非常关键。如果模型太大,硬件跑不动;如果模型太小,回答质量可能不够理想。

个人电脑推荐

如果你的电脑显存为 8GB,可以选择:

ollama run deepseek-r1:7b

如果显存较小,可以选择:

ollama run deepseek-r1:1.5b

普通服务器推荐

如果服务器显存为 16GB 或 24GB,可以选择:

ollama run deepseek-r1:14b

或者使用 vLLM 部署 7B / 14B 模型。

企业内网推荐

如果需要多人使用,建议:

  • 使用 vLLM 或 TGI 部署推理服务
  • 使用 Open WebUI 提供前端界面
  • 使用 Nginx 做反向代理
  • 使用 HTTPS 加密访问
  • 增加用户认证和访问控制
  • 对模型调用做日志记录和限流

十七、常见问题与解决方案

1. 模型下载很慢怎么办?

可以尝试:

  • 更换网络环境
  • 使用代理
  • 使用国内镜像源
  • 手动下载模型文件
  • 选择较小模型测试

如果只是验证部署流程,建议先拉取 1.5b7b 版本,成功后再下载更大的模型。


2. Ollama 服务无法访问怎么办?

先检查服务是否启动:

systemctl status ollama

检查端口:

netstat -tunlp | grep 11434

或者:

ss -tunlp | grep 11434

如果端口没有监听,可以重启:

sudo systemctl restart ollama

Docker 部署时,可以查看日志:

docker logs ollama

3. Open WebUI 访问不了怎么办?

检查容器状态:

docker ps

查看日志:

docker logs open-webui

确认端口映射是否正确:

docker port open-webui

如果是云服务器,还需要检查安全组是否开放 3000 端口。


4. 显存不足怎么办?

显存不足是本地部署大模型最常见的问题。可以尝试:

  • 换用更小的模型
  • 使用量化模型
  • 降低上下文长度
  • 关闭其他占用显存的程序
  • 使用 CPU 推理,但速度会变慢
  • 使用云服务器 GPU

5. 回答速度慢怎么办?

可能原因包括:

  • 模型参数过大
  • 显卡性能不足
  • 使用 CPU 推理
  • 并发请求过多
  • 上下文内容太长

优化方式:

  • 使用更小的模型
  • 使用 GPU 推理
  • 减少 prompt 长度
  • 使用 vLLM 提升并发能力
  • 对常见问题增加缓存

十八、生产环境部署建议

如果你打算将 DeepSeek 用于正式业务,不建议只用简单命令裸跑。生产环境建议从以下几个方面完善:

1. 使用 Docker 部署

Docker 能够隔离环境,便于迁移和升级。推荐使用 Docker Compose 管理多个服务。

2. 配置反向代理

使用 Nginx 或 Caddy 做统一入口,方便配置域名、HTTPS、访问日志和限流。

3. 增加身份认证

如果 Open WebUI 或 API 暴露到公网,一定要配置登录认证,不要将模型接口无保护地开放出去。

4. 做好权限控制

企业内部使用时,可以根据用户角色限制可访问的模型、知识库和功能。

5. 监控资源占用

建议监控:

  • GPU 使用率
  • 显存占用
  • CPU 使用率
  • 内存使用
  • 请求耗时
  • 并发数量

可以使用 nvidia-smi 查看显卡状态:

watch -n 1 nvidia-smi

6. 定期备份数据

如果你使用 Open WebUI,需要备份用户数据、聊天记录和配置文件。Docker Compose 部署时,本文已经将数据挂载到本地目录:

./open-webui
./ollama

定期备份这两个目录即可。


十九、完整一键部署脚本示例

如果你希望进一步简化流程,可以编写一个一键部署脚本。

创建脚本:

vim install-deepseek.sh

写入内容:

#!/bin/bash

set -e

echo "开始安装 Docker..."
if ! command -v docker >/dev/null 2>&1; then
  sudo apt update
  sudo apt install -y docker.io docker-compose
  sudo systemctl start docker
  sudo systemctl enable docker
else
  echo "Docker 已安装,跳过。"
fi

echo "创建部署目录..."
mkdir -p deepseek-deploy
cd deepseek-deploy

echo "生成 docker-compose.yml..."
cat > docker-compose.yml <

赋予执行权限:

chmod +x install-deepseek.sh

运行脚本:

./install-deepseek.sh

等待脚本执行完成后,访问:

http://服务器IP:3000

即可使用 DeepSeek。


二十、总结

本文从零开始介绍了 DeepSeek 的完整部署流程,包括本地部署、Ollama 快速运行、Docker Compose 一键部署、Open WebUI 可视化界面、API 调用、vLLM 高性能部署以及常见问题排查。

如果你是个人用户,推荐使用:

Ollama + DeepSeek-R1:7B

如果你希望拥有网页聊天界面,推荐使用:

Ollama + Open WebUI

如果你是企业用户,希望提供高并发 API 服务,推荐使用:

vLLM + DeepSeek Distill 模型 + Nginx + HTTPS + 权限控制

整体来看,DeepSeek 的私有化部署门槛已经大幅降低。通过 Ollama 和 Docker Compose,用户可以在几分钟内完成模型部署,并快速搭建自己的本地 AI 助手。对于重视数据安全、希望降低 API 成本、需要内网智能化能力的团队来说,DeepSeek 私有化部署是一条非常值得尝试的技术路线。

目录结构
全文