上一篇 下一篇 分享链接 返回 返回顶部

DeepSeek 从下载安装到上线接入:新手也能照着做的部署指南

发布人:慈云数据-客服中心 发布时间:24小时前 阅读量:1

DeepSeek 部署完整教程|零基础可学

DeepSeek 作为近几年备受关注的大语言模型之一,凭借较强的推理能力、较低的使用成本以及较好的中文表现,成为很多开发者、企业和个人学习 AI 部署的热门选择。对于零基础用户来说,最常见的问题是:DeepSeek 到底怎么部署?需要什么电脑配置?本地部署和服务器部署有什么区别?如何调用 API?如何接入自己的应用?

本文将从零基础角度出发,系统讲解 DeepSeek 的部署方式,包括:本地部署、服务器部署、API 调用、常见工具使用、性能优化以及常见问题排查。即使你没有太多编程经验,也可以按照本文一步一步完成部署。


一、DeepSeek 是什么?

DeepSeek 是一个大语言模型系列,常见的模型包括:

  • DeepSeek-V3:通用对话能力较强,适合聊天、写作、总结、代码辅助等任务。
  • DeepSeek-R1:偏向推理能力,适合数学、逻辑分析、复杂问题拆解等场景。
  • DeepSeek-Coder:面向代码生成、代码解释、代码补全等编程任务。
  • DeepSeek-R1-Distill 系列:蒸馏模型,体积相对更小,更适合个人电脑或普通服务器部署。

简单理解:

如果你只是想体验 DeepSeek,可以直接使用网页或 API;
如果你想在自己的电脑上运行,可以使用 Ollama、LM Studio 等工具;
如果你想提供给多人使用,建议部署到云服务器或 GPU 服务器上。


二、部署 DeepSeek 前需要了解的几个概念

在正式部署之前,先了解几个基础概念,这样后面的步骤会更容易理解。

1. 模型参数量

模型通常会标注为 1.5B7B14B32B70B 等。

其中:

  • B 表示 Billion,即十亿参数。
  • 7B 表示约 70 亿参数。
  • 参数越大,模型能力通常越强,但对硬件要求也越高。

对于零基础用户,建议从 1.5B、7B 或 8B 这类模型开始尝试。


2. 量化模型

量化是指把模型从高精度压缩成低精度,以降低显存和内存占用。

常见量化格式包括:

  • Q4:体积较小,速度快,适合普通电脑。
  • Q5:效果和速度比较均衡。
  • Q8:效果更好,但占用资源更多。

如果你的电脑配置一般,推荐选择 Q4_K_M 或类似量化版本。


3. 显存与内存

部署大模型最关键的是显存,也就是显卡内存。

大致参考如下:

模型规模 推荐显存 适合人群
1.5B 4GB 以内 入门体验
7B / 8B 6GB - 12GB 普通个人电脑
14B 16GB - 24GB 高配电脑或服务器
32B 24GB - 48GB 专业工作站
70B+ 80GB 以上 企业级 GPU 服务器

如果没有独立显卡,也可以用 CPU 跑小模型,但速度会比较慢。


三、DeepSeek 部署方式选择

DeepSeek 常见部署方式主要有四种:

部署方式 难度 适合对象 特点
官方 API 普通用户、开发者 不需要本地硬件,直接调用
Ollama 本地部署 零基础用户 安装简单,命令少
LM Studio 本地部署 不想写命令的用户 图形界面,操作直观
vLLM 服务器部署 中高 企业、开发者 高并发、高性能

如果你是零基础,推荐顺序是:

  1. 先用 API 体验
  2. 再用 Ollama 本地部署
  3. 需要图形界面就用 LM Studio
  4. 需要给多人用再考虑 vLLM

四、方式一:使用 DeepSeek API

如果你不想安装模型,也没有高性能电脑,那么使用 API 是最简单的方式。

1. API 方式适合哪些人?

适合:

  • 想快速体验 DeepSeek 的用户;
  • 想把 DeepSeek 接入网站、公众号、小程序、企业系统的开发者;
  • 没有 GPU 服务器的人;
  • 不想处理模型下载和部署问题的人。

API 的优点是不用自己维护模型,缺点是需要联网,并且可能产生调用费用。


2. API 调用基本流程

一般流程如下:

  1. 注册 DeepSeek 或兼容服务平台账号;
  2. 获取 API Key;
  3. 使用 Python、JavaScript 或其他语言调用接口;
  4. 将返回结果展示给用户。

3. Python 调用示例

下面是一个简单的 Python 示例。

from openai import OpenAI

client = OpenAI(
    api_key="你的_API_KEY",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一个专业的中文助手。"},
        {"role": "user", "content": "请用通俗语言解释什么是大语言模型。"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

如果你要使用推理模型,可以将模型名换成对应的推理模型,例如:

model="deepseek-reasoner"

注意:不同平台的模型名称可能不同,实际使用时以对应平台文档为准。


4. API 调用常见参数说明

参数 作用
model 指定调用哪个模型
messages 对话消息列表
temperature 控制回答随机性
max_tokens 控制最大输出长度
stream 是否流式输出

其中,temperature 越高,回答越发散;越低,回答越稳定。
如果用于知识问答、客服、代码生成,建议设置为 0.2 - 0.7


五、方式二:使用 Ollama 本地部署 DeepSeek

Ollama 是目前非常适合零基础用户的本地大模型部署工具。它的优点是安装简单、命令清晰、支持 Windows、macOS 和 Linux。


1. Ollama 的优点

  • 安装简单;
  • 支持一键拉取模型;
  • 可以在本地运行,不依赖云端;
  • 支持命令行对话;
  • 默认提供本地 API;
  • 可与 Open WebUI、AnythingLLM 等工具结合使用。

2. 安装 Ollama

打开 Ollama 官网下载安装包:

https://ollama.com

根据你的系统选择对应版本:

  • Windows:下载安装包后直接安装;
  • macOS:下载后拖入应用程序;
  • Linux:可以使用官方安装脚本。

Linux 安装命令通常如下:

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,在终端输入:

ollama -v

如果能看到版本号,说明安装成功。


3. 下载并运行 DeepSeek 模型

以 DeepSeek R1 蒸馏模型为例,可以执行:

ollama run deepseek-r1

如果你想指定较小版本,可以使用类似:

ollama run deepseek-r1:1.5b

或者:

ollama run deepseek-r1:7b

第一次运行时,Ollama 会自动下载模型。下载时间取决于你的网络速度和模型大小。

下载完成后,你就可以直接在终端里和模型对话。

例如输入:

请解释一下什么是递归,并用 Python 写一个例子。

模型会在本地生成回答。


4. 查看已下载模型

ollama list

输出可能类似:

NAME                ID              SIZE
deepseek-r1:7b       xxxxxxxx        4.7GB

5. 删除模型

如果模型太大,占用磁盘空间,可以删除:

ollama rm deepseek-r1:7b

6. Ollama 本地 API 调用

Ollama 默认会在本地开启服务,地址通常是:

http://localhost:11434

你可以使用 curl 调用:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "请介绍一下 DeepSeek 的特点。",
  "stream": false
}'

也可以使用 Python 调用:

import requests

url = "http://localhost:11434/api/generate"

data = {
    "model": "deepseek-r1:7b",
    "prompt": "请用简单语言解释什么是机器学习。",
    "stream": False
}

response = requests.post(url, json=data)
print(response.json()["response"])

这样,你就可以把本地 DeepSeek 接入自己的程序中。


六、方式三:使用 LM Studio 图形化部署

如果你不喜欢命令行,可以选择 LM Studio。它是一个图形化本地大模型运行工具,非常适合初学者。


1. LM Studio 适合哪些人?

适合:

  • 不熟悉命令行的用户;
  • 想通过界面搜索、下载和运行模型的人;
  • 想快速测试不同模型的人;
  • 想使用本地 API 的开发者。

2. 安装 LM Studio

打开官网:

https://lmstudio.ai

下载适合你系统的版本,然后安装即可。


3. 下载 DeepSeek 模型

打开 LM Studio 后,一般流程如下:

  1. 进入模型搜索页面;
  2. 搜索 DeepSeek
  3. 选择合适的模型版本;
  4. 推荐选择 GGUF 格式;
  5. 根据你的电脑配置选择 Q4 或 Q5 量化版本;
  6. 点击下载。

如果你电脑配置一般,建议选择:

DeepSeek-R1-Distill-Qwen-7B-GGUF

并选择 Q4 量化版本。


4. 加载模型并开始聊天

下载完成后:

  1. 进入 Chat 页面;
  2. 选择刚下载的 DeepSeek 模型;
  3. 点击加载;
  4. 等待模型加载完成;
  5. 输入问题即可对话。

LM Studio 的优势是界面直观,对零基础非常友好。


5. 开启本地服务器

LM Studio 也可以开启本地 API 服务。

一般步骤:

  1. 打开 Local Server;
  2. 选择模型;
  3. 点击 Start Server;
  4. 复制 API 地址;
  5. 在程序中调用。

很多时候,LM Studio 的 API 与 OpenAI 格式兼容,因此你可以用类似 OpenAI SDK 的方式调用。


七、方式四:使用 vLLM 在服务器部署 DeepSeek

如果你希望多人同时使用 DeepSeek,或者想搭建企业内部 AI 服务,那么更推荐使用 vLLM。vLLM 是一个高性能大模型推理框架,适合 GPU 服务器部署。


1. vLLM 适合哪些场景?

适合:

  • 企业内部知识助手;
  • 多用户并发聊天系统;
  • AI 应用后端服务;
  • 需要高吞吐推理的场景;
  • 部署到云服务器或私有服务器。

2. 服务器配置建议

如果部署 7B 或 8B 模型,建议配置:

  • GPU:NVIDIA 显卡,显存 16GB 以上更好;
  • 系统:Ubuntu 20.04 / 22.04;
  • CUDA:建议使用与 PyTorch 兼容的版本;
  • 内存:32GB 以上;
  • 磁盘:至少 100GB 可用空间。

如果部署更大模型,需要更高显存或多卡环境。


3. 创建 Python 环境

建议使用 Conda:

conda create -n deepseek python=3.10 -y
conda activate deepseek

安装 vLLM:

pip install vllm

如果安装速度慢,可以配置国内镜像源。


4. 启动 OpenAI 兼容接口

假设你已经从 Hugging Face 或 ModelScope 下载了模型,可以使用如下命令启动:

python -m vllm.entrypoints.openai.api_server \
  --model /path/to/deepseek-model \
  --host 0.0.0.0 \
  --port 8000

如果直接使用模型名称,也可以类似:

python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
  --host 0.0.0.0 \
  --port 8000

启动成功后,服务地址为:

http://服务器IP:8000/v1

5. Python 调用服务器模型

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://服务器IP:8000/v1"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    messages=[
        {"role": "user", "content": "请帮我总结一下本地部署大模型的优缺点。"}
    ],
    temperature=0.6
)

print(response.choices[0].message.content)

八、部署后如何接入网页应用?

部署完成后,很多人希望做一个简单聊天网页。常见方案有:

  • 使用 Open WebUI;
  • 使用 Chatbox;
  • 自己写前端页面;
  • 接入企业系统;
  • 接入微信、飞书、钉钉机器人。

其中,Open WebUI 是比较适合零基础用户的方案。


1. Open WebUI 简介

Open WebUI 是一个开源大模型聊天界面,支持 Ollama,也支持 OpenAI 兼容接口。它可以让你像使用 ChatGPT 一样,通过网页和本地模型聊天。


2. 使用 Docker 安装 Open WebUI

如果你已经安装 Docker,可以执行:

docker run -d \
  -p 3000:8080 \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

如果你要连接本机 Ollama,可以根据系统环境配置 Ollama 地址。

启动后访问:

http://localhost:3000

注册账号后,就可以在网页中使用 DeepSeek 模型。


九、如何选择适合自己的模型?

很多新手会纠结模型越大越好吗?答案是:不一定。

如果你只是普通聊天、写文章、做总结:

7B 或 8B 模型已经可以满足很多需求。

如果你需要复杂推理、代码分析、数学题:

可以尝试 14B、32B 或更大模型。

如果你电脑配置较低:

优先选择 1.5B 或 7B 的 Q4 量化模型。

如果你追求响应速度:

选择小模型,或者使用 API。

如果你追求回答质量:

选择更大模型,或者使用云端高性能服务。

十、本地部署与云端 API 的优缺点对比

对比项 本地部署 云端 API
成本 前期硬件成本高,后续成本低 按量付费
隐私 数据保存在本地 数据发送到服务端
速度 取决于本地硬件 取决于网络和服务商
维护 需要自己安装和排错 基本无需维护
扩展 可高度自定义 受平台限制
适合人群 技术爱好者、企业内网 普通开发者、快速上线项目

如果你关注数据隐私,建议本地部署;
如果你关注快速上线,建议使用 API。


十一、常见问题与解决方案

1. 模型下载很慢怎么办?

可以尝试:

  • 更换网络环境;
  • 使用国内镜像;
  • 使用 ModelScope 下载;
  • 选择较小模型;
  • 避开高峰时段。

2. 运行模型时电脑很卡怎么办?

原因可能是模型太大,建议:

  • 换成更小的模型;
  • 使用 Q4 量化版本;
  • 关闭其他占用内存的软件;
  • 如果没有独立显卡,尽量使用小模型;
  • 降低上下文长度。

3. 显存不够怎么办?

可以尝试:

  • 选择 1.5B、7B 等小模型;
  • 使用量化模型;
  • 减小 context length
  • 关闭其他占用 GPU 的程序;
  • 使用 CPU 运行,但速度会变慢;
  • 改用云端 API。

4. Ollama 提示模型不存在怎么办?

可能是模型名称写错。可以先查看 Ollama 模型库,确认模型名称。
例如:

ollama run deepseek-r1:7b

不要随意加空格或写错标签。


5. API 调用失败怎么办?

检查以下内容:

  • API Key 是否正确;
  • base_url 是否正确;
  • 模型名称是否正确;
  • 网络是否正常;
  • 请求格式是否符合文档;
  • 是否还有余额或额度;
  • 是否触发限流。

6. 本地接口无法访问怎么办?

如果你部署在服务器上,需要检查:

  • 服务是否启动;
  • 端口是否开放;
  • 防火墙是否放行;
  • 云服务器安全组是否允许访问;
  • host 是否设置为 0.0.0.0
  • 本地是否能 curl 通。

十二、性能优化建议

部署成功只是第一步,如果想让 DeepSeek 运行更流畅,可以从以下方面优化。


1. 选择合适模型

模型越大,推理越慢。不要盲目追求最大模型。
普通用户优先考虑:

DeepSeek-R1-Distill-Qwen-7B

或其他同级别模型。


2. 使用量化版本

对于个人电脑,量化模型非常重要。
推荐优先选择:

Q4_K_M

如果配置更好,可以选择:

Q5_K_M

3. 控制上下文长度

上下文越长,模型需要处理的信息越多,速度越慢。
如果不是必须,不要设置过大的上下文长度。


4. 使用流式输出

流式输出可以让用户更快看到回答,而不是等待全部生成完成。

在 API 中通常设置:

stream=True

5. 使用 GPU 加速

如果你的设备有 NVIDIA 显卡,建议优先使用 GPU。
GPU 对大模型推理速度提升非常明显。


十三、推荐部署路线

如果你是完全零基础,可以按照以下路线学习:

第一步:使用 API

先了解 DeepSeek 能做什么,不要一开始就折腾本地部署。

目标:

  • 能调用 DeepSeek;
  • 能写一个简单 Python 请求;
  • 能理解 messages、model、temperature 等参数。

第二步:使用 Ollama 本地部署

目标:

  • 能安装 Ollama;
  • 能运行 ollama run deepseek-r1:7b
  • 能通过本地 API 调用模型。

第三步:使用 Open WebUI

目标:

  • 搭建一个网页聊天界面;
  • 通过浏览器使用本地模型;
  • 理解前端界面和模型服务的关系。

第四步:学习 vLLM

目标:

  • 在服务器部署模型;
  • 提供 OpenAI 兼容接口;
  • 支持多人访问;
  • 为企业应用做准备。

十四、一个完整的零基础实践方案

下面给出一个最简单、最稳妥的实践方案。

电脑配置

假设你的电脑是普通 Windows 或 macOS,有 16GB 内存,显卡一般。

推荐方案

使用:

Ollama + DeepSeek-R1 7B + Open WebUI

操作步骤

1. 安装 Ollama

访问:

https://ollama.com

下载安装。

2. 拉取模型

打开终端执行:

ollama run deepseek-r1:7b

3. 测试对话

输入:

请帮我制定一个学习 Python 的计划。

如果模型能正常回复,说明本地部署成功。

4. 安装 Docker

访问 Docker 官网下载安装 Docker Desktop。

5. 启动 Open WebUI

执行:

docker run -d \
  -p 3000:8080 \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

6. 打开网页

浏览器访问:

http://localhost:3000

完成注册后,就可以在网页中使用 DeepSeek。


十五、部署 DeepSeek 可以做什么?

部署完成后,你可以实现很多应用:

  • 本地 AI 聊天助手;
  • 私人写作助手;
  • 代码解释工具;
  • 企业知识库问答;
  • 客服机器人;
  • 文档总结系统;
  • 学习辅导助手;
  • 数据分析助手;
  • 内网智能问答系统;
  • 自动化办公工具。

如果结合 RAG 技术,还可以让 DeepSeek 读取你的本地文档、企业资料、产品手册,从而回答更贴近业务的问题。


十六、总结

DeepSeek 的部署并没有想象中复杂。对于零基础用户来说,最重要的是选择合适的方式,而不是一开始就追求最强模型或最复杂架构。

如果你只是想快速体验,推荐使用 DeepSeek API
如果你想在自己电脑上运行,推荐使用 Ollama
如果你不喜欢命令行,推荐使用 LM Studio
如果你想搭建多人可用的服务,推荐使用 vLLM
如果你想要网页聊天界面,可以搭配 Open WebUI

最推荐的新手路线是:

API 体验 → Ollama 本地部署 → Open WebUI 网页化 → vLLM 服务器部署

只要按照本文步骤操作,你就可以从零开始完成 DeepSeek 的部署,并逐步把它接入自己的应用场景中。对于个人学习者来说,这是理解大模型运行原理的好机会;对于开发者和企业来说,这也是构建 AI 应用的重要基础。

目录结构
全文