DeepSeek 从下载安装到上线接入:新手也能照着做的部署指南
DeepSeek 部署完整教程|零基础可学
DeepSeek 作为近几年备受关注的大语言模型之一,凭借较强的推理能力、较低的使用成本以及较好的中文表现,成为很多开发者、企业和个人学习 AI 部署的热门选择。对于零基础用户来说,最常见的问题是:DeepSeek 到底怎么部署?需要什么电脑配置?本地部署和服务器部署有什么区别?如何调用 API?如何接入自己的应用?
本文将从零基础角度出发,系统讲解 DeepSeek 的部署方式,包括:本地部署、服务器部署、API 调用、常见工具使用、性能优化以及常见问题排查。即使你没有太多编程经验,也可以按照本文一步一步完成部署。
一、DeepSeek 是什么?
DeepSeek 是一个大语言模型系列,常见的模型包括:
- DeepSeek-V3:通用对话能力较强,适合聊天、写作、总结、代码辅助等任务。
- DeepSeek-R1:偏向推理能力,适合数学、逻辑分析、复杂问题拆解等场景。
- DeepSeek-Coder:面向代码生成、代码解释、代码补全等编程任务。
- DeepSeek-R1-Distill 系列:蒸馏模型,体积相对更小,更适合个人电脑或普通服务器部署。
简单理解:
如果你只是想体验 DeepSeek,可以直接使用网页或 API;
如果你想在自己的电脑上运行,可以使用 Ollama、LM Studio 等工具;
如果你想提供给多人使用,建议部署到云服务器或 GPU 服务器上。
二、部署 DeepSeek 前需要了解的几个概念
在正式部署之前,先了解几个基础概念,这样后面的步骤会更容易理解。
1. 模型参数量
模型通常会标注为 1.5B、7B、14B、32B、70B 等。
其中:
B表示 Billion,即十亿参数。7B表示约 70 亿参数。- 参数越大,模型能力通常越强,但对硬件要求也越高。
对于零基础用户,建议从 1.5B、7B 或 8B 这类模型开始尝试。
2. 量化模型
量化是指把模型从高精度压缩成低精度,以降低显存和内存占用。
常见量化格式包括:
Q4:体积较小,速度快,适合普通电脑。Q5:效果和速度比较均衡。Q8:效果更好,但占用资源更多。
如果你的电脑配置一般,推荐选择 Q4_K_M 或类似量化版本。
3. 显存与内存
部署大模型最关键的是显存,也就是显卡内存。
大致参考如下:
| 模型规模 | 推荐显存 | 适合人群 |
|---|---|---|
| 1.5B | 4GB 以内 | 入门体验 |
| 7B / 8B | 6GB - 12GB | 普通个人电脑 |
| 14B | 16GB - 24GB | 高配电脑或服务器 |
| 32B | 24GB - 48GB | 专业工作站 |
| 70B+ | 80GB 以上 | 企业级 GPU 服务器 |
如果没有独立显卡,也可以用 CPU 跑小模型,但速度会比较慢。
三、DeepSeek 部署方式选择
DeepSeek 常见部署方式主要有四种:
| 部署方式 | 难度 | 适合对象 | 特点 |
|---|---|---|---|
| 官方 API | 低 | 普通用户、开发者 | 不需要本地硬件,直接调用 |
| Ollama 本地部署 | 低 | 零基础用户 | 安装简单,命令少 |
| LM Studio 本地部署 | 低 | 不想写命令的用户 | 图形界面,操作直观 |
| vLLM 服务器部署 | 中高 | 企业、开发者 | 高并发、高性能 |
如果你是零基础,推荐顺序是:
- 先用 API 体验
- 再用 Ollama 本地部署
- 需要图形界面就用 LM Studio
- 需要给多人用再考虑 vLLM
四、方式一:使用 DeepSeek API
如果你不想安装模型,也没有高性能电脑,那么使用 API 是最简单的方式。
1. API 方式适合哪些人?
适合:
- 想快速体验 DeepSeek 的用户;
- 想把 DeepSeek 接入网站、公众号、小程序、企业系统的开发者;
- 没有 GPU 服务器的人;
- 不想处理模型下载和部署问题的人。
API 的优点是不用自己维护模型,缺点是需要联网,并且可能产生调用费用。
2. API 调用基本流程
一般流程如下:
- 注册 DeepSeek 或兼容服务平台账号;
- 获取 API Key;
- 使用 Python、JavaScript 或其他语言调用接口;
- 将返回结果展示给用户。
3. Python 调用示例
下面是一个简单的 Python 示例。
from openai import OpenAI
client = OpenAI(
api_key="你的_API_KEY",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "你是一个专业的中文助手。"},
{"role": "user", "content": "请用通俗语言解释什么是大语言模型。"}
],
temperature=0.7
)
print(response.choices[0].message.content)
如果你要使用推理模型,可以将模型名换成对应的推理模型,例如:
model="deepseek-reasoner"
注意:不同平台的模型名称可能不同,实际使用时以对应平台文档为准。
4. API 调用常见参数说明
| 参数 | 作用 |
|---|---|
| model | 指定调用哪个模型 |
| messages | 对话消息列表 |
| temperature | 控制回答随机性 |
| max_tokens | 控制最大输出长度 |
| stream | 是否流式输出 |
其中,temperature 越高,回答越发散;越低,回答越稳定。
如果用于知识问答、客服、代码生成,建议设置为 0.2 - 0.7。
五、方式二:使用 Ollama 本地部署 DeepSeek
Ollama 是目前非常适合零基础用户的本地大模型部署工具。它的优点是安装简单、命令清晰、支持 Windows、macOS 和 Linux。
1. Ollama 的优点
- 安装简单;
- 支持一键拉取模型;
- 可以在本地运行,不依赖云端;
- 支持命令行对话;
- 默认提供本地 API;
- 可与 Open WebUI、AnythingLLM 等工具结合使用。
2. 安装 Ollama
打开 Ollama 官网下载安装包:
https://ollama.com
根据你的系统选择对应版本:
- Windows:下载安装包后直接安装;
- macOS:下载后拖入应用程序;
- Linux:可以使用官方安装脚本。
Linux 安装命令通常如下:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,在终端输入:
ollama -v
如果能看到版本号,说明安装成功。
3. 下载并运行 DeepSeek 模型
以 DeepSeek R1 蒸馏模型为例,可以执行:
ollama run deepseek-r1
如果你想指定较小版本,可以使用类似:
ollama run deepseek-r1:1.5b
或者:
ollama run deepseek-r1:7b
第一次运行时,Ollama 会自动下载模型。下载时间取决于你的网络速度和模型大小。
下载完成后,你就可以直接在终端里和模型对话。
例如输入:
请解释一下什么是递归,并用 Python 写一个例子。
模型会在本地生成回答。
4. 查看已下载模型
ollama list
输出可能类似:
NAME ID SIZE
deepseek-r1:7b xxxxxxxx 4.7GB
5. 删除模型
如果模型太大,占用磁盘空间,可以删除:
ollama rm deepseek-r1:7b
6. Ollama 本地 API 调用
Ollama 默认会在本地开启服务,地址通常是:
http://localhost:11434
你可以使用 curl 调用:
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "请介绍一下 DeepSeek 的特点。",
"stream": false
}'
也可以使用 Python 调用:
import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "deepseek-r1:7b",
"prompt": "请用简单语言解释什么是机器学习。",
"stream": False
}
response = requests.post(url, json=data)
print(response.json()["response"])
这样,你就可以把本地 DeepSeek 接入自己的程序中。
六、方式三:使用 LM Studio 图形化部署
如果你不喜欢命令行,可以选择 LM Studio。它是一个图形化本地大模型运行工具,非常适合初学者。
1. LM Studio 适合哪些人?
适合:
- 不熟悉命令行的用户;
- 想通过界面搜索、下载和运行模型的人;
- 想快速测试不同模型的人;
- 想使用本地 API 的开发者。
2. 安装 LM Studio
打开官网:
https://lmstudio.ai
下载适合你系统的版本,然后安装即可。
3. 下载 DeepSeek 模型
打开 LM Studio 后,一般流程如下:
- 进入模型搜索页面;
- 搜索
DeepSeek; - 选择合适的模型版本;
- 推荐选择 GGUF 格式;
- 根据你的电脑配置选择 Q4 或 Q5 量化版本;
- 点击下载。
如果你电脑配置一般,建议选择:
DeepSeek-R1-Distill-Qwen-7B-GGUF
并选择 Q4 量化版本。
4. 加载模型并开始聊天
下载完成后:
- 进入 Chat 页面;
- 选择刚下载的 DeepSeek 模型;
- 点击加载;
- 等待模型加载完成;
- 输入问题即可对话。
LM Studio 的优势是界面直观,对零基础非常友好。
5. 开启本地服务器
LM Studio 也可以开启本地 API 服务。
一般步骤:
- 打开 Local Server;
- 选择模型;
- 点击 Start Server;
- 复制 API 地址;
- 在程序中调用。
很多时候,LM Studio 的 API 与 OpenAI 格式兼容,因此你可以用类似 OpenAI SDK 的方式调用。
七、方式四:使用 vLLM 在服务器部署 DeepSeek
如果你希望多人同时使用 DeepSeek,或者想搭建企业内部 AI 服务,那么更推荐使用 vLLM。vLLM 是一个高性能大模型推理框架,适合 GPU 服务器部署。
1. vLLM 适合哪些场景?
适合:
- 企业内部知识助手;
- 多用户并发聊天系统;
- AI 应用后端服务;
- 需要高吞吐推理的场景;
- 部署到云服务器或私有服务器。
2. 服务器配置建议
如果部署 7B 或 8B 模型,建议配置:
- GPU:NVIDIA 显卡,显存 16GB 以上更好;
- 系统:Ubuntu 20.04 / 22.04;
- CUDA:建议使用与 PyTorch 兼容的版本;
- 内存:32GB 以上;
- 磁盘:至少 100GB 可用空间。
如果部署更大模型,需要更高显存或多卡环境。
3. 创建 Python 环境
建议使用 Conda:
conda create -n deepseek python=3.10 -y
conda activate deepseek
安装 vLLM:
pip install vllm
如果安装速度慢,可以配置国内镜像源。
4. 启动 OpenAI 兼容接口
假设你已经从 Hugging Face 或 ModelScope 下载了模型,可以使用如下命令启动:
python -m vllm.entrypoints.openai.api_server \
--model /path/to/deepseek-model \
--host 0.0.0.0 \
--port 8000
如果直接使用模型名称,也可以类似:
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
--host 0.0.0.0 \
--port 8000
启动成功后,服务地址为:
http://服务器IP:8000/v1
5. Python 调用服务器模型
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://服务器IP:8000/v1"
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
messages=[
{"role": "user", "content": "请帮我总结一下本地部署大模型的优缺点。"}
],
temperature=0.6
)
print(response.choices[0].message.content)
八、部署后如何接入网页应用?
部署完成后,很多人希望做一个简单聊天网页。常见方案有:
- 使用 Open WebUI;
- 使用 Chatbox;
- 自己写前端页面;
- 接入企业系统;
- 接入微信、飞书、钉钉机器人。
其中,Open WebUI 是比较适合零基础用户的方案。
1. Open WebUI 简介
Open WebUI 是一个开源大模型聊天界面,支持 Ollama,也支持 OpenAI 兼容接口。它可以让你像使用 ChatGPT 一样,通过网页和本地模型聊天。
2. 使用 Docker 安装 Open WebUI
如果你已经安装 Docker,可以执行:
docker run -d \
-p 3000:8080 \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
如果你要连接本机 Ollama,可以根据系统环境配置 Ollama 地址。
启动后访问:
http://localhost:3000
注册账号后,就可以在网页中使用 DeepSeek 模型。
九、如何选择适合自己的模型?
很多新手会纠结模型越大越好吗?答案是:不一定。
如果你只是普通聊天、写文章、做总结:
7B 或 8B 模型已经可以满足很多需求。
如果你需要复杂推理、代码分析、数学题:
可以尝试 14B、32B 或更大模型。
如果你电脑配置较低:
优先选择 1.5B 或 7B 的 Q4 量化模型。
如果你追求响应速度:
选择小模型,或者使用 API。
如果你追求回答质量:
选择更大模型,或者使用云端高性能服务。
十、本地部署与云端 API 的优缺点对比
| 对比项 | 本地部署 | 云端 API |
|---|---|---|
| 成本 | 前期硬件成本高,后续成本低 | 按量付费 |
| 隐私 | 数据保存在本地 | 数据发送到服务端 |
| 速度 | 取决于本地硬件 | 取决于网络和服务商 |
| 维护 | 需要自己安装和排错 | 基本无需维护 |
| 扩展 | 可高度自定义 | 受平台限制 |
| 适合人群 | 技术爱好者、企业内网 | 普通开发者、快速上线项目 |
如果你关注数据隐私,建议本地部署;
如果你关注快速上线,建议使用 API。
十一、常见问题与解决方案
1. 模型下载很慢怎么办?
可以尝试:
- 更换网络环境;
- 使用国内镜像;
- 使用 ModelScope 下载;
- 选择较小模型;
- 避开高峰时段。
2. 运行模型时电脑很卡怎么办?
原因可能是模型太大,建议:
- 换成更小的模型;
- 使用 Q4 量化版本;
- 关闭其他占用内存的软件;
- 如果没有独立显卡,尽量使用小模型;
- 降低上下文长度。
3. 显存不够怎么办?
可以尝试:
- 选择 1.5B、7B 等小模型;
- 使用量化模型;
- 减小
context length; - 关闭其他占用 GPU 的程序;
- 使用 CPU 运行,但速度会变慢;
- 改用云端 API。
4. Ollama 提示模型不存在怎么办?
可能是模型名称写错。可以先查看 Ollama 模型库,确认模型名称。
例如:
ollama run deepseek-r1:7b
不要随意加空格或写错标签。
5. API 调用失败怎么办?
检查以下内容:
- API Key 是否正确;
- base_url 是否正确;
- 模型名称是否正确;
- 网络是否正常;
- 请求格式是否符合文档;
- 是否还有余额或额度;
- 是否触发限流。
6. 本地接口无法访问怎么办?
如果你部署在服务器上,需要检查:
- 服务是否启动;
- 端口是否开放;
- 防火墙是否放行;
- 云服务器安全组是否允许访问;
- host 是否设置为
0.0.0.0; - 本地是否能 curl 通。
十二、性能优化建议
部署成功只是第一步,如果想让 DeepSeek 运行更流畅,可以从以下方面优化。
1. 选择合适模型
模型越大,推理越慢。不要盲目追求最大模型。
普通用户优先考虑:
DeepSeek-R1-Distill-Qwen-7B
或其他同级别模型。
2. 使用量化版本
对于个人电脑,量化模型非常重要。
推荐优先选择:
Q4_K_M
如果配置更好,可以选择:
Q5_K_M
3. 控制上下文长度
上下文越长,模型需要处理的信息越多,速度越慢。
如果不是必须,不要设置过大的上下文长度。
4. 使用流式输出
流式输出可以让用户更快看到回答,而不是等待全部生成完成。
在 API 中通常设置:
stream=True
5. 使用 GPU 加速
如果你的设备有 NVIDIA 显卡,建议优先使用 GPU。
GPU 对大模型推理速度提升非常明显。
十三、推荐部署路线
如果你是完全零基础,可以按照以下路线学习:
第一步:使用 API
先了解 DeepSeek 能做什么,不要一开始就折腾本地部署。
目标:
- 能调用 DeepSeek;
- 能写一个简单 Python 请求;
- 能理解 messages、model、temperature 等参数。
第二步:使用 Ollama 本地部署
目标:
- 能安装 Ollama;
- 能运行
ollama run deepseek-r1:7b; - 能通过本地 API 调用模型。
第三步:使用 Open WebUI
目标:
- 搭建一个网页聊天界面;
- 通过浏览器使用本地模型;
- 理解前端界面和模型服务的关系。
第四步:学习 vLLM
目标:
- 在服务器部署模型;
- 提供 OpenAI 兼容接口;
- 支持多人访问;
- 为企业应用做准备。
十四、一个完整的零基础实践方案
下面给出一个最简单、最稳妥的实践方案。
电脑配置
假设你的电脑是普通 Windows 或 macOS,有 16GB 内存,显卡一般。
推荐方案
使用:
Ollama + DeepSeek-R1 7B + Open WebUI
操作步骤
1. 安装 Ollama
访问:
https://ollama.com
下载安装。
2. 拉取模型
打开终端执行:
ollama run deepseek-r1:7b
3. 测试对话
输入:
请帮我制定一个学习 Python 的计划。
如果模型能正常回复,说明本地部署成功。
4. 安装 Docker
访问 Docker 官网下载安装 Docker Desktop。
5. 启动 Open WebUI
执行:
docker run -d \
-p 3000:8080 \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
6. 打开网页
浏览器访问:
http://localhost:3000
完成注册后,就可以在网页中使用 DeepSeek。
十五、部署 DeepSeek 可以做什么?
部署完成后,你可以实现很多应用:
- 本地 AI 聊天助手;
- 私人写作助手;
- 代码解释工具;
- 企业知识库问答;
- 客服机器人;
- 文档总结系统;
- 学习辅导助手;
- 数据分析助手;
- 内网智能问答系统;
- 自动化办公工具。
如果结合 RAG 技术,还可以让 DeepSeek 读取你的本地文档、企业资料、产品手册,从而回答更贴近业务的问题。
十六、总结
DeepSeek 的部署并没有想象中复杂。对于零基础用户来说,最重要的是选择合适的方式,而不是一开始就追求最强模型或最复杂架构。
如果你只是想快速体验,推荐使用 DeepSeek API;
如果你想在自己电脑上运行,推荐使用 Ollama;
如果你不喜欢命令行,推荐使用 LM Studio;
如果你想搭建多人可用的服务,推荐使用 vLLM;
如果你想要网页聊天界面,可以搭配 Open WebUI。
最推荐的新手路线是:
API 体验 → Ollama 本地部署 → Open WebUI 网页化 → vLLM 服务器部署
只要按照本文步骤操作,你就可以从零开始完成 DeepSeek 的部署,并逐步把它接入自己的应用场景中。对于个人学习者来说,这是理解大模型运行原理的好机会;对于开发者和企业来说,这也是构建 AI 应用的重要基础。