DeepSeek 从下载安装到上线接入：新手也能照着做的部署指南

发布人：慈云数据-客服中心发布时间：2026-06-07 02:45 阅读量：183

DeepSeek 部署完整教程｜零基础可学

DeepSeek 作为近几年备受关注的大语言模型之一，凭借较强的推理能力、较低的使用成本以及较好的中文表现，成为很多开发者、企业和个人学习 AI 部署的热门选择。对于零基础用户来说，最常见的问题是：DeepSeek 到底怎么部署？需要什么电脑配置？本地部署和服务器部署有什么区别？如何调用 API？如何接入自己的应用？

本文将从零基础角度出发，系统讲解 DeepSeek 的部署方式，包括：本地部署、服务器部署、API 调用、常见工具使用、性能优化以及常见问题排查。即使你没有太多编程经验，也可以按照本文一步一步完成部署。

一、DeepSeek 是什么？

DeepSeek 是一个大语言模型系列，常见的模型包括：

DeepSeek-V3：通用对话能力较强，适合聊天、写作、总结、代码辅助等任务。
DeepSeek-R1：偏向推理能力，适合数学、逻辑分析、复杂问题拆解等场景。
DeepSeek-Coder：面向代码生成、代码解释、代码补全等编程任务。
DeepSeek-R1-Distill 系列：蒸馏模型，体积相对更小，更适合个人电脑或普通服务器部署。

简单理解：

如果你只是想体验 DeepSeek，可以直接使用网页或 API；
如果你想在自己的电脑上运行，可以使用 Ollama、LM Studio 等工具；
如果你想提供给多人使用，建议部署到云服务器或 GPU 服务器上。

二、部署 DeepSeek 前需要了解的几个概念

在正式部署之前，先了解几个基础概念，这样后面的步骤会更容易理解。

1. 模型参数量

模型通常会标注为 1.5B、7B、14B、32B、70B 等。

其中：

B 表示 Billion，即十亿参数。
7B 表示约 70 亿参数。
参数越大，模型能力通常越强，但对硬件要求也越高。

对于零基础用户，建议从 1.5B、7B 或 8B 这类模型开始尝试。

2. 量化模型

量化是指把模型从高精度压缩成低精度，以降低显存和内存占用。

常见量化格式包括：

Q4：体积较小，速度快，适合普通电脑。
Q5：效果和速度比较均衡。
Q8：效果更好，但占用资源更多。

如果你的电脑配置一般，推荐选择 Q4_K_M 或类似量化版本。

3. 显存与内存

部署大模型最关键的是显存，也就是显卡内存。

大致参考如下：

模型规模	推荐显存	适合人群
1.5B	4GB 以内	入门体验
7B / 8B	6GB - 12GB	普通个人电脑
14B	16GB - 24GB	高配电脑或服务器
32B	24GB - 48GB	专业工作站
70B+	80GB 以上	企业级 GPU 服务器

如果没有独立显卡，也可以用 CPU 跑小模型，但速度会比较慢。

三、DeepSeek 部署方式选择

DeepSeek 常见部署方式主要有四种：

部署方式	难度	适合对象	特点
官方 API	低	普通用户、开发者	不需要本地硬件，直接调用
Ollama 本地部署	低	零基础用户	安装简单，命令少
LM Studio 本地部署	低	不想写命令的用户	图形界面，操作直观
vLLM 服务器部署	中高	企业、开发者	高并发、高性能

如果你是零基础，推荐顺序是：

先用 API 体验
再用 Ollama 本地部署
需要图形界面就用 LM Studio
需要给多人用再考虑 vLLM

四、方式一：使用 DeepSeek API

如果你不想安装模型，也没有高性能电脑，那么使用 API 是最简单的方式。

1. API 方式适合哪些人？

适合：

想快速体验 DeepSeek 的用户；
想把 DeepSeek 接入网站、公众号、小程序、企业系统的开发者；
没有 GPU 服务器的人；
不想处理模型下载和部署问题的人。

API 的优点是不用自己维护模型，缺点是需要联网，并且可能产生调用费用。

2. API 调用基本流程

一般流程如下：

注册 DeepSeek 或兼容服务平台账号；
获取 API Key；
使用 Python、JavaScript 或其他语言调用接口；
将返回结果展示给用户。

3. Python 调用示例

下面是一个简单的 Python 示例。

from openai import OpenAI

client = OpenAI(
    api_key="你的_API_KEY",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一个专业的中文助手。"},
        {"role": "user", "content": "请用通俗语言解释什么是大语言模型。"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

如果你要使用推理模型，可以将模型名换成对应的推理模型，例如：

model="deepseek-reasoner"

注意：不同平台的模型名称可能不同，实际使用时以对应平台文档为准。

4. API 调用常见参数说明

参数	作用
model	指定调用哪个模型
messages	对话消息列表
temperature	控制回答随机性
max_tokens	控制最大输出长度
stream	是否流式输出

其中，temperature 越高，回答越发散；越低，回答越稳定。
如果用于知识问答、客服、代码生成，建议设置为 0.2 - 0.7。

五、方式二：使用 Ollama 本地部署 DeepSeek

Ollama 是目前非常适合零基础用户的本地大模型部署工具。它的优点是安装简单、命令清晰、支持 Windows、macOS 和 Linux。

1. Ollama 的优点

安装简单；
支持一键拉取模型；
可以在本地运行，不依赖云端；
支持命令行对话；
默认提供本地 API；
可与 Open WebUI、AnythingLLM 等工具结合使用。

2. 安装 Ollama

打开 Ollama 官网下载安装包：

https://ollama.com

根据你的系统选择对应版本：

Windows：下载安装包后直接安装；
macOS：下载后拖入应用程序；
Linux：可以使用官方安装脚本。

Linux 安装命令通常如下：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，在终端输入：

ollama -v

如果能看到版本号，说明安装成功。

3. 下载并运行 DeepSeek 模型

以 DeepSeek R1 蒸馏模型为例，可以执行：

ollama run deepseek-r1

如果你想指定较小版本，可以使用类似：

ollama run deepseek-r1:1.5b

或者：

ollama run deepseek-r1:7b

第一次运行时，Ollama 会自动下载模型。下载时间取决于你的网络速度和模型大小。

下载完成后，你就可以直接在终端里和模型对话。

例如输入：

请解释一下什么是递归，并用 Python 写一个例子。

模型会在本地生成回答。

4. 查看已下载模型

ollama list

输出可能类似：

NAME                ID              SIZE
deepseek-r1:7b       xxxxxxxx        4.7GB

5. 删除模型

如果模型太大，占用磁盘空间，可以删除：

ollama rm deepseek-r1:7b

6. Ollama 本地 API 调用

Ollama 默认会在本地开启服务，地址通常是：

http://localhost:11434

你可以使用 curl 调用：

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "请介绍一下 DeepSeek 的特点。",
  "stream": false
}'

也可以使用 Python 调用：

import requests

url = "http://localhost:11434/api/generate"

data = {
    "model": "deepseek-r1:7b",
    "prompt": "请用简单语言解释什么是机器学习。",
    "stream": False
}

response = requests.post(url, json=data)
print(response.json()["response"])

这样，你就可以把本地 DeepSeek 接入自己的程序中。

六、方式三：使用 LM Studio 图形化部署

如果你不喜欢命令行，可以选择 LM Studio。它是一个图形化本地大模型运行工具，非常适合初学者。

1. LM Studio 适合哪些人？

适合：

不熟悉命令行的用户；
想通过界面搜索、下载和运行模型的人；
想快速测试不同模型的人；
想使用本地 API 的开发者。

2. 安装 LM Studio

打开官网：

https://lmstudio.ai

下载适合你系统的版本，然后安装即可。

3. 下载 DeepSeek 模型

打开 LM Studio 后，一般流程如下：

进入模型搜索页面；
搜索 DeepSeek；
选择合适的模型版本；
推荐选择 GGUF 格式；
根据你的电脑配置选择 Q4 或 Q5 量化版本；
点击下载。

如果你电脑配置一般，建议选择：

DeepSeek-R1-Distill-Qwen-7B-GGUF

并选择 Q4 量化版本。

4. 加载模型并开始聊天

下载完成后：

进入 Chat 页面；
选择刚下载的 DeepSeek 模型；
点击加载；
等待模型加载完成；
输入问题即可对话。

LM Studio 的优势是界面直观，对零基础非常友好。

5. 开启本地服务器

LM Studio 也可以开启本地 API 服务。

一般步骤：

打开 Local Server；
选择模型；
点击 Start Server；
复制 API 地址；
在程序中调用。

很多时候，LM Studio 的 API 与 OpenAI 格式兼容，因此你可以用类似 OpenAI SDK 的方式调用。

七、方式四：使用 vLLM 在服务器部署 DeepSeek

如果你希望多人同时使用 DeepSeek，或者想搭建企业内部 AI 服务，那么更推荐使用 vLLM。vLLM 是一个高性能大模型推理框架，适合 GPU 服务器部署。

1. vLLM 适合哪些场景？

适合：

企业内部知识助手；
多用户并发聊天系统；
AI 应用后端服务；
需要高吞吐推理的场景；
部署到云服务器或私有服务器。

2. 服务器配置建议

如果部署 7B 或 8B 模型，建议配置：

GPU：NVIDIA 显卡，显存 16GB 以上更好；
系统：Ubuntu 20.04 / 22.04；
CUDA：建议使用与 PyTorch 兼容的版本；
内存：32GB 以上；
磁盘：至少 100GB 可用空间。

如果部署更大模型，需要更高显存或多卡环境。

3. 创建 Python 环境

建议使用 Conda：

conda create -n deepseek python=3.10 -y
conda activate deepseek

安装 vLLM：

pip install vllm

如果安装速度慢，可以配置国内镜像源。

4. 启动 OpenAI 兼容接口

假设你已经从 Hugging Face 或 ModelScope 下载了模型，可以使用如下命令启动：

python -m vllm.entrypoints.openai.api_server \
  --model /path/to/deepseek-model \
  --host 0.0.0.0 \
  --port 8000

如果直接使用模型名称，也可以类似：

python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
  --host 0.0.0.0 \
  --port 8000

启动成功后，服务地址为：

http://服务器IP:8000/v1

5. Python 调用服务器模型

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://服务器IP:8000/v1"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    messages=[
        {"role": "user", "content": "请帮我总结一下本地部署大模型的优缺点。"}
    ],
    temperature=0.6
)

print(response.choices[0].message.content)

八、部署后如何接入网页应用？

部署完成后，很多人希望做一个简单聊天网页。常见方案有：

使用 Open WebUI；
使用 Chatbox；
自己写前端页面；
接入企业系统；
接入微信、飞书、钉钉机器人。

其中，Open WebUI 是比较适合零基础用户的方案。

1. Open WebUI 简介

Open WebUI 是一个开源大模型聊天界面，支持 Ollama，也支持 OpenAI 兼容接口。它可以让你像使用 ChatGPT 一样，通过网页和本地模型聊天。

2. 使用 Docker 安装 Open WebUI

如果你已经安装 Docker，可以执行：

docker run -d \
  -p 3000:8080 \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

如果你要连接本机 Ollama，可以根据系统环境配置 Ollama 地址。

启动后访问：

http://localhost:3000

注册账号后，就可以在网页中使用 DeepSeek 模型。

九、如何选择适合自己的模型？

很多新手会纠结模型越大越好吗？答案是：不一定。

如果你只是普通聊天、写文章、做总结：

7B 或 8B 模型已经可以满足很多需求。

如果你需要复杂推理、代码分析、数学题：

可以尝试 14B、32B 或更大模型。

如果你电脑配置较低：

优先选择 1.5B 或 7B 的 Q4 量化模型。

如果你追求响应速度：

选择小模型，或者使用 API。

如果你追求回答质量：

选择更大模型，或者使用云端高性能服务。

十、本地部署与云端 API 的优缺点对比

对比项	本地部署	云端 API
成本	前期硬件成本高，后续成本低	按量付费
隐私	数据保存在本地	数据发送到服务端
速度	取决于本地硬件	取决于网络和服务商
维护	需要自己安装和排错	基本无需维护
扩展	可高度自定义	受平台限制
适合人群	技术爱好者、企业内网	普通开发者、快速上线项目

如果你关注数据隐私，建议本地部署；
如果你关注快速上线，建议使用 API。

十一、常见问题与解决方案

1. 模型下载很慢怎么办？

可以尝试：

更换网络环境；
使用国内镜像；
使用 ModelScope 下载；
选择较小模型；
避开高峰时段。

2. 运行模型时电脑很卡怎么办？

原因可能是模型太大，建议：

换成更小的模型；
使用 Q4 量化版本；
关闭其他占用内存的软件；
如果没有独立显卡，尽量使用小模型；
降低上下文长度。

3. 显存不够怎么办？

可以尝试：

选择 1.5B、7B 等小模型；
使用量化模型；
减小 context length；
关闭其他占用 GPU 的程序；
使用 CPU 运行，但速度会变慢；
改用云端 API。

4. Ollama 提示模型不存在怎么办？

可能是模型名称写错。可以先查看 Ollama 模型库，确认模型名称。
例如：

ollama run deepseek-r1:7b

不要随意加空格或写错标签。

5. API 调用失败怎么办？

检查以下内容：

API Key 是否正确；
base_url 是否正确；
模型名称是否正确；
网络是否正常；
请求格式是否符合文档；
是否还有余额或额度；
是否触发限流。

6. 本地接口无法访问怎么办？

如果你部署在服务器上，需要检查：

服务是否启动；
端口是否开放；
防火墙是否放行；
云服务器安全组是否允许访问；
host 是否设置为 0.0.0.0；
本地是否能 curl 通。

十二、性能优化建议

部署成功只是第一步，如果想让 DeepSeek 运行更流畅，可以从以下方面优化。

1. 选择合适模型

模型越大，推理越慢。不要盲目追求最大模型。
普通用户优先考虑：

DeepSeek-R1-Distill-Qwen-7B

或其他同级别模型。

2. 使用量化版本

对于个人电脑，量化模型非常重要。
推荐优先选择：

Q4_K_M

如果配置更好，可以选择：

Q5_K_M

3. 控制上下文长度

上下文越长，模型需要处理的信息越多，速度越慢。
如果不是必须，不要设置过大的上下文长度。

4. 使用流式输出

流式输出可以让用户更快看到回答，而不是等待全部生成完成。

在 API 中通常设置：

stream=True

5. 使用 GPU 加速

如果你的设备有 NVIDIA 显卡，建议优先使用 GPU。
GPU 对大模型推理速度提升非常明显。

十三、推荐部署路线

如果你是完全零基础，可以按照以下路线学习：

第一步：使用 API

先了解 DeepSeek 能做什么，不要一开始就折腾本地部署。

目标：

能调用 DeepSeek；
能写一个简单 Python 请求；
能理解 messages、model、temperature 等参数。

第二步：使用 Ollama 本地部署

目标：

能安装 Ollama；
能运行 ollama run deepseek-r1:7b；
能通过本地 API 调用模型。

第三步：使用 Open WebUI

目标：

搭建一个网页聊天界面；
通过浏览器使用本地模型；
理解前端界面和模型服务的关系。

第四步：学习 vLLM

目标：

在服务器部署模型；
提供 OpenAI 兼容接口；
支持多人访问；
为企业应用做准备。

十四、一个完整的零基础实践方案

下面给出一个最简单、最稳妥的实践方案。

电脑配置

假设你的电脑是普通 Windows 或 macOS，有 16GB 内存，显卡一般。

操作步骤

1. 安装 Ollama

访问：

https://ollama.com

下载安装。

2. 拉取模型

打开终端执行：

ollama run deepseek-r1:7b

3. 测试对话

输入：

请帮我制定一个学习 Python 的计划。

如果模型能正常回复，说明本地部署成功。

4. 安装 Docker

访问 Docker 官网下载安装 Docker Desktop。

5. 启动 Open WebUI

执行：

docker run -d \
  -p 3000:8080 \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

6. 打开网页

浏览器访问：

http://localhost:3000

完成注册后，就可以在网页中使用 DeepSeek。

十五、部署 DeepSeek 可以做什么？

部署完成后，你可以实现很多应用：

本地 AI 聊天助手；
私人写作助手；
代码解释工具；
企业知识库问答；
客服机器人；
文档总结系统；
学习辅导助手；
数据分析助手；
内网智能问答系统；
自动化办公工具。

如果结合 RAG 技术，还可以让 DeepSeek 读取你的本地文档、企业资料、产品手册，从而回答更贴近业务的问题。

十六、总结

DeepSeek 的部署并没有想象中复杂。对于零基础用户来说，最重要的是选择合适的方式，而不是一开始就追求最强模型或最复杂架构。

如果你只是想快速体验，推荐使用 DeepSeek API；
如果你想在自己电脑上运行，推荐使用 Ollama；
如果你不喜欢命令行，推荐使用 LM Studio；
如果你想搭建多人可用的服务，推荐使用 vLLM；
如果你想要网页聊天界面，可以搭配 Open WebUI。

最推荐的新手路线是：

API 体验 → Ollama 本地部署 → Open WebUI 网页化 → vLLM 服务器部署

只要按照本文步骤操作，你就可以从零开始完成 DeepSeek 的部署，并逐步把它接入自己的应用场景中。对于个人学习者来说，这是理解大模型运行原理的好机会；对于开发者和企业来说，这也是构建 AI 应用的重要基础。

文章标签： DeepSeek部署 Ollama API调用 vLLM

上一篇：从安装到上线：DeepSeek 本地部署实战与完整源码示例

下一篇：DeepSeek 扛住高并发：从限流、缓存到模型网关的生产级架构方案

更多栏目

新闻动态

文档中心

下载中心

目录结构

全文

产品与服务

新闻帮助

生态合作

了解我们