DeepSeek 本地部署实战：从服务器选型到配置文件落地

发布人：慈云数据-客服中心发布时间：2026-06-07 02:28 阅读量：218

DeepSeek 私有化部署方案｜附配置文件

随着大模型在企业内部知识问答、代码辅助、智能客服、数据分析、流程自动化等场景中的应用越来越广泛，越来越多企业开始关注 DeepSeek 私有化部署。相比直接调用公有云 API，私有化部署能够更好地满足数据安全、权限控制、合规审计、低延迟访问以及成本可控等需求。

本文将围绕 DeepSeek 模型的私有化部署方案展开，介绍整体架构、硬件选型、部署方式、推理服务配置、接口代理、权限控制、监控运维等内容，并附上可直接参考的配置文件示例。

一、为什么要做 DeepSeek 私有化部署？

DeepSeek 系列模型在推理能力、代码能力、数学能力和中文理解方面表现优秀，适合企业构建本地大模型应用平台。私有化部署的核心价值主要体现在以下几个方面。

1. 数据安全可控

企业内部通常涉及大量敏感数据，例如：

客户资料
合同文档
财务数据
研发代码
内部知识库
业务流程数据

如果直接将这些数据发送到第三方模型服务，可能存在数据泄露、合规风险和审计困难等问题。私有化部署可以让数据始终停留在企业内网环境中，降低外部传输风险。

2. 满足合规与审计要求

金融、政务、医疗、能源、制造等行业往往对数据存储、访问、日志留痕有严格要求。私有化部署能够配合企业已有的 IAM、堡垒机、日志审计、网络隔离等体系，实现更细粒度的安全控制。

3. 降低长期调用成本

如果企业大规模、高频率调用大模型 API，长期成本可能非常高。私有化部署虽然前期需要投入 GPU 服务器，但当调用量达到一定规模后，整体成本会更加可控。

4. 便于模型微调和知识增强

私有化部署后，可以结合企业内部知识库、向量数据库、RAG 检索增强、LoRA 微调等技术，构建更适合自身业务的专属大模型能力。

二、DeepSeek 私有化部署总体架构

一个较完整的 DeepSeek 私有化部署架构通常包括以下几个层次：

用户端 / 业务系统
        |
        v
统一 API 网关 / Nginx / Kong
        |
        v
大模型服务层
vLLM / Ollama / TGI / LMDeploy
        |
        v
DeepSeek 模型权重
        |
        v
GPU 计算资源
NVIDIA GPU / CUDA / 驱动
        |
        v
基础设施
Linux / Docker / Kubernetes / 监控日志

如果企业要建设完整的大模型平台，还可以继续扩展：

                    +----------------------+
                    |   Web 前端 / Chat UI |
                    +----------+-----------+
                               |
                               v
+------------------+   +-------+--------+   +------------------+
|  企业业务系统    |-->| API Gateway    |-->| 权限认证 / 审计  |
+------------------+   +-------+--------+   +------------------+
                               |
                               v
                    +----------+-----------+
                    | DeepSeek 推理服务    |
                    | vLLM / Ollama / TGI |
                    +----------+-----------+
                               |
          +--------------------+--------------------+
          |                                         |
          v                                         v
+------------------+                      +------------------+
| 向量数据库       |                      | 日志监控系统     |
| Milvus/FAISS     |                      | Prometheus/Grafana|
+------------------+                      +------------------+

三、模型选择建议

DeepSeek 模型有不同规模和不同用途的版本。企业在私有化部署时，不能只看模型参数量，还需要结合业务需求、显存资源、并发量、响应速度和预算进行选择。

1. 通用对话场景

适合客服问答、知识助手、办公助手、文档总结等场景。

可选择：

DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-V3 相关版本

如果企业只是构建内部知识库问答系统，7B 或 14B 模型往往已经可以满足基础需求。若需要更强推理能力，可以考虑 32B 或更大模型。

2. 代码辅助场景

适合代码生成、代码解释、单元测试生成、SQL 生成、代码审查等场景。

可选择：

DeepSeek-Coder 系列
DeepSeek-R1-Distill-Qwen 系列
DeepSeek-V3

对于研发团队内部使用，如果代码上下文较长，需要特别关注模型上下文长度以及推理框架是否支持较长 context。

3. 推理和复杂问答场景

适合数学推理、复杂逻辑分析、决策辅助、数据分析等场景。

可选择：

DeepSeek-R1
DeepSeek-R1-Distill 系列

R1 系列在推理能力上表现较好，但推理过程可能更长，响应速度和成本需要提前评估。

四、硬件资源规划

DeepSeek 私有化部署对硬件要求主要集中在 GPU 显存、GPU 算力、内存、磁盘和网络。

1. GPU 显存参考

不同模型规模对显存的需求差异较大。以下为常见经验值，仅供参考：

模型规模	FP16 推理显存参考	量化后显存参考	适用场景
7B	14GB - 20GB	6GB - 10GB	个人测试、小团队应用
14B	28GB - 40GB	12GB - 20GB	企业轻量问答
32B	64GB - 80GB	24GB - 40GB	中等复杂推理
70B	140GB+	48GB - 80GB+	高质量生产服务
671B MoE	多机多卡	多机多卡	大规模企业级集群

如果是生产环境，建议优先选择支持高显存的 GPU，例如：

NVIDIA A10 / A30
NVIDIA A100 40GB / 80GB
NVIDIA H100
NVIDIA L20 / L40 / L40S
国产 GPU 需根据推理框架适配情况评估

2. CPU、内存与磁盘

推荐配置如下：

资源	测试环境	生产环境
CPU	8 核以上	32 核以上
内存	32GB 以上	128GB 以上
磁盘	200GB SSD	1TB NVMe SSD
网络	千兆	万兆或更高
操作系统	Ubuntu 22.04 / Rocky Linux	Ubuntu 22.04 / Rocky Linux

模型权重文件通常较大，建议使用 NVMe SSD，避免模型加载时间过长。

五、部署方式选择

DeepSeek 私有化部署常见方式有三种：

1. Ollama 部署

Ollama 的优势是简单、易用、适合个人或小团队快速体验。缺点是生产级高并发能力和精细化调优能力相对有限。

适合场景：

本地测试
小团队内部助手
快速原型验证
轻量级 RAG 应用

2. vLLM 部署

vLLM 是当前大模型推理服务中非常常用的方案，支持 OpenAI 兼容接口，具备较好的吞吐能力和并发性能。其核心优势包括：

支持 OpenAI API 格式
支持 PagedAttention
支持连续批处理
支持张量并行
支持多卡部署
适合生产环境

对于企业生产部署，推荐优先考虑 vLLM。

3. Kubernetes 部署

当企业需要弹性扩缩容、多服务编排、统一资源调度、灰度发布和高可用时，可以将 vLLM 部署在 Kubernetes 集群中。

适合场景：

多团队共享大模型服务
大规模并发调用
多模型统一管理
与企业云原生体系集成

六、基于 Docker Compose 的 vLLM 部署方案

下面给出一个比较通用的 Docker Compose 部署方案。该方案适合单机单卡或单机多卡部署 DeepSeek 模型，并通过 OpenAI 兼容 API 对外提供服务。

1. 目录结构

deepseek-deploy/
├── docker-compose.yml
├── nginx/
│   └── nginx.conf
├── logs/
├── models/
│   └── deepseek/
└── scripts/
    └── start.sh

其中：

models/ 用于存放模型权重；
nginx/ 用于存放反向代理配置；
logs/ 用于存放服务日志；
docker-compose.yml 用于编排 vLLM 和 Nginx 服务。

七、vLLM Docker Compose 配置文件

以下配置以 DeepSeek-R1-Distill-Qwen-14B 为例。如果使用其他模型，只需要修改模型路径或模型名称即可。

`docker-compose.yml`

version: "3.9"

services:
  deepseek-vllm:
    image: vllm/vllm-openai:latest
    container_name: deepseek-vllm
    restart: always
    ipc: host
    runtime: nvidia
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
      - NVIDIA_DRIVER_CAPABILITIES=compute,utility
      - HF_HOME=/root/.cache/huggingface
      - TRANSFORMERS_CACHE=/root/.cache/huggingface
    volumes:
      - ./models:/models
      - ./logs:/logs
      - ~/.cache/huggingface:/root/.cache/huggingface
    ports:
      - "8000:8000"
    command:
      - --model
      - /models/deepseek/DeepSeek-R1-Distill-Qwen-14B
      - --served-model-name
      - deepseek-r1-14b
      - --host
      - 0.0.0.0
      - --port
      - "8000"
      - --tensor-parallel-size
      - "1"
      - --gpu-memory-utilization
      - "0.90"
      - --max-model-len
      - "32768"
      - --trust-remote-code
      - --dtype
      - auto

  nginx:
    image: nginx:1.25
    container_name: deepseek-nginx
    restart: always
    depends_on:
      - deepseek-vllm
    ports:
      - "8080:8080"
    volumes:
      - ./nginx/nginx.conf:/etc/nginx/nginx.conf:ro
      - ./logs:/var/log/nginx

参数说明

参数	说明
`--model`	模型路径，可以是本地路径，也可以是 Hugging Face 模型名
`--served-model-name`	对外暴露的模型名称
`--tensor-parallel-size`	张量并行数量，多卡部署时设置为 GPU 数量
`--gpu-memory-utilization`	GPU 显存使用比例
`--max-model-len`	最大上下文长度
`--trust-remote-code`	允许加载模型自定义代码
`--dtype`	数据类型，可设置 auto、float16、bfloat16 等

八、Nginx 反向代理配置

生产环境中，不建议直接暴露 vLLM 服务端口，而应通过 Nginx、Kong、APISIX 等网关统一接入。下面是一个简单的 Nginx 配置示例。

`nginx/nginx.conf`

worker_processes auto;

events {
    worker_connections 4096;
}

http {
    include       mime.types;
    default_type  application/json;

    sendfile on;
    tcp_nopush on;
    tcp_nodelay on;

    keepalive_timeout  300;
    client_max_body_size 50m;

    access_log /var/log/nginx/deepseek_access.log;
    error_log  /var/log/nginx/deepseek_error.log warn;

    upstream deepseek_backend {
        server deepseek-vllm:8000;
        keepalive 128;
    }

    server {
        listen 8080;
        server_name _;

        location /health {
            return 200 '{"status":"ok"}';
        }

        location /v1/ {
            proxy_pass http://deepseek_backend/v1/;
            proxy_http_version 1.1;

            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $remote_addr;
            proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

            proxy_connect_timeout 300s;
            proxy_send_timeout 300s;
            proxy_read_timeout 300s;

            proxy_buffering off;
            proxy_cache off;
        }
    }
}

部署完成后，外部业务系统可以通过以下地址访问：

http://服务器IP:8080/v1/chat/completions

九、服务启动脚本

为了方便启动和检查服务，可以编写一个简单的脚本。

`scripts/start.sh`

#!/usr/bin/env bash

set -e

echo "检查 NVIDIA GPU..."
nvidia-smi

echo "启动 DeepSeek vLLM 服务..."
docker compose up -d

echo "等待服务启动..."
sleep 10

echo "查看容器状态..."
docker ps

echo "测试模型服务..."
curl http://127.0.0.1:8080/v1/models

echo "DeepSeek 私有化部署启动完成。"

赋予执行权限：

chmod +x scripts/start.sh

启动服务：

./scripts/start.sh

十、API 调用示例

vLLM 提供 OpenAI 兼容接口，因此原有使用 OpenAI SDK 的应用可以较低成本迁移到私有化 DeepSeek 服务。

1. Curl 调用示例

curl http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1-14b",
    "messages": [
      {
        "role": "system",
        "content": "你是企业内部知识助手，请使用简洁、准确的中文回答问题。"
      },
      {
        "role": "user",
        "content": "请介绍一下 DeepSeek 私有化部署的优势。"
      }
    ],
    "temperature": 0.7,
    "max_tokens": 1024,
    "stream": false
  }'

2. Python 调用示例

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://127.0.0.1:8080/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1-14b",
    messages=[
        {"role": "system", "content": "你是企业内部智能助手。"},
        {"role": "user", "content": "请给出 DeepSeek 私有化部署的实施步骤。"}
    ],
    temperature=0.6,
    max_tokens=1024
)

print(response.choices[0].message.content)

十一、多卡部署配置

如果服务器有多张 GPU，可以通过 --tensor-parallel-size 进行张量并行。例如一台服务器有 4 张 GPU：

command:
  - --model
  - /models/deepseek/DeepSeek-R1-Distill-Qwen-32B
  - --served-model-name
  - deepseek-r1-32b
  - --host
  - 0.0.0.0
  - --port
  - "8000"
  - --tensor-parallel-size
  - "4"
  - --gpu-memory-utilization
  - "0.90"
  - --max-model-len
  - "32768"
  - --trust-remote-code

同时可以指定使用哪些 GPU：

environment:
  - NVIDIA_VISIBLE_DEVICES=0,1,2,3

如果一台机器部署多个模型服务，可以为不同容器绑定不同 GPU，例如：

environment:
  - NVIDIA_VISIBLE_DEVICES=0

或：

environment:
  - NVIDIA_VISIBLE_DEVICES=1

这样可以实现模型隔离部署。

十二、基于 Ollama 的轻量部署方案

如果只是进行测试或小规模使用，也可以选择 Ollama。它的部署更简单。

1. 安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

2. 拉取模型

ollama pull deepseek-r1:14b

3. 启动服务

Ollama 默认监听本地端口 11434。如果需要对局域网开放，可以配置环境变量。

`ollama.service` 示例

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"

[Install]
WantedBy=default.target

重新加载 systemd：

systemctl daemon-reload
systemctl enable ollama
systemctl restart ollama

4. Ollama API 调用示例

curl http://127.0.0.1:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1:14b",
    "messages": [
      {
        "role": "user",
        "content": "请解释什么是私有化大模型部署。"
      }
    ],
    "stream": false
  }'

十三、生产环境安全加固建议

私有化部署并不意味着天然安全。模型服务一旦暴露在网络中，仍然需要进行权限控制和安全加固。

1. 不直接暴露推理服务端口

vLLM 的 8000 端口建议只在内网访问，不应直接暴露到公网。所有请求应通过 API 网关进入。

2. 增加 API Key 校验

可以在 Nginx 或网关层增加简单的 Token 校验。例如 Nginx 可通过 Header 判断：

location /v1/ {
    if ($http_authorization != "Bearer your-secret-api-key") {
        return 401 '{"error":"unauthorized"}';
    }

    proxy_pass http://deepseek_backend/v1/;
    proxy_http_version 1.1;
    proxy_set_header Host $host;
    proxy_buffering off;
}

实际生产中更推荐使用 Kong、APISIX 或企业统一认证系统进行鉴权。

3. 配置访问白名单

只允许业务服务器或办公网段访问模型接口：

allow 10.0.0.0/8;
allow 192.168.0.0/16;
deny all;

4. 日志审计

建议记录以下信息：

调用方 IP
用户 ID
请求时间
模型名称
Token 消耗
响应耗时
错误码
请求链路 ID

注意：日志中不建议直接记录完整 Prompt 和回复内容，尤其是在涉及敏感数据时，应进行脱敏处理。

十四、监控与运维

生产环境部署 DeepSeek 后，需要关注 GPU、服务吞吐、响应耗时、错误率等指标。

1. GPU 监控

可以使用 NVIDIA DCGM Exporter：

version: "3.9"

services:
  dcgm-exporter:
    image: nvcr.io/nvidia/k8s/dcgm-exporter:latest
    container_name: dcgm-exporter
    restart: always
    runtime: nvidia
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
    ports:
      - "9400:9400"

Prometheus 可采集 9400 端口指标，再通过 Grafana 展示。

2. 关键监控指标

建议重点监控：

指标	说明
GPU 使用率	判断算力是否充分利用
GPU 显存使用率	防止 OOM
请求 QPS	评估调用压力
平均响应时间	衡量用户体验
P95/P99 延迟	判断高峰期性能
请求失败率	发现服务异常
Token 生成速度	评估推理性能
容器重启次数	判断稳定性

3. 日志轮转

模型服务日志可能增长很快，建议配置日志轮转。

`/etc/logrotate.d/deepseek`

/data/deepseek-deploy/logs/*.log {
    daily
    rotate 14
    compress
    missingok
    notifempty
    copytruncate
}

十五、性能优化建议

1. 合理设置上下文长度

--max-model-len 并不是越大越好。上下文越长，显存消耗越大，推理速度也会下降。如果业务主要是普通问答，可以设置为 8192 或 16384；如果是长文档问答，再考虑 32768 或更高。

2. 控制输出长度

业务系统应合理设置 max_tokens，避免用户一次请求生成过长内容，影响整体吞吐。

3. 使用流式输出

对于问答类应用，建议开启 stream: true。流式输出可以显著改善用户感知延迟。

4. 设置并发限流

在网关层针对不同应用设置 QPS 和并发限制，避免单个业务系统占满模型资源。

5. 量化部署

如果 GPU 显存不足，可以考虑使用 AWQ、GPTQ、GGUF 等量化模型。但量化可能带来一定精度损失，建议在业务数据集上测试后再上线。

十六、RAG 知识库集成方案

很多企业部署 DeepSeek 并不是为了让模型“凭空回答”，而是希望它基于内部知识库回答问题。此时建议使用 RAG 架构。

典型流程如下：

文档采集
  |
文档清洗与切分
  |
Embedding 向量化
  |
写入向量数据库
  |
用户提问
  |
问题向量化
  |
召回相关文档片段
  |
拼接 Prompt
  |
调用 DeepSeek
  |
生成答案并返回引用来源

常见组件选择：

模块	可选方案
文档解析	Unstructured、MinerU、PyMuPDF
向量模型	bge-large-zh、bge-m3、text2vec
向量数据库	Milvus、FAISS、Qdrant、Elasticsearch
编排框架	LangChain、LlamaIndex、Dify、FastGPT
推理模型	DeepSeek-R1、DeepSeek-V3、Distill 系列

对于企业知识库问答，建议答案中返回引用来源，降低幻觉风险。

十七、常见问题与排查

1. 容器启动后提示找不到 GPU

检查 NVIDIA 驱动和 Docker NVIDIA Runtime：

nvidia-smi
docker run --rm --runtime=nvidia --gpus all nvidia/cuda:12.2.0-base-ubuntu22.04 nvidia-smi

如果 Docker 无法识别 GPU，需要安装 nvidia-container-toolkit。

2. 模型加载时报 OOM

常见处理方式：

减小 --max-model-len
降低 --gpu-memory-utilization
使用更小模型
使用量化模型
增加 GPU 数量并设置 --tensor-parallel-size

3. 响应速度很慢

可以检查：

GPU 使用率是否过低
是否设置了过大的上下文长度
是否请求输出过长
是否并发过高
磁盘是否为机械盘
是否启用了流式输出

4. OpenAI SDK 调用失败

确认：

base_url 是否以 /v1 结尾
model 是否与 --served-model-name 一致
Nginx 是否正确转发
防火墙是否开放端口

十八、上线实施流程建议

企业级 DeepSeek 私有化部署不建议直接“一步上线”，可以按照以下流程推进：

需求调研：明确使用场景、用户规模、并发要求、数据安全要求。
模型选型：选择合适的 DeepSeek 版本，并进行效果评测。
硬件评估：根据模型规模和并发量规划 GPU 资源。
测试部署：使用 vLLM 或 Ollama 搭建测试环境。
业务验证：结合真实业务数据进行问答质量和响应速度测试。
安全加固：接入认证、限流、审计和访问控制。
生产部署：通过 Docker Compose 或 Kubernetes 上线服务。
监控告警：接入 Prometheus、Grafana、日志平台。
持续优化：根据调用数据优化 Prompt、RAG、模型和参数。

十九、推荐生产配置示例

如果是中型企业内部使用，推荐起步配置如下：

项目	推荐配置
模型	DeepSeek-R1-Distill-Qwen-14B / 32B
推理框架	vLLM
部署方式	Docker Compose 或 Kubernetes
GPU	A100 80GB 单卡或多卡
内存	128GB 以上
磁盘	1TB NVMe SSD
网关	Nginx / APISIX / Kong
监控	Prometheus + Grafana
日志	Loki / ELK
权限	API Key + 内网白名单 + IAM

如果企业并发量较小，14B 模型即可作为起步方案；如果对推理质量要求更高，可以部署 32B 或更大模型，并通过网关实现统一服务入口。

二十、总结

DeepSeek 私有化部署是一项涉及模型、算力、推理框架、网络、安全、监控和业务集成的系统工程。对于企业而言，推荐采用 vLLM + Docker Compose/Kubernetes + Nginx/API Gateway + Prometheus/Grafana 的组合方案，既能保证部署效率，又具备较好的生产可维护性。

在实际落地时，应优先明确业务目标，而不是盲目追求最大模型。对于知识库问答、内部助手、代码辅助等场景，可以先从 DeepSeek-R1-Distill-Qwen-14B 或 32B 开始验证，通过 RAG 增强知识准确性，再逐步扩展到更大模型和多机多卡集群。

最终，一个稳定可用的 DeepSeek 私有化平台，不仅仅是把模型跑起来，更重要的是做到：

数据安全可控；
接口稳定可靠；
权限边界清晰；
调用过程可审计；
成本与性能可平衡；
能够持续服务企业业务增长。

以上配置文件和部署方案可作为 DeepSeek 私有化部署的基础模板，企业可根据自身 GPU 资源、网络环境和安全规范进行调整。

文章标签： DeepSeek私有化部署 vLLM DockerCompose Nginx

上一篇：DeepSeek 本地私有化落地指南：部署架构、RAG 知识库与完整源码示例

下一篇：零基础搭建 DeepSeek：从本地运行到企业内网部署方案

更多栏目

新闻动态

文档中心

下载中心

目录结构

全文

产品与服务

新闻帮助

生态合作

了解我们

DeepSeek 本地部署实战：从服务器选型到配置文件落地

DeepSeek 私有化部署方案｜附配置文件

一、为什么要做 DeepSeek 私有化部署？

1. 数据安全可控

2. 满足合规与审计要求

3. 降低长期调用成本

4. 便于模型微调和知识增强

二、DeepSeek 私有化部署总体架构

三、模型选择建议

1. 通用对话场景

2. 代码辅助场景

3. 推理和复杂问答场景

四、硬件资源规划

1. GPU 显存参考

2. CPU、内存与磁盘

五、部署方式选择

1. Ollama 部署

2. vLLM 部署

3. Kubernetes 部署

六、基于 Docker Compose 的 vLLM 部署方案

1. 目录结构

七、vLLM Docker Compose 配置文件

docker-compose.yml

参数说明

八、Nginx 反向代理配置

nginx/nginx.conf

九、服务启动脚本

scripts/start.sh

十、API 调用示例

1. Curl 调用示例

2. Python 调用示例

十一、多卡部署配置

十二、基于 Ollama 的轻量部署方案

1. 安装 Ollama

2. 拉取模型

3. 启动服务

ollama.service 示例

4. Ollama API 调用示例

十三、生产环境安全加固建议

1. 不直接暴露推理服务端口

2. 增加 API Key 校验

3. 配置访问白名单

4. 日志审计

十四、监控与运维

1. GPU 监控

2. 关键监控指标

3. 日志轮转

/etc/logrotate.d/deepseek

十五、性能优化建议

1. 合理设置上下文长度

2. 控制输出长度

3. 使用流式输出

4. 设置并发限流

5. 量化部署

十六、RAG 知识库集成方案

十七、常见问题与排查

1. 容器启动后提示找不到 GPU

2. 模型加载时报 OOM

3. 响应速度很慢

4. OpenAI SDK 调用失败

十八、上线实施流程建议

十九、推荐生产配置示例

二十、总结

`docker-compose.yml`

`nginx/nginx.conf`

`scripts/start.sh`

`ollama.service` 示例

`/etc/logrotate.d/deepseek`