从零部署 Dify 企业知识库：私有化搭建、模型接入与运维命令全流程

发布人：慈云数据-客服中心发布时间：2026-06-07 07:32 阅读量：189

Dify 企业知识库搭建｜附完整命令

在企业数字化转型过程中，“知识库”已经不再只是文档管理系统，而是企业内部知识沉淀、智能问答、客服自动化、研发协作、销售赋能的重要基础设施。传统知识库往往依赖人工检索，员工需要在大量文档、制度、产品手册、FAQ、项目资料中反复查找信息，效率并不高。而随着大模型与 RAG（Retrieval-Augmented Generation，检索增强生成）技术的发展，企业可以将内部知识接入 AI 应用，让员工通过自然语言提问即可获得准确、可追溯的答案。

Dify 是一款开源的大模型应用开发平台，支持工作流编排、智能体、知识库、RAG、API 发布、多模型接入等能力，非常适合企业快速搭建内部 AI 知识库系统。本文将以企业私有化部署为目标，详细介绍如何使用 Docker Compose 搭建 Dify，并完成知识库创建、模型配置、文档导入、应用发布等操作。文章中会附上完整命令，方便直接复制执行。

一、Dify 是什么？

Dify 是一个面向大模型应用开发的开源平台，可以帮助企业快速构建 AI 应用。它的核心能力包括：

知识库管理：支持上传文档、网页、文本等资料，并通过向量检索实现知识问答。
RAG 应用构建：将企业文档与大模型结合，回答问题时自动检索相关知识。
Prompt 编排：可以自定义提示词、上下文变量、引用内容等。
工作流能力：支持复杂业务流程编排，例如多步骤问答、数据处理、API 调用。
多模型支持：支持 OpenAI、Azure OpenAI、Anthropic、DeepSeek、通义千问、智谱、Ollama、本地模型等。
API 发布：构建好的 AI 应用可以通过接口提供给业务系统调用。
团队协作：支持多成员管理，适合企业内部使用。

对于企业来说，Dify 的优势在于：它不是单纯的聊天机器人，而是一个可以承载企业 AI 应用落地的平台。你可以用它搭建内部制度问答、产品知识库、运维知识库、客服机器人、销售助手、研发文档助手等。

二、企业知识库整体架构

一个基于 Dify 的企业知识库通常由以下部分组成：

用户 / 员工
   ↓
Dify Web 应用 / API
   ↓
Dify 应用编排层
   ↓
知识库检索系统
   ↓
向量数据库 / 文档索引
   ↓
企业内部文档
   ↓
大语言模型生成答案

简单来说，流程如下：

企业上传内部文档到 Dify 知识库；
Dify 对文档进行分段、清洗和向量化；
用户在聊天应用中提问；
系统先从知识库中检索相关片段；
将检索到的内容作为上下文提交给大模型；
大模型根据知识内容生成回答；
用户获得自然语言答案，并可查看引用来源。

这种方式相比直接把问题丢给大模型更适合企业场景，因为它能显著降低“胡编乱造”的概率，同时能够让答案基于企业内部真实资料生成。

三、服务器环境准备

本文以 Linux 服务器部署为例，推荐使用 Ubuntu 22.04 LTS。Dify 支持 Docker Compose 部署，这是最简单、最稳定的方式之一。

1. 推荐服务器配置

如果只是测试或小规模内部使用，推荐配置如下：

项目	推荐配置
CPU	4 核及以上
内存	8GB 及以上
硬盘	50GB 及以上
系统	Ubuntu 20.04 / 22.04
部署方式	Docker Compose
网络	可访问模型 API 或本地模型服务

如果企业文档较多、用户并发较高，建议使用：

8 核 CPU 以上；
16GB 或 32GB 内存；
SSD 硬盘；
独立数据库；
独立向量数据库；
负载均衡与 HTTPS 网关。

四、安装基础依赖

首先登录服务器：

ssh root@你的服务器IP

更新系统软件包：

apt update && apt upgrade -y

安装常用工具：

apt install -y curl wget git vim ca-certificates gnupg lsb-release unzip

五、安装 Docker

如果服务器尚未安装 Docker，可以按照以下命令安装。

1. 卸载旧版本 Docker

apt remove -y docker docker-engine docker.io containerd runc

2. 添加 Docker 官方 GPG 密钥

install -m 0755 -d /etc/apt/keyrings

curl -fsSL https://download.docker.com/linux/ubuntu/gpg \
  | gpg --dearmor -o /etc/apt/keyrings/docker.gpg

chmod a+r /etc/apt/keyrings/docker.gpg

3. 添加 Docker 软件源

echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] \
  https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" \
  > /etc/apt/sources.list.d/docker.list

4. 安装 Docker Engine 和 Docker Compose 插件

apt update

apt install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

5. 启动 Docker 并设置开机自启

systemctl enable docker
systemctl start docker

6. 检查 Docker 版本

docker version
docker compose version

如果可以正常输出版本信息，说明 Docker 安装成功。

六、下载 Dify 源码

进入服务器目录，例如 /opt：

cd /opt

克隆 Dify 官方仓库：

git clone https://github.com/langgenius/dify.git

进入 Docker 部署目录：

cd /opt/dify/docker

查看目录文件：

ls -lah

通常可以看到如下文件：

docker-compose.yaml
.env.example
nginx
volumes
middleware.env.example

七、配置 Dify 环境变量

Dify 的 Docker 部署依赖 .env 文件。先复制示例配置：

cp .env.example .env

编辑 .env 文件：

vim .env

企业部署时，建议重点关注以下配置。

1. 配置访问域名

如果你有域名，例如：

dify.example.com

可以在后续 Nginx 或反向代理中绑定。Dify 本身也有一些 URL 配置项，例如：

CONSOLE_WEB_URL=http://你的服务器IP
APP_WEB_URL=http://你的服务器IP
SERVICE_API_URL=http://你的服务器IP

如果使用域名，则可以改为：

CONSOLE_WEB_URL=https://dify.example.com
APP_WEB_URL=https://dify.example.com
SERVICE_API_URL=https://dify.example.com

如果只是内网测试，可以先使用服务器 IP。

2. 配置密钥

.env 中通常会有一些密钥项，例如：

SECRET_KEY=

建议生成一个强随机密钥：

openssl rand -base64 42

将生成结果填入：

SECRET_KEY=你的随机密钥

3. 配置端口

默认情况下，Dify Web 服务通常通过 80 端口访问。如果服务器已有其他 Web 服务占用 80 端口，可以修改映射端口。例如将外部访问端口改为 8080。

在 docker-compose.yaml 或 .env 中根据实际版本查找 Nginx 暴露端口配置，例如：

EXPOSE_NGINX_PORT=80
EXPOSE_NGINX_SSL_PORT=443

如果需要改成 8080：

EXPOSE_NGINX_PORT=8080

访问时使用：

http://服务器IP:8080

4. 配置向量数据库

Dify 支持多种向量数据库，例如 Weaviate、Qdrant、Milvus、PGVector 等。对于中小型企业知识库，使用默认配置即可快速启动。如果需要更高性能和可扩展性，可以选择 Qdrant 或 Milvus。

常见配置项示例：

VECTOR_STORE=weaviate

如果使用 Qdrant，可能需要调整为：

VECTOR_STORE=qdrant
QDRANT_URL=http://qdrant:6333
QDRANT_API_KEY=

不同 Dify 版本的配置项可能略有差异，建议以当前 .env.example 为准。

八、启动 Dify

配置完成后，在 /opt/dify/docker 目录下执行：

docker compose up -d

查看容器启动状态：

docker compose ps

查看日志：

docker compose logs -f

如果只想查看 API 服务日志：

docker compose logs -f api

如果只想查看 Web 服务日志：

docker compose logs -f web

如果服务全部正常启动，浏览器访问：

http://你的服务器IP

如果修改了端口，例如 8080，则访问：

http://你的服务器IP:8080

九、初始化管理员账号

第一次访问 Dify 控制台时，系统会引导你创建管理员账号。通常需要填写：

管理员邮箱；
管理员用户名；
登录密码。

创建完成后即可进入 Dify 控制台。

建议企业部署时使用专门的管理员邮箱，并妥善保管初始账号。后续可以在后台邀请团队成员加入工作区。

十、配置大模型供应商

Dify 知识库问答需要大语言模型和 Embedding 模型支持。其中：

大语言模型负责生成最终回答；
Embedding 模型负责将文档和用户问题转换成向量，用于语义检索。

进入 Dify 控制台后，依次打开：

设置 → 模型供应商

你可以根据企业情况选择模型。

1. 使用 OpenAI

如果使用 OpenAI，需要准备 API Key。配置内容通常包括：

Provider: OpenAI
API Key: sk-xxxx

常用模型：

gpt-4o
gpt-4o-mini
text-embedding-3-small
text-embedding-3-large

其中 text-embedding-3-small 成本较低，适合普通知识库；text-embedding-3-large 效果更好，适合对检索质量要求较高的场景。

2. 使用 DeepSeek

如果企业希望降低成本，也可以选择 DeepSeek 等模型。配置时填写供应商提供的 API Key。

常见模型包括：

deepseek-chat
deepseek-reasoner

需要注意的是，DeepSeek 的聊天模型可以用于回答，但是否支持 Embedding 需要看当前供应商配置。如果缺少 Embedding 模型，可以搭配其他嵌入模型使用。

3. 使用通义千问

如果企业部署在国内云环境，也可以使用阿里云百炼平台的通义千问模型。常见模型包括：

qwen-plus
qwen-turbo
text-embedding-v3

这种方案对国内企业较友好，网络稳定性通常更好。

4. 使用 Ollama 本地模型

如果企业对数据安全要求较高，希望尽量避免调用外部模型 API，可以使用 Ollama 部署本地模型。先在服务器上安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

启动一个本地模型，例如 Qwen：

ollama pull qwen2.5:7b

运行模型：

ollama run qwen2.5:7b

如果需要 Embedding 模型，可以拉取：

ollama pull nomic-embed-text

在 Dify 中配置 Ollama 时，地址通常填写：

http://宿主机IP:11434

如果 Dify 容器访问宿主机服务，需要注意 Docker 网络问题。Linux 下可以通过宿主机内网 IP 或 Docker 网关 IP 访问。

查看 Docker 网关：

ip addr show docker0

通常类似：

172.17.0.1

则 Ollama 地址可以尝试：

http://172.17.0.1:11434

十一、创建企业知识库

完成模型配置后，就可以创建知识库了。

进入 Dify 控制台：

知识库 → 创建知识库

建议命名方式清晰，例如：

企业制度知识库
产品手册知识库
售后客服知识库
运维文档知识库
研发规范知识库

企业中不建议把所有资料都丢进同一个知识库。更合理的方式是按业务场景拆分，例如：

人事行政制度；
财务报销制度；
产品说明文档；
客服 FAQ；
技术运维文档；
销售话术资料；
法务合规资料。

这样做的好处是：

检索范围更准确；
权限边界更清晰；
后期维护更方便；
应用回答更稳定。

十二、上传企业文档

Dify 支持上传多种文档格式，常见包括：

PDF；
Word；
TXT；
Markdown；
HTML；
CSV；
Excel；
网页内容。

上传文档时，需要注意以下几点：

1. 文档内容要结构化

知识库效果很大程度取决于文档质量。建议尽量使用结构清晰的文档，例如：

# 报销制度

## 一、适用范围

本制度适用于公司全体正式员工。

## 二、报销流程

1. 员工提交报销申请；
2. 部门负责人审批；
3. 财务审核；
4. 打款。

## 三、注意事项

单张发票金额超过 5000 元需额外说明。

相比杂乱无章的文本，结构化文档更利于分段和检索。

2. 避免上传无效内容

不建议直接上传包含大量页眉、页脚、乱码、目录、广告、重复内容的文档。因为这些内容会干扰检索质量。

如果是 PDF 文档，建议先确认能否正常复制文本。如果 PDF 是扫描件，需要先 OCR 识别，否则知识库可能无法正确解析。

3. 合理设置分段策略

Dify 通常会提供分段设置，例如：

自动分段；
自定义分段符；
最大分段长度；
分段重叠长度；
父子分段模式。

一般来说，企业知识库可以采用以下经验值：

场景	分段长度建议	重叠长度建议
FAQ 问答	300 - 600 字	50 - 100 字
制度文档	500 - 1000 字	100 - 150 字
技术文档	800 - 1200 字	100 - 200 字
产品手册	600 - 1000 字	100 - 150 字

如果分段太短，上下文信息不足；如果分段太长，检索精度会下降。因此需要结合文档类型进行调整。

十三、构建知识库问答应用

知识库创建并完成索引后，就可以创建 AI 应用了。

进入：

工作室 → 创建应用

可以选择：

聊天助手

应用名称示例：

企业制度问答助手

创建后，在应用编排中添加知识库，并配置提示词。

十四、设置检索参数

知识库问答效果不仅取决于模型，也取决于检索参数。常见配置包括：

Top K；
Score Threshold；
Rerank；
引用显示；
混合检索；
向量检索；
全文检索。

1. Top K

Top K 表示每次问题检索返回多少个知识片段。建议：

Top K = 3 到 6

如果 Top K 太小，可能漏掉答案；如果太大，可能引入无关内容。

2. Score Threshold

Score Threshold 表示相似度阈值。阈值过高可能搜不到，阈值过低可能引入噪音。建议先设置为中等水平，然后根据测试结果调整。

3. Rerank

如果平台支持 Rerank，建议开启。Rerank 可以对初步检索结果重新排序，提高最终上下文质量。尤其在企业文档较多时，Rerank 能明显改善问答效果。

十五、发布应用并测试

配置完成后，可以点击“发布”或“更新”。然后在应用预览中测试问题。

例如企业制度知识库可以测试：

员工出差报销需要哪些材料？

请假超过三天需要谁审批？

试用期员工是否可以申请年假？

单张发票超过5000元如何处理？

测试时要重点观察：

回答是否基于知识库；
是否引用了正确文档；
是否出现编造内容；
是否回答过于笼统；
是否遗漏关键条件；
是否能处理无答案问题。

如果效果不好，可以从以下几个方向优化：

调整文档分段；
优化文档结构；
更换 Embedding 模型；
开启 Rerank；
调整 Top K；
优化 Prompt；
将知识库按业务拆分。

十六、通过 API 接入业务系统

Dify 应用可以发布 API，方便接入企业内部系统，例如 OA、CRM、客服系统、企业微信、钉钉、飞书等。

进入应用页面后，找到 API 访问入口，生成 API Key。

一个典型的调用示例如下：

curl -X POST 'http://你的服务器IP/v1/chat-messages' \
  --header 'Authorization: Bearer app-你的API密钥' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "inputs": {},
    "query": "员工出差报销需要哪些材料？",
    "response_mode": "blocking",
    "conversation_id": "",
    "user": "user-001"
  }'

如果使用流式响应：

curl -X POST 'http://你的服务器IP/v1/chat-messages' \
  --header 'Authorization: Bearer app-你的API密钥' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "inputs": {},
    "query": "请总结一下公司年假制度",
    "response_mode": "streaming",
    "conversation_id": "",
    "user": "user-001"
  }'

如果部署了 HTTPS 域名，则接口地址可以改成：

https://dify.example.com/v1/chat-messages

十七、配置 HTTPS 反向代理

企业正式使用时，建议配置 HTTPS。可以使用 Nginx Proxy Manager、宝塔面板、Caddy 或手动 Nginx。这里以宿主机 Nginx 为例。

1. 安装 Nginx

apt install -y nginx

2. 安装 Certbot

apt install -y certbot python3-certbot-nginx

3. 配置 Nginx 反向代理

假设 Dify 暴露在本机 8080 端口，域名是 dify.example.com，创建配置文件：

vim /etc/nginx/conf.d/dify.conf

写入：

server {
    listen 80;
    server_name dify.example.com;

    location / {
        proxy_pass http://127.0.0.1:8080;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;

        proxy_read_timeout 300s;
        proxy_send_timeout 300s;
    }
}

检查配置：

nginx -t

重载 Nginx：

systemctl reload nginx

申请 HTTPS 证书：

certbot --nginx -d dify.example.com

证书自动续期测试：

certbot renew --dry-run

十八、日常运维命令

Dify 企业知识库上线后，需要掌握一些常用运维命令。

1. 查看容器状态

cd /opt/dify/docker
docker compose ps

2. 查看全部日志

docker compose logs -f

3. 查看指定服务日志

docker compose logs -f api
docker compose logs -f worker
docker compose logs -f web
docker compose logs -f db
docker compose logs -f redis

4. 重启服务

docker compose restart

重启单个服务：

docker compose restart api

5. 停止服务

docker compose down

6. 启动服务

docker compose up -d

7. 更新 Dify

进入源码目录：

cd /opt/dify

拉取最新代码：

git pull

进入 Docker 目录：

cd /opt/dify/docker

拉取镜像并重启：

docker compose pull
docker compose up -d

查看状态：

docker compose ps

8. 清理无用镜像

docker system prune -f

如果要清理未使用的数据卷，需要谨慎执行：

docker volume prune

注意：数据卷可能包含数据库、向量库、上传文件等重要数据，正式环境不要随意删除。

十九、数据备份建议

企业知识库最重要的是数据安全。建议定期备份以下内容：

PostgreSQL 数据库；
向量数据库数据；
上传文件；
.env 配置文件；
Nginx 配置；
SSL 证书；
Dify 应用配置。

1. 备份 Dify Docker 目录

tar -czvf dify-docker-backup-$(date +%F).tar.gz /opt/dify/docker

2. 备份数据库

先查看数据库容器名称：

docker compose ps

假设数据库服务名为 db，可以执行：

docker compose exec db pg_dump -U postgres dify > dify-db-$(date +%F).sql

如果数据库名、用户名与实际不同，需要根据 .env 中配置调整。

3. 恢复数据库示例

cat dify-db-2025-01-01.sql | docker compose exec -T db psql -U postgres dify

4. 定时备份脚本示例

创建脚本：

vim /opt/backup-dify.sh

写入：

#!/bin/bash

BACKUP_DIR="/opt/dify-backups"
DATE=$(date +%F-%H%M%S)

mkdir -p ${BACKUP_DIR}

cd /opt/dify/docker || exit 1

tar -czf ${BACKUP_DIR}/dify-docker-${DATE}.tar.gz /opt/dify/docker

docker compose exec -T db pg_dump -U postgres dify > ${BACKUP_DIR}/dify-db-${DATE}.sql

find ${BACKUP_DIR} -type f -mtime +14 -delete

echo "Dify backup finished at ${DATE}"

添加执行权限：

chmod +x /opt/backup-dify.sh

添加定时任务：

crontab -e

每天凌晨 2 点备份：

0 2 * * * /opt/backup-dify.sh >> /opt/dify-backups/backup.log 2>&1

二十、企业落地最佳实践

1. 先从高频场景开始

企业知识库不要一开始就追求“大而全”。建议优先选择高频、规则明确、文档相对稳定的场景，例如：

人事制度问答；
财务报销问答；
产品售后 FAQ；
运维故障处理手册；
销售产品资料查询。

这些场景最容易验证价值，也更容易获得业务部门认可。

2. 建立知识维护机制

知识库不是一次性项目，而是持续运营系统。建议明确：

谁负责上传文档；
谁负责审核内容；
文档多久更新一次；
旧版本如何下架；
问答错误如何反馈；
敏感资料是否允许进入知识库。

3. 设置权限边界

不同部门的知识不一定适合所有员工访问。比如财务、法务、人事、研发资料都可能涉及敏感信息。企业应根据权限需求拆分知识库和应用，避免一个助手访问所有资料。

4. 关注回答可信度

企业 AI 知识库的重点不是“回答得像人”，而是“回答得可信”。因此建议开启引用来源，并要求模型在没有依据时明确说明无法回答。

5. 定期评估效果

可以建立一组标准测试问题，每次更新文档或调整模型后进行测试，例如：

正确率；
引用准确率；
无答案拒答率；
响应速度；
用户满意度；
幻觉率。

通过持续评估，才能让知识库越来越稳定。

二十一、常见问题排查

1. 页面无法访问

检查容器是否启动：

cd /opt/dify/docker
docker compose ps

查看端口监听：

ss -tulnp | grep 80