用 Docker 跑 AI 服务：从场景拆解到文本分类项目实战源码

发布人：慈云数据-客服中心发布时间：2026-06-09 13:46 阅读量：181

Docker AI应用场景分析｜附源码

一、引言

随着人工智能技术的快速发展，越来越多的企业和开发者开始将 AI 能力集成到实际业务系统中，例如智能客服、图像识别、文本生成、语音转写、推荐系统、智能运维等。然而，在 AI 应用落地过程中，经常会遇到一些非常现实的问题：

开发环境复杂，依赖库版本冲突；
模型运行环境难以复现；
Python、CUDA、PyTorch、TensorFlow 等版本匹配困难；
AI 服务部署成本高，迁移困难；
本地开发、测试环境和生产环境不一致；
多个 AI 服务之间需要统一管理和快速扩缩容。

Docker 的出现，极大地改善了这些问题。通过容器化技术，我们可以将 AI 应用所需的代码、模型、依赖、运行环境统一打包，从而实现“一次构建，到处运行”。

本文将围绕 Docker 在 AI 应用中的典型场景展开分析，并通过一个完整的 AI 文本分类服务示例，演示如何使用 Docker 构建、运行和部署 AI 应用。

二、Docker 为什么适合 AI 应用？

Docker 是一种轻量级容器化技术，它可以将应用程序及其依赖环境打包成镜像，并在不同平台上以一致的方式运行。对于 AI 应用来说，Docker 的价值尤其明显。

1. 环境一致性

AI 项目通常对运行环境要求较高，例如：

Python 版本；
NumPy、Pandas、Scikit-learn 等基础库版本；
PyTorch、TensorFlow 等深度学习框架版本；
CUDA、cuDNN 等 GPU 加速环境；
模型文件和配置文件路径。

如果没有容器化，开发者经常会遇到“我本地能跑，你服务器跑不了”的问题。而 Docker 可以将这些依赖封装在镜像中，确保开发、测试、生产环境高度一致。

2. 快速部署

传统部署 AI 服务时，需要在服务器上手动安装 Python、依赖库、模型文件和启动脚本。这个过程不仅繁琐，而且容易出错。

使用 Docker 后，只需要执行：

docker run -d -p 8000:8000 ai-service

即可启动一个 AI 服务。部署过程简单、可重复，适合自动化运维和持续交付。

3. 资源隔离

不同 AI 服务可能依赖不同版本的框架。例如：

服务 A 使用 PyTorch 1.13；
服务 B 使用 PyTorch 2.1；
服务 C 使用 TensorFlow 2.10。

如果全部部署在同一个系统环境中，很容易产生依赖冲突。而 Docker 容器之间相互隔离，可以让不同服务运行在各自独立的环境中。

4. 易于扩展

在高并发 AI 推理场景中，我们通常需要水平扩展多个推理实例。Docker 可以结合 Docker Compose、Kubernetes、Docker Swarm 等工具，实现服务的快速扩容和负载均衡。

例如，一个文本生成服务请求量上涨时，可以快速启动多个容器实例：

docker compose up --scale ai-api=5 -d

这样就可以同时运行 5 个 AI 服务副本。

三、Docker 在 AI 中的典型应用场景

1. AI 模型推理服务部署

这是 Docker 在 AI 领域最常见的应用场景。

当我们训练好一个模型后，通常需要将模型提供为 HTTP API，供前端、业务系统或其他服务调用。例如：

文本分类 API；
图像识别 API；
目标检测 API；
智能问答 API；
语音识别 API；
向量检索 API。

通过 Docker，可以将推理服务封装成标准镜像，在服务器上快速运行。

典型架构如下：

用户请求
   ↓
Nginx / 网关
   ↓
AI 推理服务容器
   ↓
模型文件 / 向量数据库 / 外部服务
   ↓
返回预测结果

这种方式具有部署简单、服务稳定、便于扩缩容等优势。

2. AI 训练环境管理

AI 模型训练通常依赖复杂环境，例如 GPU 驱动、CUDA、cuDNN、PyTorch、TensorFlow 等。如果团队成员各自配置环境，很容易产生不一致问题。

使用 Docker 后，可以为训练任务构建统一镜像。例如：

FROM pytorch/pytorch:2.1.0-cuda11.8-cudnn8-runtime

WORKDIR /workspace

COPY requirements.txt .

RUN pip install -r requirements.txt

COPY . .

CMD ["python", "train.py"]

这样团队中的任何成员，只要拥有 Docker 和 GPU 环境，就可以运行相同的训练任务。

如果结合 nvidia-container-toolkit，还可以让容器直接调用 GPU：

docker run --gpus all -it ai-train-image

这种方式特别适合机器学习平台、算法团队和模型实验管理。

3. 数据处理与特征工程

AI 项目中大量时间花在数据处理上，包括：

数据清洗；
数据转换；
特征提取；
文本分词；
图片预处理；
日志解析；
数据增强。

这些任务往往依赖固定的脚本和环境。通过 Docker，可以将数据处理逻辑封装为一个可重复执行的任务容器。

例如：

docker run --rm \
  -v ./data:/app/data \
  data-process-image \
  python process.py

这样可以避免不同人员在处理数据时产生环境差异，从而保证数据处理过程可追溯、可复现。

4. 大模型应用服务化

近年来，大语言模型应用非常热门，例如：

企业知识库问答；
RAG 检索增强生成；
智能客服机器人；
代码助手；
文档总结；
合同审查；
SQL 自动生成；
AI Agent 工作流。

这些应用通常由多个组件组成：

LLM API 或本地大模型；
Embedding 模型；
向量数据库；
后端服务；
前端页面；
缓存服务；
任务队列。

Docker Compose 非常适合这类多组件系统的本地开发和中小规模部署。例如可以同时启动：

FastAPI 后端；
Chroma / Milvus / Qdrant 向量库；
Redis 缓存；
PostgreSQL 数据库；
Web 前端服务。

通过一个 docker-compose.yml 文件即可管理完整的 AI 应用。

5. MLOps 与持续集成部署

MLOps 是机器学习工程化的重要方向，目标是让模型开发、训练、测试、部署、监控形成闭环。

Docker 在 MLOps 中通常承担以下角色：

封装训练环境；
封装推理环境；
作为 CI/CD 构建产物；
提供可版本化的模型服务；
便于回滚和灰度发布；
与 Kubernetes 配合完成弹性部署。

例如在 CI/CD 流程中，可以自动构建 AI 服务镜像：

docker build -t registry.example.com/ai-classifier:v1.0.0 .
docker push registry.example.com/ai-classifier:v1.0.0

生产环境只需要拉取指定版本镜像即可：

docker pull registry.example.com/ai-classifier:v1.0.0
docker run -d -p 8000:8000 registry.example.com/ai-classifier:v1.0.0

这使得 AI 应用的发布流程更加规范。

四、实战项目：使用 Docker 部署一个 AI 文本分类服务

下面我们实现一个简单的 AI 文本分类服务。该服务基于 FastAPI，对输入文本进行情感分类，返回预测结果。

为了便于演示，本文使用简单规则模拟模型预测逻辑。在真实项目中，可以替换为 Scikit-learn、PyTorch、TensorFlow 或 Transformers 模型。

五、项目目录结构

项目结构如下：

docker-ai-demo/
├── app/
│   ├── main.py
│   └── model.py
├── requirements.txt
├── Dockerfile
├── docker-compose.yml
└── README.md

六、核心源码

1. `app/model.py`

class TextClassifier:
    def __init__(self):
        self.positive_words = [
            "好", "优秀", "喜欢", "满意", "推荐", "高效", "稳定", "强大", "方便"
        ]
        self.negative_words = [
            "差", "糟糕", "失望", "慢", "错误", "崩溃", "复杂", "不好", "讨厌"
        ]

    def predict(self, text: str):
        positive_score = 0
        negative_score = 0

        for word in self.positive_words:
            if word in text:
                positive_score += 1

        for word in self.negative_words:
            if word in text:
                negative_score += 1

        if positive_score > negative_score:
            label = "positive"
            confidence = min(0.6 + positive_score * 0.1, 0.99)
        elif negative_score > positive_score:
            label = "negative"
            confidence = min(0.6 + negative_score * 0.1, 0.99)
        else:
            label = "neutral"
            confidence = 0.5

        return {
            "label": label,
            "confidence": round(confidence, 2),
            "positive_score": positive_score,
            "negative_score": negative_score
        }

该类用于模拟一个文本分类模型。实际项目中，可以将这里替换为模型加载逻辑，例如：

from transformers import pipeline

classifier = pipeline("sentiment-analysis")

或者加载本地训练好的模型文件。

2. `app/main.py`

from fastapi import FastAPI
from pydantic import BaseModel
from app.model import TextClassifier

app = FastAPI(
    title="Docker AI Text Classifier",
    description="A simple AI text classification service deployed with Docker.",
    version="1.0.0"
)

classifier = TextClassifier()


class PredictRequest(BaseModel):
    text: str


class PredictResponse(BaseModel):
    label: str
    confidence: float
    positive_score: int
    negative_score: int


@app.get("/")
def index():
    return {
        "message": "Docker AI Text Classifier is running."
    }


@app.get("/health")
def health_check():
    return {
        "status": "ok"
    }


@app.post("/predict", response_model=PredictResponse)
def predict(request: PredictRequest):
    result = classifier.predict(request.text)
    return result

这里使用 FastAPI 提供接口服务，包含三个接口：

接口	方法	说明
`/`	GET	首页测试接口
`/health`	GET	健康检查接口
`/predict`	POST	文本分类接口

3. `requirements.txt`

fastapi==0.110.0
uvicorn[standard]==0.27.1
pydantic==2.6.3

这里定义了项目运行所需的 Python 依赖。

4. `Dockerfile`

FROM python:3.11-slim

WORKDIR /app

ENV PYTHONDONTWRITEBYTECODE=1
ENV PYTHONUNBUFFERED=1

COPY requirements.txt .

RUN pip install --no-cache-dir -r requirements.txt

COPY . .

EXPOSE 8000

CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000"]

说明：

python:3.11-slim：使用轻量级 Python 镜像；
WORKDIR /app：设置容器工作目录；
COPY requirements.txt .：复制依赖文件；
RUN pip install：安装依赖；
COPY . .：复制项目代码；
EXPOSE 8000：声明服务端口；
CMD：启动 FastAPI 服务。

5. `docker-compose.yml`

version: "3.9"

services:
  ai-api:
    build:
      context: .
      dockerfile: Dockerfile
    container_name: docker-ai-text-classifier
    ports:
      - "8000:8000"
    restart: always
    environment:
      - TZ=Asia/Shanghai

使用 Docker Compose 可以更方便地管理服务启动、停止和重建。

七、构建与运行

1. 构建镜像

进入项目根目录：

cd docker-ai-demo

执行构建命令：

docker build -t docker-ai-text-classifier:1.0.0 .

构建完成后，可以查看镜像：

docker images

2. 启动容器

docker run -d \
  --name ai-text-classifier \
  -p 8000:8000 \
  docker-ai-text-classifier:1.0.0

访问：

curl http://localhost:8000/

返回示例：

{
  "message": "Docker AI Text Classifier is running."
}

3. 调用预测接口

curl -X POST "http://localhost:8000/predict" \
  -H "Content-Type: application/json" \
  -d '{"text": "这个系统非常稳定，使用起来很方便，我很满意"}'

返回示例：

{
  "label": "positive",
  "confidence": 0.9,
  "positive_score": 3,
  "negative_score": 0
}

再测试一个负面文本：

curl -X POST "http://localhost:8000/predict" \
  -H "Content-Type: application/json" \
  -d '{"text": "这个服务太慢了，而且经常崩溃，体验很差"}'

返回示例：

{
  "label": "negative",
  "confidence": 0.9,
  "positive_score": 0,
  "negative_score": 3
}

4. 使用 Docker Compose 启动

docker compose up -d

查看服务状态：

docker compose ps

查看日志：

docker compose logs -f

停止服务：

docker compose down

八、如何替换为真实 AI 模型？

上面的示例使用规则模拟分类逻辑，方便理解 Docker 部署流程。在真实 AI 项目中，通常需要加载模型文件。

例如使用 Scikit-learn：

import joblib

class TextClassifier:
    def __init__(self):
        self.model = joblib.load("models/text_classifier.pkl")
        self.vectorizer = joblib.load("models/vectorizer.pkl")

    def predict(self, text: str):
        x = self.vectorizer.transform([text])
        label = self.model.predict(x)[0]
        probability = self.model.predict_proba(x).max()

        return {
            "label": str(label),
            "confidence": float(round(probability, 2))
        }

如果使用 PyTorch：

import torch

class TorchClassifier:
    def __init__(self):
        self.model = torch.load("models/model.pt", map_location="cpu")
        self.model.eval()

    def predict(self, input_tensor):
        with torch.no_grad():
            output = self.model(input_tensor)
            pred = torch.argmax(output, dim=1).item()

        return pred

如果使用 Transformers：

from transformers import pipeline

class TransformerClassifier:
    def __init__(self):
        self.classifier = pipeline(
            "sentiment-analysis",
            model="distilbert-base-uncased-finetuned-sst-2-english"
        )

    def predict(self, text: str):
        result = self.classifier(text)[0]
        return {
            "label": result["label"],
            "confidence": round(result["score"], 2)
        }

对应的 requirements.txt 需要增加：

transformers
torch

如果模型较大，建议不要每次构建镜像时都下载模型，而是将模型挂载到容器中：

docker run -d \
  -p 8000:8000 \
  -v ./models:/app/models \
  ai-service

这样可以降低镜像体积，也便于模型独立更新。

九、AI 应用 Docker 化的最佳实践

1. 控制镜像体积

AI 镜像容易变得非常庞大，尤其是包含 PyTorch、TensorFlow、CUDA 和大模型文件时。建议：

使用 slim 或 runtime 镜像；
清理 pip 缓存；
避免将无关数据复制进镜像；
使用 .dockerignore；
模型文件按需挂载。

示例 .dockerignore：

.git
__pycache__
*.pyc
.env
data/
logs/
notebooks/

2. 区分训练镜像和推理镜像

训练环境通常需要更多工具，例如 Jupyter、调试工具、训练数据处理库等；推理环境则应尽量精简。

推荐拆分为：

ai-train-image：用于模型训练；
ai-inference-image：用于线上推理。

这样可以减少生产环境风险，提高部署效率。

3. 使用健康检查

生产环境中，AI 服务应该提供健康检查接口，例如 /health。Docker Compose 中可以配置：

healthcheck:
  test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
  interval: 30s
  timeout: 5s
  retries: 3

健康检查可以帮助运维系统判断容器是否正常运行。

4. 日志标准输出

容器应用推荐将日志输出到标准输出，而不是写死到本地文件。这样 Docker、Kubernetes 或日志采集系统可以统一收集日志。

Python 中可以使用：

import logging

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

logger.info("AI service started")

5. 模型版本管理

AI 应用和普通 Web 应用不同，除了代码版本，还需要管理模型版本。

建议维护如下版本关系：

内容	示例
代码版本	`v1.2.0`
镜像版本	`ai-api:v1.2.0`
模型版本	`model-2024-03-01`
配置版本	`config-prod-v3`

上线时应记录当前服务使用的模型版本，便于追踪问题和回滚。

十、Docker AI 应用架构示例

一个较完整的 AI 应用架构可能如下：

                    ┌──────────────┐
                    │   用户前端    │
                    └──────┬───────┘
                           │
                    ┌──────▼───────┐
                    │ API Gateway   │
                    └──────┬───────┘
                           │
          ┌────────────────▼────────────────┐
          │        AI 推理服务容器           │
          │ FastAPI / Flask / TorchServe    │
          └────────────────┬────────────────┘
                           │
        ┌──────────────────┼──────────────────┐
        │                  │                  │
┌───────▼───────┐  ┌───────▼───────┐  ┌───────▼───────┐
│  模型文件存储  │  │   向量数据库   │  │   Redis缓存    │
│ Model Storage │  │ Milvus/Qdrant │  │    Cache       │
└───────────────┘  └───────────────┘  └───────────────┘
                           │
                    ┌──────▼───────┐
                    │ 日志与监控系统 │
                    └──────────────┘

在这个架构中，Docker 可以将各个模块封装成独立服务。每个服务职责清晰，便于开发、测试和部署。

十一、常见问题与解决方案

1. 容器启动后无法访问服务

常见原因是应用监听地址为 127.0.0.1。在容器中应该监听：

0.0.0.0

例如：

uvicorn app.main:app --host 0.0.0.0 --port 8000

2. 镜像构建太慢

可以从以下方面优化：

使用国内 PyPI 镜像源；
合理利用 Docker 缓存；
先复制 requirements.txt 再复制代码；
减少无关文件进入构建上下文；
使用多阶段构建。

3. 模型文件过大

建议：

不将大模型直接打入镜像；
使用对象存储下载模型；
使用数据卷挂载模型目录；
使用模型仓库统一管理；
将模型和服务分开发布。

4. GPU 容器无法识别显卡

需要确认：

nvidia-smi

宿主机正常后，安装 nvidia-container-toolkit，然后运行：

docker run --gpus all nvidia/cuda:12.2.0-base-ubuntu22.04 nvidia-smi

如果可以看到显卡信息，说明 Docker GPU 环境配置成功。

十二、总结

Docker 是 AI 应用工程化落地的重要工具。它解决了 AI 项目中常见的环境不一致、依赖复杂、部署困难、扩展不便等问题。

在实际业务中，Docker 可以应用于：

AI 推理服务部署；
模型训练环境管理；
数据处理任务封装；
大模型应用服务化；
MLOps 持续集成与持续部署；
多组件 AI 系统编排。

本文通过一个 FastAPI 文本分类服务，演示了如何将 AI 应用 Docker 化，包括项目结构、核心源码、Dockerfile、Docker Compose 文件、构建运行方式以及最佳实践。

对于个人开发者来说，Docker 可以提升开发效率；对于企业团队来说，Docker 可以提升 AI 应用的稳定性、可维护性和交付效率。随着 AI 应用越来越复杂，容器化、服务化和自动化部署将成为 AI 工程实践中的基础能力。

文章标签： Docker AI应用容器化部署文本分类

上一篇：Docker 在 AI 项目里到底怎么用？6 大场景实操命令全梳理

下一篇：零基础也能上手：Docker如何帮你跑起AI项目

更多栏目

新闻动态

文档中心

下载中心

目录结构

全文

产品与服务

新闻帮助

生态合作

了解我们

用 Docker 跑 AI 服务：从场景拆解到文本分类项目实战源码

Docker AI应用场景分析｜附源码

一、引言

二、Docker 为什么适合 AI 应用？

1. 环境一致性

2. 快速部署

3. 资源隔离

4. 易于扩展

三、Docker 在 AI 中的典型应用场景

1. AI 模型推理服务部署

2. AI 训练环境管理

3. 数据处理与特征工程

4. 大模型应用服务化

5. MLOps 与持续集成部署

四、实战项目：使用 Docker 部署一个 AI 文本分类服务

五、项目目录结构

六、核心源码

1. app/model.py

2. app/main.py

3. requirements.txt

4. Dockerfile

5. docker-compose.yml

七、构建与运行

1. 构建镜像

2. 启动容器

3. 调用预测接口

4. 使用 Docker Compose 启动

八、如何替换为真实 AI 模型？

九、AI 应用 Docker 化的最佳实践

1. 控制镜像体积

2. 区分训练镜像和推理镜像

3. 使用健康检查

4. 日志标准输出

5. 模型版本管理

十、Docker AI 应用架构示例

十一、常见问题与解决方案

1. 容器启动后无法访问服务

2. 镜像构建太慢

3. 模型文件过大

4. GPU 容器无法识别显卡

十二、总结

1. `app/model.py`

2. `app/main.py`

3. `requirements.txt`

4. `Dockerfile`

5. `docker-compose.yml`