上一篇 下一篇 分享链接 返回 返回顶部

本地部署AI太慢?一文搞定模型推理、显存、API与服务器优化命令

发布人:慈云数据-客服中心 发布时间:9小时前 阅读量:2

AI工具 性能优化教程|附完整命令

随着大模型、AI绘图、语音识别、代码助手、知识库问答等工具的普及,越来越多的个人开发者、企业团队开始在本地或服务器上部署 AI 工具。然而,很多人在实际使用中会遇到类似问题:模型启动慢、推理延迟高、显存不够、CPU占用过高、接口响应不稳定、并发一高就崩溃、部署成本越来越高。

本文将从硬件环境、系统配置、模型加载、推理加速、显存优化、API服务优化、容器部署、监控排查等多个角度,系统讲解 AI 工具性能优化的方法,并附上常用完整命令,适合本地部署、Linux服务器部署、Docker部署以及中小型AI应用服务优化参考。


一、AI工具性能瓶颈通常在哪里?

在开始优化之前,必须先判断瓶颈来源。AI工具常见性能瓶颈主要包括以下几类:

1. CPU瓶颈

如果你的AI工具主要运行在CPU上,比如部分轻量模型、向量数据库、文本预处理、音频转写前处理等,CPU性能会直接影响响应速度。

常见表现:

  • CPU占用长期接近100%
  • 接口响应慢
  • 多用户访问时卡顿明显
  • 模型加载和文本切分耗时较长

2. GPU瓶颈

对于大语言模型、Stable Diffusion、视频生成模型等,GPU通常是核心性能来源。

常见表现:

  • 显存不足,出现 OOM 报错
  • GPU利用率忽高忽低
  • 推理速度慢
  • 多个任务同时运行时性能下降严重

3. 内存瓶颈

内存不足会导致系统频繁使用 Swap,严重拖慢AI工具运行。

常见表现:

  • 系统变卡
  • 模型加载失败
  • Python进程被系统自动杀死
  • Docker容器异常退出

4. 磁盘IO瓶颈

模型文件往往较大,动辄几GB到几十GB。如果磁盘速度慢,模型加载、缓存读取、数据集处理都会受到影响。

常见表现:

  • 第一次加载模型特别慢
  • 向量库检索速度慢
  • 日志写入阻塞
  • 数据预处理耗时异常

5. 网络瓶颈

如果使用云端模型API、远程向量库、对象存储或分布式推理,网络延迟和带宽也会影响整体性能。


二、基础环境检查命令

优化前建议先对系统环境做一次全面检查。

1. 查看系统信息

uname -a

查看Linux内核和系统架构。

lsb_release -a

查看发行版信息。如果没有该命令,可安装:

sudo apt update
sudo apt install -y lsb-release

2. 查看CPU信息

lscpu

查看CPU核心数、线程数、架构、频率等信息。

查看CPU实时占用:

top

或使用更友好的工具:

sudo apt install -y htop
htop

3. 查看内存使用情况

free -h

查看更详细的内存进程占用:

ps aux --sort=-%mem | head -20

4. 查看磁盘空间

df -h

查看目录空间占用:

du -sh *

查看当前目录下各文件夹大小并排序:

du -h --max-depth=1 | sort -hr

5. 查看磁盘IO

sudo apt install -y iotop
sudo iotop

也可以使用:

iostat -x 1

如果没有 iostat:

sudo apt install -y sysstat

6. 查看GPU信息

如果使用 NVIDIA GPU,执行:

nvidia-smi

实时监控GPU:

watch -n 1 nvidia-smi

查看CUDA版本:

nvcc --version

如果没有安装 nvcc,可以查看驱动支持的CUDA版本:

nvidia-smi

三、Python环境性能优化

很多AI工具基于 Python 运行,例如 FastAPI、LangChain、Transformers、PyTorch、Diffusers、Whisper 等。Python环境配置是否合理,会直接影响AI工具稳定性。

1. 使用虚拟环境隔离项目

推荐使用 venv:

python3 -m venv .venv
source .venv/bin/activate

升级 pip:

python -m pip install --upgrade pip setuptools wheel

安装依赖时建议加速源:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 使用 Conda 管理复杂AI环境

如果项目依赖CUDA、PyTorch、TensorFlow等,推荐 Conda:

conda create -n ai-env python=3.10 -y
conda activate ai-env

安装 PyTorch GPU 版本示例:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

检查是否识别GPU:

python -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))"

3. 固定依赖版本

AI项目中依赖版本变化可能导致性能下降或兼容问题。建议生成依赖锁定文件:

pip freeze > requirements.txt

安装固定依赖:

pip install -r requirements.txt

四、PyTorch推理性能优化

如果AI工具使用 PyTorch 进行推理,可以从以下几个方面优化。

1. 开启推理模式

推理时不需要计算梯度,应使用 torch.no_grad()torch.inference_mode()

示例代码:

import torch

model.eval()

with torch.inference_mode():
    output = model(input_data)

torch.inference_mode()torch.no_grad() 更适合纯推理场景,通常性能更好。

2. 使用半精度推理

如果GPU支持 FP16,可以使用半精度降低显存占用并提升速度:

model = model.half().cuda()
input_data = input_data.half().cuda()

对于 Transformers 模型:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "your-model-path"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

3. 使用 BF16

在 A100、H100、部分 RTX 40 系列等硬件上,BF16通常更稳定:

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

4. 启用 TF32

NVIDIA Ampere及以上架构可开启TF32提升矩阵计算性能:

import torch

torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

也可以设置环境变量:

export NVIDIA_TF32_OVERRIDE=1

5. 使用 torch.compile

PyTorch 2.x 支持 torch.compile,可对模型进行图编译优化:

import torch

model = torch.compile(model)

需要注意,部分模型或动态输入场景可能不稳定,建议先在测试环境验证。


五、大语言模型推理优化

本节适用于本地部署 Llama、Qwen、ChatGLM、Baichuan、Mistral、DeepSeek 等模型。

1. 优先选择量化模型

如果显存有限,可以使用 8bit、4bit 量化模型。

安装依赖:

pip install transformers accelerate bitsandbytes

4bit加载示例:

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

model_path = "your-model-path"

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

tokenizer = AutoTokenizer.from_pretrained(model_path)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quant_config,
    device_map="auto"
)

8bit加载示例:

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_path = "your-model-path"

quant_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained(model_path)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quant_config,
    device_map="auto"
)

2. 使用 vLLM 提升吞吐

如果你的AI工具需要提供多用户并发问答服务,推荐使用 vLLM。它通过 PagedAttention 等机制显著提升吞吐。

安装:

pip install vllm

启动 OpenAI 兼容API服务:

python -m vllm.entrypoints.openai.api_server \
  --model /data/models/Qwen2.5-7B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --gpu-memory-utilization 0.9 \
  --max-model-len 8192

请求测试:

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/models/Qwen2.5-7B-Instruct",
    "messages": [
      {"role": "user", "content": "请用三句话介绍人工智能。"}
    ],
    "temperature": 0.7,
    "max_tokens": 256
  }'

如果显存不足,可以降低上下文长度:

python -m vllm.entrypoints.openai.api_server \
  --model /data/models/Qwen2.5-7B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --gpu-memory-utilization 0.85 \
  --max-model-len 4096

3. 使用 llama.cpp 部署GGUF模型

对于CPU或低显存设备,llama.cpp 是非常实用的选择。

安装编译工具:

sudo apt update
sudo apt install -y build-essential cmake git

拉取源码:

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

编译CPU版本:

cmake -B build
cmake --build build --config Release -j$(nproc)

如果使用 NVIDIA GPU:

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

运行模型:

./build/bin/llama-cli \
  -m /data/models/qwen2.5-7b-instruct-q4_k_m.gguf \
  -p "请解释什么是模型量化" \
  -n 512 \
  -t 8

启动服务:

./build/bin/llama-server \
  -m /data/models/qwen2.5-7b-instruct-q4_k_m.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  -c 4096 \
  -ngl 35

参数说明:

  • -m:模型路径
  • -c:上下文长度
  • -ngl:放入GPU的层数
  • -t:CPU线程数
  • -n:最大生成token数

六、Stable Diffusion 性能优化

如果你使用的是 Stable Diffusion WebUI、ComfyUI 或 Diffusers,可以从显存和采样速度方面优化。

1. 启动 WebUI 常用优化参数

进入项目目录:

cd stable-diffusion-webui

编辑启动参数:

nano webui-user.sh

加入:

export COMMANDLINE_ARGS="--xformers --medvram --api --listen"

启动:

bash webui.sh

常见参数:

--xformers

启用 xFormers 注意力优化,降低显存占用。

--medvram

中等显存优化,适合 6GB 到 8GB 显存。

--lowvram

低显存模式,适合显存非常有限的机器,但速度会变慢。

--api

开启API接口。

--listen

允许局域网访问。

2. 安装 xFormers

pip install xformers

如果版本不兼容,可以先查看当前 PyTorch 版本:

python -c "import torch; print(torch.__version__)"

3. ComfyUI 优化启动

进入目录:

cd ComfyUI

安装依赖:

pip install -r requirements.txt

启动:

python main.py --listen 0.0.0.0 --port 8188

低显存模式:

python main.py --listen 0.0.0.0 --port 8188 --lowvram

使用CPU:

python main.py --cpu

七、Whisper语音识别性能优化

Whisper常用于语音转文字,但原版模型在长音频上可能较慢。推荐使用 faster-whisper。

1. 安装 faster-whisper

pip install faster-whisper

2. 推理示例

from faster_whisper import WhisperModel

model = WhisperModel(
    "large-v3",
    device="cuda",
    compute_type="float16"
)

segments, info = model.transcribe(
    "audio.mp3",
    beam_size=5,
    vad_filter=True
)

for segment in segments:
    print(segment.start, segment.end, segment.text)

3. CPU环境优化

如果没有GPU,可以使用 int8:

from faster_whisper import WhisperModel

model = WhisperModel(
    "small",
    device="cpu",
    compute_type="int8"
)

4. 音频预处理命令

使用 ffmpeg 将音频转为16k单声道:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav

这可以减少无效计算,提高识别稳定性。


八、向量数据库与RAG系统优化

很多AI知识库工具使用 RAG 架构,包括文本切分、Embedding、向量检索、重排序和大模型生成。优化RAG系统不能只看大模型,还要关注检索链路。

1. 文本切分优化

建议合理设置 chunk size 和 overlap。

常见配置:

chunk_size = 500
chunk_overlap = 80

如果文本是技术文档,可适当增大:

chunk_size = 800
chunk_overlap = 120

切分过小会导致上下文碎片化,切分过大则会影响检索精度和模型上下文占用。

2. 使用本地Embedding模型

安装:

pip install sentence-transformers

示例:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("BAAI/bge-small-zh-v1.5")
embeddings = model.encode(
    ["人工智能性能优化教程"],
    normalize_embeddings=True
)
print(embeddings.shape)

如果有GPU:

model = SentenceTransformer("BAAI/bge-small-zh-v1.5", device="cuda")

3. FAISS 向量检索优化

安装:

pip install faiss-cpu

GPU版本:

pip install faiss-gpu

构建索引示例:

import faiss
import numpy as np

dimension = 512
vectors = np.random.random((10000, dimension)).astype("float32")

index = faiss.IndexFlatIP(dimension)
index.add(vectors)

query = np.random.random((1, dimension)).astype("float32")
D, I = index.search(query, 5)

print(I)

如果数据量较大,可以使用 IVF 索引:

import faiss
import numpy as np

dimension = 512
nlist = 100
quantizer = faiss.IndexFlatIP(dimension)
index = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_INNER_PRODUCT)

vectors = np.random.random((100000, dimension)).astype("float32")
index.train(vectors)
index.add(vectors)

index.nprobe = 10

query = np.random.random((1, dimension)).astype("float32")
D, I = index.search(query, 5)

4. RAG响应速度优化建议

  • Embedding模型尽量本地化,减少网络调用
  • 向量库和AI服务部署在同一内网
  • 检索top_k不要过大,一般设置为3到8
  • 对长文档先摘要再入库
  • 高频问题可增加缓存
  • 重排序模型按需使用,不要每次都默认启用大模型rerank

九、API服务性能优化

AI工具通常会封装成 HTTP API 提供服务,例如 FastAPI、Flask、Node.js、Spring Boot 等。Python AI服务推荐使用 FastAPI + Uvicorn 或 Gunicorn。

1. FastAPI启动命令

安装:

pip install fastapi uvicorn

基础启动:

uvicorn main:app --host 0.0.0.0 --port 8000

生产环境建议:

uvicorn main:app \
  --host 0.0.0.0 \
  --port 8000 \
  --workers 2 \
  --timeout-keep-alive 30

注意:如果每个 worker 都会加载一份大模型,worker 数量过多会导致显存或内存爆炸。大模型服务通常不建议盲目增加 worker。

2. Gunicorn启动

安装:

pip install gunicorn uvicorn

启动:

gunicorn main:app \
  -k uvicorn.workers.UvicornWorker \
  -w 2 \
  -b 0.0.0.0:8000 \
  --timeout 120

3. 增加请求缓存

对于重复问题,可以使用 Redis 缓存结果。

安装 Redis:

sudo apt install -y redis-server

启动:

sudo systemctl enable redis-server
sudo systemctl start redis-server

查看状态:

sudo systemctl status redis-server

Python安装客户端:

pip install redis

示例代码:

import redis
import hashlib
import json

r = redis.Redis(host="localhost", port=6379, db=0)

def cache_key(prompt):
    return "ai:" + hashlib.md5(prompt.encode("utf-8")).hexdigest()

def get_answer(prompt):
    key = cache_key(prompt)
    cached = r.get(key)
    if cached:
        return json.loads(cached)

    result = {"answer": "这里是模型生成结果"}
    r.setex(key, 3600, json.dumps(result, ensure_ascii=False))
    return result

十、Docker部署优化

容器化部署便于迁移和管理,但如果配置不当,也会影响AI工具性能。

1. 安装 Docker

curl -fsSL https://get.docker.com | bash

启动 Docker:

sudo systemctl enable docker
sudo systemctl start docker

将当前用户加入 docker 组:

sudo usermod -aG docker $USER

重新登录后生效。

2. 安装 NVIDIA Container Toolkit

如果需要在 Docker 中使用 GPU,必须安装 NVIDIA 容器运行时。

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

安装:

sudo apt update
sudo apt install -y nvidia-container-toolkit

配置:

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

测试:

docker run --rm --gpus all nvidia/cuda:12.1.1-base-ubuntu22.04 nvidia-smi

3. Docker运行AI服务示例

docker run -d \
  --name ai-api \
  --gpus all \
  -p 8000:8000 \
  -v /data/models:/models \
  -v /data/app:/app \
  --restart always \
  ai-api:latest

限制内存:

docker run -d \
  --name ai-api \
  --gpus all \
  -p 8000:8000 \
  --memory=16g \
  --memory-swap=20g \
  -v /data/models:/models \
  ai-api:latest

查看容器资源:

docker stats

查看日志:

docker logs -f ai-api

进入容器:

docker exec -it ai-api bash

十一、Linux系统级优化

1. 增加文件句柄限制

高并发API服务可能遇到文件句柄不足。

查看当前限制:

ulimit -n

临时设置:

ulimit -n 65535

永久设置:

sudo nano /etc/security/limits.conf

添加:

* soft nofile 65535
* hard nofile 65535

2. 调整 Swap

查看 Swap:

swapon --show

创建 16GB Swap:

sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

永久生效:

echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

调整 swappiness:

sudo sysctl vm.swappiness=10

永久配置:

echo 'vm.swappiness=10' | sudo tee -a /etc/sysctl.conf

3. 开启高性能模式

安装工具:

sudo apt install -y linux-tools-common linux-tools-generic

查看CPU频率策略:

cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

设置 performance:

for CPU in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor; do
  echo performance | sudo tee $CPU
done

十二、Nginx反向代理与连接优化

如果AI服务要对外提供访问,推荐使用 Nginx 作为反向代理。

1. 安装 Nginx

sudo apt update
sudo apt install -y nginx

2. 配置反向代理

新建配置:

sudo nano /etc/nginx/sites-available/ai-api

写入:

server {
    listen 80;
    server_name your-domain.com;

    client_max_body_size 100M;

    location / {
        proxy_pass http://127.0.0.1:8000;
        proxy_http_version 1.1;

        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

        proxy_read_timeout 300;
        proxy_connect_timeout 300;
        proxy_send_timeout 300;
    }
}

启用配置:

sudo ln -s /etc/nginx/sites-available/ai-api /etc/nginx/sites-enabled/
sudo nginx -t
sudo systemctl reload nginx

3. 支持流式输出

如果大模型接口使用流式输出,需要关闭缓冲:

location / {
    proxy_pass http://127.0.0.1:8000;
    proxy_http_version 1.1;

    proxy_buffering off;
    proxy_cache off;

    proxy_set_header Connection '';
    proxy_set_header Host $host;
    proxy_read_timeout 600;
}

十三、监控与压测

优化不是凭感觉,而是要通过监控和压测验证。

1. 使用 curl 测试响应时间

curl -o /dev/null -s -w "DNS解析: %{time_namelookup}s\n连接: %{time_connect}s\n首字节: %{time_starttransfer}s\n总耗时: %{time_total}s\n" http://127.0.0.1:8000/health

2. 使用 ab 压测

安装:

sudo apt install -y apache2-utils

压测:

ab -n 100 -c 10 http://127.0.0.1:8000/health

参数说明:

  • -n 100:总请求数100
  • -c 10:并发数10

3. 使用 wrk 压测

安装:

sudo apt install -y wrk

压测:

wrk -t4 -c50 -d30s http://127.0.0.1:8000/health

参数说明:

  • -t4:4个线程
  • -c50:50个连接
  • -d30s:持续30秒

4. GPU监控工具

安装 gpustat:

pip install gpustat

使用:

gpustat -cp

或循环刷新:

watch -n 1 gpustat -cp

十四、常见问题排查

1. CUDA out of memory

常见解决方法:

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128

或:

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

同时可以:

  • 降低 batch size
  • 降低 max tokens
  • 降低上下文长度
  • 使用 4bit / 8bit 量化
  • 使用更小模型
  • 关闭无关进程

查看占用GPU的进程:

nvidia-smi

结束进程:

kill -9 PID

2. 模型加载很慢

优化建议:

  • 使用SSD或NVMe磁盘
  • 模型放在本地,不要放网络盘
  • 避免频繁重启服务
  • 使用常驻进程加载模型
  • Docker中挂载本地模型目录

查看模型目录大小:

du -sh /data/models/*

3. API并发高时崩溃

排查:

dmesg | tail -100

如果看到 Killed process,通常是内存不足。

查看系统日志:

journalctl -xe

查看服务日志:

docker logs -f ai-api

4. GPU利用率低但响应慢

可能原因:

  • CPU预处理慢
  • 数据加载慢
  • tokenizer成为瓶颈
  • batch没有合并
  • 网络传输慢
  • 单请求生成token过长

优化方向:

  • 使用 vLLM 批处理
  • 减少 prompt 长度
  • 缓存 tokenizer 结果
  • 使用更快的向量检索
  • 将服务部署在同一区域内网

十五、推荐优化顺序

如果你不知道从哪里开始,可以按照以下顺序执行:

  1. 先监控:用 nvidia-smihtopfree -hiotop 找瓶颈
  2. 换合适模型:不要盲目使用最大模型,优先选择任务匹配模型
  3. 启用量化:显存不足优先考虑 4bit、8bit 或 GGUF
  4. 优化推理框架:LLM服务优先尝试 vLLM 或 llama.cpp
  5. 减少上下文长度:max_model_len、max_tokens 不要设置过大
  6. 增加缓存:重复问题、Embedding结果、检索结果都可以缓存
  7. 优化API服务:合理设置 worker、timeout、队列和限流
  8. 容器和系统调优:文件句柄、Swap、GPU容器运行时、Nginx超时
  9. 持续压测:每次优化后都用压测数据验证效果

十六、一套通用AI服务启动模板

下面给出一个适合中小型AI接口服务的通用启动流程。

1. 创建项目环境

mkdir -p /data/ai-service
cd /data/ai-service

python3 -m venv .venv
source .venv/bin/activate

pip install --upgrade pip setuptools wheel

2. 安装依赖

pip install fastapi uvicorn transformers accelerate torch redis

3. 设置环境变量

export CUDA_VISIBLE_DEVICES=0
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
export NVIDIA_TF32_OVERRIDE=1

4. 启动服务

uvicorn main:app \
  --host 0.0.0.0 \
  --port 8000 \
  --workers 1 \
  --timeout-keep-alive 60

5. 后台运行

nohup uvicorn main:app \
  --host 0.0.0.0 \
  --port 8000 \
  --workers 1 \
  > ai-service.log 2>&1 &

查看日志:

tail -f ai-service.log

查看端口:

ss -tunlp | grep 8000

停止服务:

ps aux | grep uvicorn
kill -9 PID

总结

AI工具性能优化不是单点技巧,而是一套系统工程。对于大多数AI应用来说,最佳优化策略不是简单堆硬件,而是先定位瓶颈,再选择合适的模型、推理框架和部署方式。

如果你部署的是大语言模型,优先考虑 vLLM、llama.cpp、量化模型、合理上下文长度;如果是AI绘图,重点关注 xFormers、显存模式、采样参数和模型精度;如果是语音识别,推荐使用 faster-whisper;如果是知识库问答系统,则要同时优化 Embedding、向量检索、缓存和大模型生成链路

最后建议记住一句话:性能优化的核心不是“把所有参数调到最大”,而是让硬件资源、模型规模、业务场景和用户并发之间达到平衡。只有通过监控、压测和持续迭代,才能真正构建稳定、高效、低成本的AI工具服务。

目录结构
全文