AI Agent 近期进展梳理:从多智能体协作到本地部署命令指南
AI Agent 最新更新内容汇总|附完整命令
近年来,AI Agent 正在从“能聊天的模型”快速演进为“能理解目标、拆解任务、调用工具、执行流程、持续反馈”的智能执行系统。相比传统大模型应用,AI Agent 的核心价值不只是回答问题,而是能够围绕一个目标进行多步骤推理与行动,例如自动写代码、分析数据、调用 API、处理文档、操作浏览器、连接企业知识库、编排多模型协作等。
本文将围绕当前 AI Agent 领域的主流更新方向进行系统梳理,并附上常见框架、工具链和本地部署的完整命令,方便开发者、产品经理和技术团队快速了解 AI Agent 的最新能力边界与落地方式。
一、AI Agent 的核心更新趋势
从近期主流 AI Agent 框架和平台的发展来看,更新方向主要集中在以下几个方面:
- 从单 Agent 走向多 Agent 协作
- 从简单 Prompt 走向工作流编排
- 从纯文本交互走向工具调用与环境执行
- 从一次性问答走向长期记忆与状态管理
- 从云端调用走向本地模型与私有化部署
- 从演示 Demo 走向企业级可观测、可评估、可治理
下面逐项展开。
二、多 Agent 协作能力增强
早期 AI Agent 通常是一个模型完成所有事情,例如用户输入“帮我写一份市场分析报告”,Agent 会一次性生成文本。现在的趋势是将复杂任务拆分给不同角色的 Agent,例如:
- 规划 Agent:负责拆解目标和制定步骤;
- 研究 Agent:负责联网搜索和资料收集;
- 分析 Agent:负责结构化判断和数据归纳;
- 写作 Agent:负责生成报告;
- 审核 Agent:负责检查事实、格式和逻辑;
- 执行 Agent:负责调用工具、运行代码或操作系统。
这种多 Agent 协作方式让任务处理更接近真实团队分工,适合复杂项目管理、代码开发、调研分析和自动化办公等场景。
示例:使用 CrewAI 创建多 Agent 项目
CrewAI 是一个常见的多 Agent 协作框架,适合快速构建角色化 Agent 工作流。
安装命令
pip install crewai crewai-tools
创建项目目录
mkdir ai-agent-demo
cd ai-agent-demo
创建 Python 文件
touch main.py
示例代码
from crewai import Agent, Task, Crew
researcher = Agent(
role="行业研究员",
goal="收集并整理 AI Agent 行业的最新发展趋势",
backstory="你是一名擅长技术调研和产业分析的研究员。",
verbose=True
)
writer = Agent(
role="技术作者",
goal="将研究内容整理成结构清晰的中文文章",
backstory="你是一名专业的科技内容作者,擅长写长文和深度分析。",
verbose=True
)
research_task = Task(
description="调研 AI Agent 的主要技术趋势、应用场景和开发框架。",
expected_output="一份结构化的调研提纲。",
agent=researcher
)
write_task = Task(
description="根据调研提纲写一篇不少于 1500 字的中文文章。",
expected_output="一篇完整的中文技术文章。",
agent=writer
)
crew = Crew(
agents=[researcher, writer],
tasks=[research_task, write_task],
verbose=True
)
result = crew.kickoff()
print(result)
运行命令
python main.py
三、工作流编排成为 Agent 落地关键
仅靠“自主 Agent”并不能满足企业级应用的稳定性要求。因为完全自主的 Agent 可能会出现不可控、跑偏、成本过高等问题。因此,越来越多平台开始采用“Agent + Workflow”的方式。
工作流编排的特点是:
- 关键步骤可控;
- 每一步输入输出清晰;
- 可以加入人工审核节点;
- 可以设置条件分支;
- 可以连接数据库、API、文档和第三方工具;
- 更适合企业实际业务。
例如,在客服场景中,Agent 不应该随意回答所有问题,而应该按照如下流程:
- 判断用户问题类型;
- 检索知识库;
- 判断是否命中答案;
- 如果命中,则生成回复;
- 如果未命中,则转人工;
- 记录对话和处理结果。
这种方式比单纯让模型自由发挥更安全。
四、LangGraph:面向状态机的 Agent 编排
LangGraph 是 LangChain 生态中的重要组件,适合构建复杂、可控、可循环的 Agent 工作流。它的核心思想是将 Agent 流程抽象成“图”,每个节点代表一个步骤,每条边代表流程流转关系。
安装命令
pip install langgraph langchain langchain-openai
设置环境变量
Linux / macOS:
export OPENAI_API_KEY="你的_API_Key"
Windows PowerShell:
$env:OPENAI_API_KEY="你的_API_Key"
示例:创建一个简单 LangGraph Agent
from typing import TypedDict
from langgraph.graph import StateGraph, END
from langchain_openai import ChatOpenAI
class AgentState(TypedDict):
question: str
answer: str
llm = ChatOpenAI(model="gpt-4o-mini")
def answer_node(state: AgentState):
response = llm.invoke(state["question"])
return {
"answer": response.content
}
graph = StateGraph(AgentState)
graph.add_node("answer", answer_node)
graph.set_entry_point("answer")
graph.add_edge("answer", END)
app = graph.compile()
result = app.invoke({
"question": "请用三句话解释什么是 AI Agent。"
})
print(result["answer"])
运行命令
python langgraph_demo.py
LangGraph 的优势在于它不仅能调用模型,还能保存状态、支持循环、条件判断、节点重试和人工干预,非常适合构建生产级 Agent 应用。
五、工具调用能力持续增强
AI Agent 与普通聊天机器人的重要区别之一,就是 Agent 可以调用工具。工具可以是:
- 搜索引擎;
- 数据库;
- Python 代码执行器;
- 文件读写工具;
- 邮件系统;
- 企业 IM;
- 浏览器;
- CRM;
- ERP;
- 云函数;
- 内部 API。
工具调用使 Agent 具备“行动能力”。例如,用户说“帮我统计这个 Excel 表中销售额最高的前 10 个客户”,Agent 可以读取文件、运行 Python 分析、生成表格和图表,而不是仅仅告诉用户“你可以使用 Excel 透视表”。
示例:使用 Python 工具处理 CSV 文件
安装依赖
pip install pandas openpyxl matplotlib
创建分析脚本
touch analyze_sales.py
示例代码
import pandas as pd
df = pd.read_csv("sales.csv")
top_customers = (
df.groupby("customer")["amount"]
.sum()
.sort_values(ascending=False)
.head(10)
)
print("销售额最高的前 10 个客户:")
print(top_customers)
运行命令
python analyze_sales.py
在真实 Agent 系统中,上述脚本可以被包装成一个工具,由模型根据用户意图自动调用。
六、RAG 与 Agent 深度结合
RAG,即检索增强生成,是企业落地大模型的重要技术。过去 RAG 更多用于问答系统,现在它正在和 Agent 结合,形成“能查资料、能判断、能执行”的知识型 Agent。
典型流程如下:
- 用户提出问题;
- Agent 判断是否需要检索;
- 从向量数据库中查询相关文档;
- 对检索结果进行摘要和排序;
- 生成答案;
- 必要时调用其他工具继续验证。
这类 Agent 很适合企业知识库、合同问答、售后支持、政策咨询和研发文档助手。
示例:安装 Chroma 向量数据库
pip install chromadb langchain langchain-community sentence-transformers
示例:启动一个简单文档检索流程
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
loader = TextLoader("knowledge.txt", encoding="utf-8")
documents = loader.load()
splitter = CharacterTextSplitter(
chunk_size=500,
chunk_overlap=50
)
docs = splitter.split_documents(documents)
embeddings = HuggingFaceEmbeddings(
model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)
db = Chroma.from_documents(
documents=docs,
embedding=embeddings,
persist_directory="./chroma_db"
)
query = "AI Agent 的主要应用场景有哪些?"
results = db.similarity_search(query, k=3)
for item in results:
print(item.page_content)
print("-" * 50)
运行命令
python rag_demo.py
七、本地模型与私有化部署成为热点
对于企业来说,数据安全和成本控制是部署 AI Agent 时必须考虑的问题。很多团队不希望所有数据都发送到云端大模型,因此本地模型和私有化部署越来越重要。
常见方案包括:
- 使用 Ollama 在本地运行大模型;
- 使用 vLLM 部署高性能推理服务;
- 使用 LM Studio 做本地模型调试;
- 使用 Dify / FastGPT / MaxKB 搭建企业知识库;
- 使用私有 API 网关统一管理模型调用。
使用 Ollama 本地运行模型
安装 Ollama
macOS / Linux 可使用:
curl -fsSL https://ollama.com/install.sh | sh
拉取模型
ollama pull llama3
或者:
ollama pull qwen2
运行模型
ollama run llama3
查看本地模型列表
ollama list
删除模型
ollama rm llama3
启动 API 服务
通常 Ollama 会默认启动本地服务:
ollama serve
默认接口地址一般为:
http://localhost:11434
八、Dify:低代码 Agent 应用平台
Dify 是一个常见的开源大模型应用开发平台,支持聊天助手、Agent、工作流、知识库、API 发布等能力。对于不想从零写代码的团队来说,Dify 是快速落地 AI Agent 的常见选择。
使用 Docker Compose 部署 Dify
克隆代码
git clone https://github.com/langgenius/dify.git
进入 Docker 目录
cd dify/docker
复制环境变量文件
cp .env.example .env
启动服务
docker compose up -d
查看容器状态
docker compose ps
查看日志
docker compose logs -f
停止服务
docker compose down
部署完成后,可以通过浏览器访问本地服务地址,进入控制台后配置模型供应商、知识库和应用类型。
九、AutoGen:面向多智能体对话协作
AutoGen 是微软开源的多 Agent 框架之一,主要特点是通过多个可对话 Agent 之间的消息传递完成复杂任务。它适合代码生成、数据分析、自动化实验、任务协同等场景。
安装命令
pip install pyautogen
示例代码
import autogen
config_list = [
{
"model": "gpt-4o-mini",
"api_key": "你的_API_Key"
}
]
assistant = autogen.AssistantAgent(
name="assistant",
llm_config={
"config_list": config_list
}
)
user_proxy = autogen.UserProxyAgent(
name="user_proxy",
human_input_mode="NEVER",
code_execution_config=False
)
user_proxy.initiate_chat(
assistant,
message="请帮我设计一个 AI Agent 项目的技术架构。"
)
运行命令
python autogen_demo.py
AutoGen 的优势是多角色协作自然,适合需要连续讨论、迭代和代码执行的复杂场景。
十、OpenHands:面向软件开发的 Agent
OpenHands,原名 OpenDevin,是一个偏向软件工程自动化的 Agent 项目,目标是让 AI Agent 像开发者一样理解需求、修改代码、运行测试和提交结果。
它的典型应用包括:
- 自动修复 Bug;
- 根据 Issue 修改代码;
- 生成测试用例;
- 阅读项目结构;
- 执行终端命令;
- 调试程序报错。
使用 Docker 运行 OpenHands
常见运行方式如下:
docker pull docker.all-hands.dev/all-hands-ai/openhands:latest
docker run -it --rm \
-e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:latest \
-e LOG_ALL_EVENTS=true \
-v /var/run/docker.sock:/var/run/docker.sock \
-p 3000:3000 \
--add-host host.docker.internal:host-gateway \
--name openhands-app \
docker.all-hands.dev/all-hands-ai/openhands:latest
运行后通常可通过浏览器访问:
http://localhost:3000
对于开发者来说,这类 Agent 的价值不只是“写代码”,而是能够参与完整的软件开发流程。
十一、Agent 记忆能力升级
AI Agent 的另一个重要更新是记忆能力。传统大模型对话通常依赖上下文窗口,超过长度后就会遗忘。而 Agent 系统需要更长期的状态管理,例如:
- 用户偏好;
- 项目背景;
- 历史任务;
- 已完成步骤;
- 中间文件;
- 决策记录;
- 工具调用结果。
记忆通常分为三类:
1. 短期记忆
保存当前会话上下文,适合一次任务中的连续交流。
2. 长期记忆
将用户偏好、项目资料、历史记录存入数据库或向量库,供后续任务复用。
3. 工作记忆
记录 Agent 当前正在处理的任务状态,例如当前步骤、待办事项、工具返回结果等。
在生产环境中,记忆能力不仅影响用户体验,也影响 Agent 执行复杂任务的可靠性。
十二、可观测性与评估成为企业刚需
当 AI Agent 从 Demo 进入生产环境后,团队必须回答以下问题:
- Agent 为什么这样回答?
- 它调用了哪些工具?
- 每次调用花费多少 Token?
- 哪一步失败了?
- 是否出现幻觉?
- 检索结果是否相关?
- 用户是否满意?
- 任务完成率是多少?
因此,Agent 可观测性和评估体系正在成为重要更新方向。
常见监控指标包括:
| 指标 | 说明 |
|---|---|
| Token 消耗 | 统计模型输入输出成本 |
| 响应时间 | 判断系统性能 |
| 工具调用次数 | 分析 Agent 行为复杂度 |
| 任务成功率 | 衡量业务效果 |
| 检索命中率 | 衡量 RAG 质量 |
| 用户满意度 | 衡量体验 |
| 错误率 | 发现系统问题 |
使用 LangSmith 进行追踪
如果使用 LangChain / LangGraph,可以接入 LangSmith 做链路追踪。
安装命令
pip install langsmith
设置环境变量
export LANGCHAIN_TRACING_V2="true"
export LANGCHAIN_API_KEY="你的_LangSmith_API_Key"
export LANGCHAIN_PROJECT="ai-agent-demo"
Windows PowerShell:
$env:LANGCHAIN_TRACING_V2="true"
$env:LANGCHAIN_API_KEY="你的_LangSmith_API_Key"
$env:LANGCHAIN_PROJECT="ai-agent-demo"
十三、Agent 安全与权限控制更新
AI Agent 可以调用工具,也意味着它可能造成更大的风险。例如:
- 误删文件;
- 调错接口;
- 泄露敏感数据;
- 执行危险命令;
- 发送错误邮件;
- 对外发布不准确内容。
因此,安全机制非常重要。
常见做法包括:
- 工具白名单:只允许调用经过授权的工具;
- 权限分级:不同用户拥有不同操作权限;
- 人工确认:高风险操作前必须人工审批;
- 沙箱执行:代码运行在隔离环境;
- 日志审计:记录所有工具调用;
- 敏感信息过滤:避免泄露密钥、隐私和内部数据;
- 输出校验:对模型生成内容进行规则检查。
例如,在自动邮件 Agent 中,生成邮件可以自动完成,但真正发送邮件前应该要求用户确认。
十四、常用 AI Agent 开发命令汇总
下面整理一组常用命令,方便快速搭建开发环境。
创建 Python 虚拟环境
python -m venv .venv
激活虚拟环境
macOS / Linux:
source .venv/bin/activate
Windows PowerShell:
.\.venv\Scripts\Activate.ps1
升级 pip
python -m pip install --upgrade pip
安装 LangChain 相关依赖
pip install langchain langchain-openai langchain-community langgraph
安装 CrewAI
pip install crewai crewai-tools
安装 AutoGen
pip install pyautogen
安装向量数据库 Chroma
pip install chromadb
安装数据处理工具
pip install pandas numpy openpyxl matplotlib
导出依赖
pip freeze > requirements.txt
根据 requirements 安装依赖
pip install -r requirements.txt
使用 Docker 查看容器
docker ps
查看所有容器
docker ps -a
停止容器
docker stop 容器名称或容器ID
删除容器
docker rm 容器名称或容器ID
查看镜像
docker images
删除镜像
docker rmi 镜像名称或镜像ID
十五、AI Agent 适合落地的典型场景
当前 AI Agent 已经开始在多个场景中发挥价值。
1. 自动化办公
例如自动整理会议纪要、生成周报、汇总邮件、制作 PPT 提纲、提取合同重点等。
2. 企业知识库助手
结合 RAG 技术,帮助员工查询制度、产品文档、技术手册和历史项目资料。
3. 软件开发助手
辅助阅读代码、定位 Bug、生成测试、解释报错、重构模块和编写文档。
4. 数据分析助手
自动读取数据文件,完成清洗、统计、可视化和结论总结。
5. 客服与售后
自动回答常见问题,判断复杂问题并转人工,提升服务效率。
6. 运营与营销
帮助生成营销文案、分析用户反馈、拆解活动方案、生成投放报告。
7. 个人效率工具
作为个人助理管理任务、规划学习、整理资料和生成内容。
十六、企业部署 AI Agent 的建议
如果团队计划落地 AI Agent,可以按照以下路径推进:
第一阶段:明确业务目标
不要为了使用 Agent 而使用 Agent。应优先选择高频、重复、规则相对明确、数据可获得的场景。
第二阶段:从简单工作流开始
先构建可控流程,再逐步增加自主决策能力。对于企业应用来说,“稳定可控”通常比“完全自主”更重要。
第三阶段:接入知识库和工具
让 Agent 能够访问真实业务数据,并调用必要工具完成任务。
第四阶段:增加评估体系
建立测试集、任务成功率、用户满意度和成本监控体系。
第五阶段:加强安全治理
对权限、数据、日志、审批和异常处理进行规范化设计。
十七、总结
AI Agent 的最新发展已经不再停留在“让模型自己思考”这一层面,而是进入了系统工程阶段。真正可用的 Agent 通常由大模型、工具调用、工作流编排、知识库、记忆系统、权限控制、评估监控和人机协同共同组成。
对于开发者来说,CrewAI、AutoGen、LangGraph、Dify、OpenHands、Ollama 等工具可以覆盖从多 Agent 协作、工作流编排、本地模型部署到软件开发自动化的不同需求。对于企业来说,AI Agent 的关键不是追求概念先进,而是找到明确场景,以可控方式提升效率。
未来,AI Agent 很可能会成为软件系统的新入口:用户不再需要逐个点击按钮,而是直接描述目标,由 Agent 自动拆解任务、调用系统、执行流程并反馈结果。谁能更早建立稳定、可控、安全的 Agent 体系,谁就更有机会在下一轮智能化升级中获得效率优势。