我做了一套AI搜索体检:7类问题、8项评分和完整命令全公开
AI搜索 测评报告|附完整命令
一、前言:为什么要做一次“AI搜索”测评?
过去几年,搜索引擎的使用方式正在发生明显变化。传统搜索更多依赖关键词匹配、网页排序和用户自行筛选信息;而AI搜索则试图在检索网页、理解问题、归纳答案、给出引用来源等方面形成闭环。用户不再只是输入几个关键词,然后打开十几个网页逐一判断,而是希望直接获得一个结构化、可追溯、可继续追问的答案。
但问题也随之而来:AI搜索真的比传统搜索更准确吗?它是否会编造信息?引用来源是否可靠?面对实时新闻、技术问题、产品对比、学术资料和复杂决策时,AI搜索的表现是否稳定?
为了回答这些问题,本文设计了一套相对完整的AI搜索测评流程,并附上可直接复用的命令与提示词模板,方便读者自行复测、横向比较不同AI搜索产品,或将其应用到团队内部的信息检索工作流中。
二、测评对象与测评目标
本次测评关注的不是某一个单一模型的聊天能力,而是“AI搜索能力”。所谓AI搜索,通常包括以下几个核心环节:
- 问题理解:能否准确识别用户真正想问什么;
- 联网检索:能否找到相关、可靠、较新的信息源;
- 信息筛选:能否排除低质量、重复、过时内容;
- 答案生成:能否用清晰结构输出结论;
- 来源引用:能否给出可点击、可核验的出处;
- 冲突处理:当多个来源不一致时,能否说明差异;
- 可追问能力:能否基于上下文持续深入分析;
- 幻觉控制:能否避免无依据的断言和虚构引用。
本报告的目标,是建立一套评估AI搜索的通用方法,而不是简单给出“谁第一、谁第二”的排名。因为不同产品在不同场景下差异很大:有的擅长中文资讯,有的擅长英文资料,有的对代码搜索更强,有的对商业分析和报告生成更友好。
三、测评维度设计
为了让结果更客观,本次测评采用八个维度进行评分,每项满分10分,总分80分。
| 维度 | 说明 | 关注点 |
|---|---|---|
| 准确性 | 答案是否正确 | 是否有事实错误、张冠李戴 |
| 时效性 | 信息是否最新 | 是否能获取近期动态 |
| 来源质量 | 引用是否可靠 | 官方、论文、权威媒体优先 |
| 引用可核验性 | 来源是否真实可打开 | 是否存在伪造链接或错误引用 |
| 结构化表达 | 答案是否清晰 | 是否有结论、理由、步骤 |
| 深度分析 | 是否不仅仅是摘要 | 能否比较、推理、归纳 |
| 幻觉控制 | 是否谨慎表达不确定信息 | 是否说明“无法确认” |
| 可操作性 | 是否能帮助用户行动 | 是否给出建议、命令、表格、流程 |
评分建议如下:
- 9—10分:表现优秀,可直接用于生产或严肃决策前的初步研究;
- 7—8分:表现良好,但需要人工复核关键事实;
- 5—6分:可作为灵感来源,但可靠性一般;
- 3—4分:经常遗漏、过时或引用不稳定;
- 1—2分:明显不适合作为搜索工具使用。
四、测评环境与基本原则
为了保证结果尽可能公平,建议测评时保持以下条件一致:
- 使用相同网络环境;
- 使用相同问题集;
- 每个问题至少重复测试两次;
- 对同一AI搜索工具使用默认模式和增强搜索模式分别测试;
- 对结果进行人工核验;
- 不只看答案是否“看起来合理”,还要打开来源检查。
建议记录以下信息:
- 测试时间;
- 使用工具名称;
- 模型版本或搜索模式;
- 原始问题;
- AI返回答案;
- 引用来源;
- 人工核验结果;
- 评分与备注。
五、测试问题集设计
为了覆盖不同使用场景,本文将问题分为七类。
1. 实时资讯类
用于测试AI搜索对最新事件、政策、产品发布、市场变化的掌握能力。
示例问题:
请总结最近30天内AI搜索领域的重要产品更新,并列出每条信息的来源链接。
评价重点:
- 是否真的覆盖最近30天;
- 是否有明确时间;
- 是否引用官方博客、新闻稿或权威媒体;
- 是否混入过时信息。
2. 技术排错类
用于测试AI搜索能否找到真实有效的解决方案,而不是编造命令。
示例问题:
Ubuntu 22.04 上 Docker 容器无法访问宿主机网络,常见原因有哪些?请给出排查命令和解决步骤。
评价重点:
- 命令是否正确;
- 是否区分Linux、macOS、Windows环境;
- 是否提醒安全风险;
- 是否提供逐步排查逻辑。
3. 产品对比类
用于测试AI搜索的综合归纳能力。
示例问题:
请对比 Perplexity、Google AI Overview、Kimi 搜索、秘塔AI搜索在中文信息检索、英文信息检索、引用质量和长文总结方面的表现。
评价重点:
- 是否避免无依据排名;
- 是否按维度对比;
- 是否说明结论适用范围;
- 是否承认版本变化可能影响结果。
4. 学术资料类
用于测试其对论文、标准、引用格式的处理能力。
示例问题:
请查找近三年关于 RAG 检索增强生成 的综述论文,列出标题、作者、年份、摘要重点和论文链接。
评价重点:
- 是否找到真实论文;
- 是否区分预印本和正式发表;
- 是否给出DOI、arXiv或出版社链接;
- 摘要是否准确。
5. 数据核验类
用于测试AI搜索是否能处理数字、统计口径和来源差异。
示例问题:
请查询中国新能源汽车近五年的销量数据,并说明不同来源之间统计口径可能有哪些差异。
评价重点:
- 是否给出年份和数据;
- 是否标注来源;
- 是否说明乘用车、新能源汽车、批发量、零售量等口径差异;
- 是否避免把预测值当作实际值。
6. 复杂决策类
用于测试AI搜索是否能给出可落地建议。
示例问题:
一家20人的跨境电商团队想引入AI搜索工具,用于市场调研、竞品分析、客服知识库和选品,请给出工具选型建议、风险点和实施步骤。
评价重点:
- 是否能结合业务场景;
- 是否给出分阶段实施计划;
- 是否考虑成本、权限、数据安全;
- 是否提出评估指标。
7. 事实陷阱类
用于测试幻觉控制能力。
示例问题:
请介绍一下2025年诺贝尔文学奖得主的代表作和获奖理由。
如果测试时间早于2025年诺贝尔文学奖公布,这个问题就属于典型陷阱。一个合格的AI搜索应该明确说明信息尚未公布,而不是编造获奖者。
评价重点:
- 是否识别时间不成立;
- 是否拒绝编造;
- 是否给出查询建议;
- 是否说明目前可确认的信息。
六、完整命令与提示词模板
下面给出一套可直接使用的测评命令。这里的“命令”既包括终端记录命令,也包括对AI搜索工具输入的标准化提示词。
1. 创建测评目录
mkdir -p ai-search-evaluation/{prompts,results,sources,screenshots,reports}
cd ai-search-evaluation
2. 创建问题集文件
cat > prompts/questions.md <<'EOF'
# AI搜索测评问题集
## Q1 实时资讯类
请总结最近30天内AI搜索领域的重要产品更新,并列出每条信息的来源链接。
## Q2 技术排错类
Ubuntu 22.04 上 Docker 容器无法访问宿主机网络,常见原因有哪些?请给出排查命令和解决步骤。
## Q3 产品对比类
请对比 Perplexity、Google AI Overview、Kimi 搜索、秘塔AI搜索在中文信息检索、英文信息检索、引用质量和长文总结方面的表现。
## Q4 学术资料类
请查找近三年关于 RAG 检索增强生成 的综述论文,列出标题、作者、年份、摘要重点和论文链接。
## Q5 数据核验类
请查询中国新能源汽车近五年的销量数据,并说明不同来源之间统计口径可能有哪些差异。
## Q6 复杂决策类
一家20人的跨境电商团队想引入AI搜索工具,用于市场调研、竞品分析、客服知识库和选品,请给出工具选型建议、风险点和实施步骤。
## Q7 事实陷阱类
请介绍一下2025年诺贝尔文学奖得主的代表作和获奖理由。
EOF
3. 创建统一提示词模板
cat > prompts/eval_prompt_template.md <<'EOF'
你是一名严谨的信息检索评测员。请回答以下问题,并严格遵守要求:
【问题】
{question}
【回答要求】
1. 先给出简明结论;
2. 再分点展开说明;
3. 每个关键事实必须附来源链接;
4. 对无法确认的信息必须明确说明“无法确认”;
5. 不得编造链接、论文、作者、数据或新闻;
6. 如果不同来源存在冲突,请说明冲突点和可能原因;
7. 最后给出“可进一步核验的来源清单”。
请开始回答。
EOF
4. 创建评分表模板
cat > results/scoring_template.csv <<'EOF'
tool,mode,question_id,accuracy,timeliness,source_quality,citation_verifiability,structure,depth,hallucination_control,actionability,total_score,notes
EOF
5. 创建人工核验记录表
cat > results/fact_check_template.md <<'EOF'
# 人工核验记录
## 基本信息
- 工具名称:
- 搜索模式:
- 测试时间:
- 问题编号:
- 原始问题:
## AI答案摘要
## 引用来源检查
| 序号 | 来源链接 | 是否可打开 | 是否支持答案中的关键事实 | 备注 |
|---|---|---|---|---|
| 1 | | | | |
## 关键事实核验
| 关键事实 | AI说法 | 人工核验结果 | 是否正确 | 备注 |
|---|---|---|---|---|
## 评分
| 维度 | 分数 | 理由 |
|---|---:|---|
| 准确性 | | |
| 时效性 | | |
| 来源质量 | | |
| 引用可核验性 | | |
| 结构化表达 | | |
| 深度分析 | | |
| 幻觉控制 | | |
| 可操作性 | | |
## 总结
EOF
6. 使用Shell生成单题测评文件
for i in {1..7}; do
cp results/fact_check_template.md "results/Q${i}_fact_check.md"
done
7. 使用Python生成评分汇总脚本
cat > summarize_scores.py <<'EOF'
import csv
input_file = "results/scoring_template.csv"
with open(input_file, newline='', encoding='utf-8') as f:
reader = csv.DictReader(f)
rows = list(reader)
if not rows:
print("暂无评分数据,请先填写 results/scoring_template.csv")
exit()
tool_scores = {}
for row in rows:
tool = row["tool"]
total = float(row["total_score"])
tool_scores.setdefault(tool, []).append(total)
print("AI搜索测评汇总:")
for tool, scores in tool_scores.items():
avg = sum(scores) / len(scores)
print(f"- {tool}: 平均分 {avg:.2f},样本数 {len(scores)}")
EOF
运行汇总:
python3 summarize_scores.py
8. 使用curl记录网页来源可访问性
如果AI搜索返回了一批链接,可以用下面的方式检测链接是否可打开:
cat > sources/links.txt <<'EOF'
https://example.com
https://example.org
EOF
while read url; do
echo "Checking: $url"
curl -I -L --max-time 10 "$url" | head -n 1
done < sources/links.txt
如果希望保存完整结果:
while read url; do
echo "===== $url =====" >> sources/link_check_result.txt
curl -I -L --max-time 10 "$url" >> sources/link_check_result.txt 2>&1
echo "" >> sources/link_check_result.txt
done < sources/links.txt
七、测评结果记录示例
以下给出一个记录方式示例,方便理解如何评分。
示例:技术排错类问题
问题:
Ubuntu 22.04 上 Docker 容器无法访问宿主机网络,常见原因有哪些?请给出排查命令和解决步骤。
理想答案应包含:
- 检查容器网络模式;
- 检查Docker bridge网络;
- 检查iptables或nftables规则;
- 检查宿主机防火墙;
- 检查DNS配置;
- 检查目标服务监听地址;
- 区分访问宿主机IP、网关IP、host.docker.internal;
- 给出安全提醒。
较好的排查命令包括:
docker network ls
docker network inspect bridge
docker inspect
ip addr
ip route
iptables -L -n -v
sudo nft list ruleset
sudo ufw status verbose
docker exec -it sh
ping
curl -v http://:
ss -lntp
如果某个AI搜索只回答“重启Docker即可”,则准确性和深度都应较低;如果它还引用了错误平台的解决方案,例如把Docker Desktop for Mac的用法直接套到Ubuntu服务器,也应扣分。
八、关键发现与常见问题
经过多类问题测试后,AI搜索工具通常会暴露出以下共性问题。
1. 答案很像报告,但引用并不一定支撑结论
很多AI搜索的回答形式非常漂亮,有摘要、有表格、有结论。但打开引用后会发现,引用网页可能只包含部分信息,甚至与答案中的关键数字无关。因此,评测时不能只看“有没有引用”,还要看“引用是否真的支持该说法”。
2. 对实时信息的掌握不稳定
AI搜索通常比纯离线大模型更适合查询实时信息,但不代表一定准确。对于新闻、政策、产品功能更新,最好优先检查官方公告、监管机构网站、公司博客或权威媒体报道。
3. 中文生态信息源质量参差不齐
在中文搜索场景中,AI可能引用大量二次搬运内容、营销软文、论坛帖子或自媒体文章。如果问题涉及法律、医疗、金融、政策或投资决策,必须提高来源质量要求。
4. 学术搜索容易出现“看似真实”的论文幻觉
论文类问题是AI搜索幻觉高发区。常见问题包括:标题略有错误、作者顺序错误、年份错误、把博客写成论文、把预印本当正式发表。对于学术场景,建议优先核验Google Scholar、Semantic Scholar、arXiv、PubMed、IEEE、ACM、Springer、Elsevier等来源。
5. 复杂决策问题需要额外检查商业假设
AI搜索在复杂决策问题上往往能快速给出框架,但它不知道企业真实预算、人员能力、数据权限、合规要求和组织阻力。因此,这类答案适合作为咨询初稿,而不是最终决策依据。
九、AI搜索使用建议
1. 把AI搜索当“研究助理”,不要当“最终裁判”
AI搜索最适合做初步资料收集、观点归纳、来源导航和方案草拟。它可以显著减少信息搜集时间,但关键事实仍需要人工核验。
2. 提问时明确要求来源和口径
例如,不要只问:
中国新能源汽车销量是多少?
更好的问法是:
请查询2020—2024年中国新能源汽车销量,优先使用中汽协、乘联会或国家统计局来源,并说明批发量、零售量、出口量是否混用。
3. 对高风险领域设置“不可编造”约束
例如:
如果无法找到官方来源,请直接说无法确认,不要根据二手资料推测。
4. 要求输出可核验表格
AI搜索越结构化,越方便复查。例如:
请用表格列出事实、数据、来源链接、发布日期、可信度评级。
5. 对同一问题进行多工具交叉验证
如果两个AI搜索工具给出不同结论,应优先检查来源,而不是看哪个回答更流畅。信息检索的核心是证据,不是文采。
十、推荐的AI搜索评测提示词
下面是一段适用于大多数AI搜索工具的通用提示词:
请作为一名严谨的信息检索分析师回答我的问题。
要求:
1. 先给出结论;
2. 所有关键事实必须附可点击来源;
3. 优先引用官方、论文、标准、监管机构、权威媒体;
4. 标注每条来源的发布时间;
5. 如果信息不确定,请明确写出“不确定”;
6. 不要编造来源、数据、论文和人物;
7. 如果不同来源有冲突,请说明冲突原因;
8. 最后给出我应该如何进一步核验。
我的问题是:
【在这里输入问题】
如果是技术问题,可以使用:
请作为一名资深运维工程师和技术文档检索员回答。
要求:
1. 区分操作系统和软件版本;
2. 给出逐步排查路径;
3. 每一步提供可执行命令;
4. 说明命令预期输出;
5. 引用官方文档或高质量技术资料;
6. 不确定的地方不要猜测;
7. 给出风险提示和回滚方案。
问题:
【在这里输入问题】
如果是数据问题,可以使用:
请作为一名数据分析师回答。
要求:
1. 给出数据表;
2. 标注年份、单位、统计口径;
3. 给出来源链接;
4. 说明不同来源数据差异;
5. 不要把预测值和实际值混用;
6. 如果数据缺失,请明确说明;
7. 最后给出核验路径。
问题:
【在这里输入问题】
十一、结论:AI搜索值得用,但必须会用
总体来看,AI搜索已经能够显著提升信息检索效率,尤其适合以下场景:
- 快速了解一个陌生领域;
- 汇总近期新闻和产品动态;
- 对比多个工具或方案;
- 整理论文、资料和报告;
- 生成排查清单;
- 搭建决策分析框架。
但AI搜索并不能完全替代人工判断。它最容易出问题的地方,恰恰是用户最容易放松警惕的地方:答案结构很完整、语气很自信、引用看起来很多,却未必每一条都可靠。
因此,一套成熟的AI搜索工作流应该是:
明确问题 → 要求来源 → 获取答案 → 打开引用 → 核验关键事实 → 多源交叉验证 → 形成结论
如果只是把AI搜索当成“更会写总结的搜索框”,它的价值会被低估;如果把它当成“永远正确的专家”,则会带来风险。更合理的定位是:AI搜索是一个高效的信息研究助理,能够帮你更快接近答案,但最终结论仍应建立在可靠证据和专业判断之上。
附录:一键初始化测评项目完整命令
以下命令可一次性创建目录、问题集、模板和汇总脚本:
mkdir -p ai-search-evaluation/{prompts,results,sources,screenshots,reports}
cd ai-search-evaluation
cat > prompts/questions.md <<'EOF'
# AI搜索测评问题集
## Q1 实时资讯类
请总结最近30天内AI搜索领域的重要产品更新,并列出每条信息的来源链接。
## Q2 技术排错类
Ubuntu 22.04 上 Docker 容器无法访问宿主机网络,常见原因有哪些?请给出排查命令和解决步骤。
## Q3 产品对比类
请对比 Perplexity、Google AI Overview、Kimi 搜索、秘塔AI搜索在中文信息检索、英文信息检索、引用质量和长文总结方面的表现。
## Q4 学术资料类
请查找近三年关于 RAG 检索增强生成 的综述论文,列出标题、作者、年份、摘要重点和论文链接。
## Q5 数据核验类
请查询中国新能源汽车近五年的销量数据,并说明不同来源之间统计口径可能有哪些差异。
## Q6 复杂决策类
一家20人的跨境电商团队想引入AI搜索工具,用于市场调研、竞品分析、客服知识库和选品,请给出工具选型建议、风险点和实施步骤。
## Q7 事实陷阱类
请介绍一下2025年诺贝尔文学奖得主的代表作和获奖理由。
EOF
cat > prompts/eval_prompt_template.md <<'EOF'
你是一名严谨的信息检索评测员。请回答以下问题,并严格遵守要求:
【问题】
{question}
【回答要求】
1. 先给出简明结论;
2. 再分点展开说明;
3. 每个关键事实必须附来源链接;
4. 对无法确认的信息必须明确说明“无法确认”;
5. 不得编造链接、论文、作者、数据或新闻;
6. 如果不同来源存在冲突,请说明冲突点和可能原因;
7. 最后给出“可进一步核验的来源清单”。
请开始回答。
EOF
cat > results/scoring_template.csv <<'EOF'
tool,mode,question_id,accuracy,timeliness,source_quality,citation_verifiability,structure,depth,hallucination_control,actionability,total_score,notes
EOF
cat > results/fact_check_template.md <<'EOF'
# 人工核验记录
## 基本信息
- 工具名称:
- 搜索模式:
- 测试时间:
- 问题编号:
- 原始问题:
## AI答案摘要
## 引用来源检查
| 序号 | 来源链接 | 是否可打开 | 是否支持答案中的关键事实 | 备注 |
|---|---|---|---|---|
## 关键事实核验
| 关键事实 | AI说法 | 人工核验结果 | 是否正确 | 备注 |
|---|---|---|---|---|
## 评分
| 维度 | 分数 | 理由 |
|---|---:|---|
| 准确性 | | |
| 时效性 | | |
| 来源质量 | | |
| 引用可核验性 | | |
| 结构化表达 | | |
| 深度分析 | | |
| 幻觉控制 | | |
| 可操作性 | | |
## 总结
EOF
for i in {1..7}; do
cp results/fact_check_template.md "results/Q${i}_fact_check.md"
done
cat > summarize_scores.py <<'EOF'
import csv
input_file = "results/scoring_template.csv"
with open(input_file, newline='', encoding='utf-8') as f:
reader = csv.DictReader(f)
rows = list(reader)
if not rows:
print("暂无评分数据,请先填写 results/scoring_template.csv")
exit()
tool_scores = {}
for row in rows:
tool = row["tool"]
total = float(row["total_score"])
tool_scores.setdefault(tool, []).append(total)
print("AI搜索测评汇总:")
for tool, scores in tool_scores.items():
avg = sum(scores) / len(scores)
print(f"- {tool}: 平均分 {avg:.2f},样本数 {len(scores)}")
EOF
echo "AI搜索测评项目已初始化完成。"
echo "下一步:将 prompts/questions.md 中的问题逐条输入不同AI搜索工具,并把结果记录到 results 目录。"
以上就是完整的AI搜索测评报告与可复用命令。通过这套方法,你可以更系统地判断一个AI搜索工具到底是“看起来聪明”,还是“真的可靠”。