我实测了 AI 搜索：好用在哪、坑在哪，以及一个可跑的 RAG 示例源码

发布人：慈云数据-客服中心发布时间：2026-06-04 09:26 阅读量：104

AI搜索测评报告｜附源码

摘要

随着大语言模型（LLM）能力的持续提升，“AI搜索”正在从传统的关键词检索，演进为“理解问题—检索信息—综合生成答案—给出来源”的新型信息获取方式。相比传统搜索引擎，AI搜索不仅能返回网页列表，还能直接生成结构化答案、总结多来源内容、解释复杂问题，并在一定程度上降低用户筛选信息的成本。

本文将围绕 AI 搜索系统的核心能力进行测评，包括：检索准确性、答案可靠性、引用可追溯性、复杂问题处理能力、时效性、多轮问答能力、中文语义理解能力、代码与技术问题表现等维度。同时，文章还附带一个可运行的简易 AI 搜索原型源码，帮助读者理解 AI 搜索的基本实现流程。

本文适合以下读者阅读：

想了解 AI 搜索产品能力边界的用户；
正在评估 AI 搜索工具的产品经理、运营人员；
想构建 AI 搜索 / RAG 系统的开发者；
对大语言模型落地应用感兴趣的技术爱好者。

一、什么是 AI 搜索？

传统搜索引擎的核心逻辑是：用户输入关键词，系统根据网页索引、相关性排序、链接权重、点击行为等因素，返回一组网页结果。用户需要自己打开网页、筛选信息、判断可信度，并最终整理答案。

而 AI 搜索的核心逻辑更接近下面这个流程：

用户输入自然语言问题；
系统理解用户意图；
搜索或检索相关资料；
将资料片段交给大语言模型；
模型生成综合答案；
同时给出信息来源、引用链接或参考文档。

简单来说，AI 搜索不是“帮你找网页”，而是“帮你读网页并总结答案”。

典型的 AI 搜索系统通常由以下几个模块组成：

查询理解模块：识别用户真正想问什么；
检索模块：从互联网、数据库、知识库中召回相关内容；
排序模块：判断哪些内容更相关、更权威；
生成模块：由大语言模型整合信息并生成回答；
引用模块：标注答案对应的来源；
安全与事实校验模块：减少幻觉、错误引用和不可靠结论。

从技术架构上看，当前主流 AI 搜索大多采用类似 RAG（Retrieval-Augmented Generation，检索增强生成）的方式。RAG 的思想是：不要完全依赖模型参数中的“记忆”，而是在回答之前先检索外部知识，再基于检索内容生成答案。

二、测评对象与测评方法

本次测评关注的不是某一个单一产品，而是从通用 AI 搜索能力角度进行评估。我们假设被测系统具备如下能力：

支持自然语言搜索；
可以联网或接入知识库；
能够生成中文答案；
能够返回信息来源；
支持一定程度的多轮追问；
能处理技术、财经、生活、百科、政策等常见问题。

为了保证测评尽量全面，本文从以下八个维度进行分析：

测评维度	说明
检索准确性	能否找到与问题高度相关的信息
答案完整性	是否回答了问题的关键点
事实可靠性	是否存在明显错误或编造
引用可追溯性	引用来源是否真实、对应准确
时效性	对近期事件、政策、数据是否敏感
中文理解能力	是否能理解中文语境、歧义和复杂表达
多轮问答能力	是否能承接上下文继续回答
技术问题能力	对代码、报错、方案设计是否有效

测评问题覆盖以下类型：

事实型问题：例如“某政策发布时间是什么？”
比较型问题：例如“产品 A 和产品 B 有什么区别？”
决策型问题：例如“中小企业应该选择哪种数据库？”
技术型问题：例如“如何用 Python 实现向量检索？”
开放型问题：例如“AI 搜索未来会取代传统搜索吗？”

三、AI 搜索核心能力测评

1. 检索准确性

检索准确性是 AI 搜索最基础的能力。如果召回的信息本身不相关，那么后续生成再流畅，也可能只是“包装精美的错误答案”。

在实际使用中，AI 搜索对以下类型问题表现较好：

概念解释；
常识问答；
技术文档查询；
产品功能对比；
历史资料总结；
学术或行业主题综述。

例如用户搜索：

“RAG 和微调有什么区别？”

优秀的 AI 搜索通常会从多个资料中整理出以下要点：

RAG 主要通过外部知识检索增强回答；
微调是通过训练更新模型参数；
RAG 更适合知识频繁变化的场景；
微调更适合风格、格式、特定任务能力固化；
两者可以结合使用。

这类问题的资料较多、语义明确，因此 AI 搜索往往表现不错。

但在一些问题上，检索准确性会下降，例如：

问题过于模糊；
问题包含冷门实体；
搜索目标是小众网站内容；
用户使用口语化、错别字或省略表达；
问题需要跨语言检索。

例如：

“那个去年很火的国产 AI 办公插件怎么样？”

这个问题中，“那个”“去年很火”“国产 AI 办公插件”都不够明确。AI 搜索可能会猜测用户指的是某个产品，但猜测未必正确。优秀的 AI 搜索应该先反问用户，或者列出可能对象，而不是直接给出确定答案。

测评结论：

AI 搜索在中高频知识和明确问题上检索准确性较高，但面对模糊查询、小众信息、强上下文依赖问题时，仍需要用户进一步补充条件。

2. 答案完整性

AI 搜索相比传统搜索最大的优势，是可以直接生成完整答案。一个优秀的 AI 搜索回答不应只是简单摘录，而应该具备结构化组织能力。

例如用户问：

“个人博客应该选择 WordPress、Hexo 还是 Notion？”

较好的回答应包括：

三者基本介绍；
适合人群；
部署成本；
可定制性；
SEO 能力；
后期维护难度；
数据可迁移性；
推荐结论。

如果 AI 搜索只回答“WordPress 适合内容站，Hexo 适合技术用户，Notion 适合轻量记录”，虽然没有错，但不够完整。

在实际测评中，AI 搜索在生成结构化答案方面表现明显优于传统搜索。它可以快速生成：

表格对比；
分点说明；
操作步骤；
优缺点分析；
结论建议；
风险提醒。

不过，答案完整性也存在两个常见问题。

第一，模型容易“看起来很全面”，但实际上遗漏关键因素。例如比较云服务器时，只讲价格、配置、带宽，却不讲备案、地域、售后、生态兼容。

第二，模型可能为了追求完整而加入没有依据的内容。尤其在商业产品对比、政策解读、医疗健康等领域，如果没有明确来源支撑，答案完整但风险较高。

测评结论：

AI 搜索在答案组织和结构化表达上优势明显，但完整性不等于正确性。用户应重点关注答案中是否有可靠来源支撑。

3. 事实可靠性

事实可靠性是 AI 搜索最容易被质疑的地方。大语言模型具有生成能力，但也可能产生“幻觉”，即生成看似合理但实际错误的内容。

AI 搜索通过联网检索和引用来源，可以在一定程度上减少幻觉。但这并不意味着它完全可靠。错误通常来自以下几类情况：

（1）检索结果本身错误

如果网页内容本身过时、错误或带有营销倾向，AI 搜索可能会将错误信息整合进答案。

（2）模型误读来源

有时来源中说的是“A 不支持某功能”，模型总结时却写成“A 支持某功能”。这属于阅读理解或信息抽取错误。

（3）引用与结论不匹配

这是 AI 搜索中较隐蔽的问题。答案给出了引用链接，但引用内容并不能支持对应结论。用户如果不点开来源，很难发现问题。

（4）时间敏感信息过期

例如价格、政策、版本功能、法规条款等信息变化很快。AI 搜索如果没有实时检索，容易给出旧答案。

在事实可靠性方面，AI 搜索适合处理“资料充分且稳定”的问题，例如：

技术概念；
历史事件；
基础教程；
学术定义；
产品官方文档。

对于以下问题，则需要谨慎：

医疗诊断；
投资建议；
法律结论；
最新政策；
金融市场预测；
具体价格和库存；
企业经营数据。

测评结论：

AI 搜索比纯大模型问答更可靠，但仍不能完全替代人工核查。对于高风险场景，必须查看原始来源。

4. 引用可追溯性

引用来源是 AI 搜索区别于普通 AI 聊天机器人的重要特征。理想情况下，AI 搜索应该做到：

每个关键结论都有来源；
来源来自权威网站或官方文档；
引用内容与答案对应；
链接可打开；
引用时间较新；
不混淆多个来源的信息。

在测评中，AI 搜索引用通常存在三种表现：

优秀表现

答案中每个核心事实后面都有引用标记，并且点击来源后，确实能找到对应信息。例如技术文档、官方公告、论文摘要等。

一般表现

答案末尾列出若干参考链接，但正文结论没有逐条对应。这种方式虽然有来源，但用户仍然需要自行判断每个结论来自哪里。

较差表现

引用链接存在，但内容与答案不匹配，甚至链接无法访问。这会造成“伪可信”的问题。

从用户角度看，引用质量比引用数量更重要。一个来自官方文档的准确引用，往往胜过多个来源不明的转载页面。

测评结论：

AI 搜索的引用能力正在快速进步，但引用不等于证据。用户需要特别关注“结论是否能被引用内容直接支持”。

5. 时效性

时效性是 AI 搜索相比离线大模型的重要优势。如果系统能够联网，就可以查询近期信息，例如：

最新软件版本；
今日新闻；
新发布政策；
实时价格；
最近比赛结果；
企业公告；
安全漏洞披露。

但是，AI 搜索的时效性取决于多个因素：

是否真的联网；
搜索索引更新频率；
是否优先选择新内容；
是否能识别旧信息；
是否在答案中标注时间；
是否能处理不同来源之间的冲突。

例如用户问：

“某开源框架最新版本是多少？”

较好的 AI 搜索应该优先检索官方 GitHub、官网或包管理平台，并明确说明查询时间。如果只是给出一个版本号，却没有来源和时间，那么答案风险较高。

在时效性问题上，推荐 AI 搜索采用以下回答格式：

“截至我检索到的资料时间，官方页面显示最新版本为 X。由于版本可能更新，建议以官方发布页为准。”

这种表达既给出答案，也提醒用户信息可能变化。

测评结论：

AI 搜索在时效信息处理上优于普通大模型，但用户仍应关注检索时间和来源权威性。

6. 中文语义理解能力

中文搜索存在一些特殊挑战，包括：

分词问题；
同音词和多义词；
省略主语；
口语表达；
网络热词；
地域化表达；
中英混合术语；
长句复杂语义。

例如：

“苹果发布会那个新芯片和 M2 差多少？”

这句话里，“苹果”指 Apple，不是水果；“那个新芯片”需要结合上下文；“差多少”可能指性能差距、价格差距或能耗差距。

优秀的 AI 搜索应该能识别潜在歧义，并在必要时询问：

“你指的是 M3、M4 还是其他芯片？你想比较性能、功耗还是价格？”

在中文测评中，AI 搜索对于规范书面中文问题表现较好，对于口语化、强上下文、带梗表达的问题表现不稳定。

不过，相比传统关键词搜索，AI 搜索在中文语义理解方面仍有明显优势。用户不必精确输入关键词，也能得到较相关答案。例如搜索：

“电脑开机黑屏但是风扇在转怎么办？”

传统搜索可能返回大量论坛帖子；AI 搜索则可以直接总结排查步骤：

检查显示器和视频线；
尝试外接显示器；
断电重插内存；
清理 CMOS；
排查显卡；
判断是否主板或电源问题。

测评结论：

AI 搜索对中文自然语言的理解能力较强，尤其适合问题式搜索。但在歧义表达中，仍需要更好的澄清机制。

7. 多轮问答能力

多轮问答是 AI 搜索区别于传统搜索的重要体验升级。用户不需要每次重新描述问题，可以基于上一轮答案继续追问。

例如：

第一轮：

“帮我比较一下 MySQL 和 PostgreSQL。”

第二轮：

“如果是 SaaS 多租户系统呢？”

第三轮：

“团队只有 3 个后端，怎么选？”

AI 搜索如果具备良好多轮能力，就能持续保留上下文，知道用户仍在讨论数据库选型，并结合 SaaS、多租户、小团队等条件给出更具体建议。

多轮问答的优势在于：

降低重复输入成本；
支持逐步细化需求；
更接近真实咨询过程；
可以从泛泛回答走向个性化方案。

但多轮能力也存在风险：

上下文过长后容易遗忘；
早期错误会影响后续答案；
用户条件变化时模型可能没意识到；
检索结果未必会随追问更新。

优秀的 AI 搜索系统应该在多轮中做到两点：

明确当前假设条件；
当问题需要新资料时重新检索，而不是只依赖历史上下文。

测评结论：

多轮问答显著提升了 AI 搜索的可用性，尤其适合方案咨询、学习辅导和技术排错。但复杂对话中仍需用户及时纠偏。

8. 技术与代码问题能力

技术问题是 AI 搜索非常适合的场景之一。因为技术内容通常具有大量公开文档、Stack Overflow、GitHub Issue、博客教程等资料来源。

对于以下技术问题，AI 搜索表现较好：

报错原因分析；
API 使用示例；
框架选型；
配置说明；
代码片段生成；
性能优化建议；
安全最佳实践；
开源项目对比。

例如用户问：

“FastAPI 如何实现 JWT 登录？”

AI 搜索可以整合官方文档、示例代码和安全注意事项，给出可运行的代码框架。这比用户自己搜索多个网页效率更高。

不过，代码类问题也存在风险：

生成的代码可能无法直接运行；
依赖版本可能不兼容；
安全逻辑可能不完整；
示例代码缺少异常处理；
引用了过时 API；
对生产环境要求考虑不足。

因此，在技术场景下，AI 搜索最适合充当“高级搜索助手”和“初稿生成器”，而不是完全替代开发者判断。

测评结论：

AI 搜索在技术问题上实用价值很高，尤其适合快速定位方向和生成示例。但生产代码仍需要测试、审查和安全加固。

四、AI 搜索与传统搜索对比

对比项	传统搜索	AI 搜索
输入方式	关键词为主	自然语言问题
输出结果	网页链接列表	综合答案 + 来源
信息筛选	用户自己筛选	系统辅助总结
多轮交互	较弱	较强
复杂问题处理	依赖用户拆解	可自动拆解
可信度判断	用户看来源	需要检查引用
时效信息	强	取决于联网能力
答案生成	无或较弱	强
幻觉风险	低	存在
使用门槛	中等	较低

从体验上看，AI 搜索更像是“搜索引擎 + 阅读助手 + 总结助手 + 咨询顾问”的组合。它在提高效率方面非常明显，但同时也引入了新的问题：用户可能过度相信生成答案，而忽略原始来源。

五、AI 搜索适合哪些场景？

1. 学习与知识入门

当用户面对一个陌生概念时，AI 搜索可以快速提供背景介绍、关键术语、学习路径和参考资料。例如：

“Transformer 是什么？”
“如何入门机器学习？”
“HTTP/2 和 HTTP/3 有什么区别？”

2. 技术排错

AI 搜索可以根据报错信息检索相似案例，并总结解决方案。例如：

Python 包安装失败；
Docker 容器无法启动；
Nginx 反向代理配置错误；
前端依赖冲突。

3. 产品和工具选型

AI 搜索可以快速比较多个工具：

Notion、Obsidian、语雀对比；
MySQL、PostgreSQL、MongoDB 对比；
云服务器厂商对比；
AI 编程工具对比。

4. 文档总结

对于长文档、政策文件、论文、财报等，AI 搜索可以提取要点，帮助用户快速理解内容。

5. 日常决策辅助

例如旅行攻略、装修材料选择、家电购买建议等，AI 搜索可以提供初步参考。

六、AI 搜索不适合完全依赖的场景

虽然 AI 搜索很方便，但以下场景不建议完全依赖：

医疗诊断：可能影响健康和生命安全；
法律结论：不同地区、案件细节差异很大；
投资建议：市场变化快，风险高；
重大商业决策：需要一手数据和专业尽调；
考试答案：可能存在错误或不符合评分标准；
精确数据查询：例如实时价格、库存、汇率等；
敏感政策解读：必须以官方文件为准。

在这些场景中，AI 搜索可以作为辅助工具，但最终判断应来自专业人士、官方渠道或权威数据源。

七、简易 AI 搜索系统实现思路

一个最小可用的 AI 搜索系统可以分为四步：

用户输入问题；
调用搜索 API 获取网页结果；
抓取网页正文并清洗文本；
将搜索结果交给大模型生成答案。

如果需要构建企业内部知识库搜索，则流程通常是：

文档切分；
文本向量化；
存入向量数据库；
用户问题向量化；
相似度检索；
将检索片段交给大模型；
生成带引用的答案。

下面给出一个基于 Python 的简易 RAG 搜索示例。该示例不依赖复杂向量数据库，使用 sentence-transformers 生成向量，并用余弦相似度进行本地检索。

八、附源码：本地知识库 AI 搜索 Demo

1. 安装依赖

pip install sentence-transformers numpy openai

说明：
如果你使用的是 OpenAI SDK，请配置对应的 API Key。
如果你使用其他大模型服务，也可以替换 generate_answer 函数中的调用逻辑。

2. 示例代码

import os
import numpy as np
from typing import List, Dict
from sentence_transformers import SentenceTransformer
from openai import OpenAI


# =========================
# 1. 示例知识库
# =========================

documents = [
    {
        "id": "doc_001",
        "title": "什么是 AI 搜索",
        "content": """
AI 搜索是一种结合搜索引擎和大语言模型的新型信息检索方式。
它不仅返回网页链接，还会对检索到的信息进行理解、总结和生成。
常见的 AI 搜索系统通常采用 RAG 技术，即检索增强生成。
"""
    },
    {
        "id": "doc_002",
        "title": "RAG 的基本原理",
        "content": """
RAG 是 Retrieval-Augmented Generation 的缩写，中文称为检索增强生成。
它的核心思想是在大语言模型生成答案之前，先从外部知识库中检索相关内容，
再把检索结果作为上下文提供给模型，从而降低幻觉并提升答案的可追溯性。
"""
    },
    {
        "id": "doc_003",
        "title": "AI 搜索的优势",
        "content": """
AI 搜索的优势包括自然语言理解能力强、可以直接生成结构化答案、
支持多轮追问、能够整合多个来源的信息，并且适合用于学习、技术排错和资料总结。
"""
    },
    {
        "id": "doc_004",
        "title": "AI 搜索的局限",
        "content": """
AI 搜索仍然可能出现幻觉、引用不准确、来源质量不稳定、时效性不足等问题。
在医疗、法律、投资等高风险领域，用户不应该完全依赖 AI 搜索的结论。
"""
    }
]


# =========================
# 2. 文本向量化
# =========================

class LocalVectorSearch:
    def __init__(self, docs: List[Dict], model_name: str = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"):
        self.docs = docs
        self.model = SentenceTransformer(model_name)
        self.doc_embeddings = self._embed_documents()

    def _embed_documents(self):
        texts = [doc["title"] + "\n" + doc["content"] for doc in self.docs]
        embeddings = self.model.encode(texts, normalize_embeddings=True)
        return np.array(embeddings)

    def search(self, query: str, top_k: int = 3):
        query_embedding = self.model.encode([query], normalize_embeddings=True)
        scores = np.dot(self.doc_embeddings, query_embedding[0])

        ranked_indices = np.argsort(scores)[::-1][:top_k]

        results = []
        for idx in ranked_indices:
            doc = self.docs[idx]
            results.append({
                "id": doc["id"],
                "title": doc["title"],
                "content": doc["content"].strip(),
                "score": float(scores[idx])
            })

        return results


# =========================
# 3. 调用大模型生成答案
# =========================

def build_prompt(query: str, search_results: List[Dict]) -> str:
    context = ""

    for i, item in enumerate(search_results, start=1):
        context += f"""
[资料{i}]
标题：{item["title"]}
来源ID：{item["id"]}
相关度：{item["score"]:.4f}
内容：{item["content"]}
"""

    prompt = f"""
你是一个严谨的 AI 搜索助手。
请只根据下面提供的资料回答用户问题。
如果资料中没有答案，请明确说明“当前资料不足，无法确定”，不要编造。
回答时请使用中文，并在关键结论后标注来源ID。

用户问题：
{query}

可用资料：
{context}

请输出：
1. 简明答案
2. 关键依据
3. 可能的风险或限制
"""
    return prompt


def generate_answer(prompt: str) -> str:
    client = OpenAI(
        api_key=os.getenv("OPENAI_API_KEY")
    )

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {
                "role": "system",
                "content": "你是一个注重事实准确性和引用依据的中文 AI 搜索助手。"
            },
            {
                "role": "user",
                "content": prompt
            }
        ],
        temperature=0.2
    )

    return response.choices[0].message.content


# =========================
# 4. 主程序
# =========================

def main():
    search_engine = LocalVectorSearch(documents)

    print("本地知识库 AI 搜索 Demo")
    print("输入 exit 退出")
    print("-" * 40)

    while True:
        query = input("\n请输入你的问题：").strip()

        if query.lower() in ["exit", "quit"]:
            print("已退出。")
            break

        if not query:
            continue

        results = search_engine.search(query, top_k=3)

        print("\n检索结果：")
        for item in results:
            print(f"- {item['title']} | score={item['score']:.4f} | id={item['id']}")

        prompt = build_prompt(query, results)
        answer = generate_answer(prompt)

        print("\nAI 回答：")
        print(answer)


if __name__ == "__main__":
    main()

3. 运行方式

在终端执行：

export OPENAI_API_KEY="你的API_KEY"
python ai_search_demo.py

然后输入问题，例如：

AI 搜索有什么优势？

系统会先从本地知识库中检索相关文档，再调用大模型生成带来源 ID 的答案。

九、源码逻辑解析

上面的 Demo 虽然简单，但已经包含 AI 搜索的核心流程。

1. 文档准备

documents = [...]

这里模拟了一个小型知识库。真实业务中，文档可能来自：

PDF；
Word；
Markdown；
网页；
数据库；
企业知识库；
客服 FAQ；
产品说明书。

2. 向量化

self.model.encode(texts, normalize_embeddings=True)

向量化的作用是把文本转换成数学向量。语义相近的文本，在向量空间中的距离也更近。

例如：

“AI 搜索的优势”
“智能搜索有什么好处”

虽然关键词不同，但语义接近，因此向量相似度会较高。

3. 相似度检索

scores = np.dot(self.doc_embeddings, query_embedding[0])

由于向量已经归一化，点积结果可以近似看作余弦相似度。分数越高，说明文档与问题越相关。

4. Prompt 构造

请只根据下面提供的资料回答用户问题。
如果资料中没有答案，请明确说明“当前资料不足，无法确定”，不要编造。

这段提示词非常重要。它能减少模型脱离资料自由发挥的概率，提高答案可靠性。

5. 生成答案

temperature=0.2

较低的 temperature 可以让回答更加稳定、保守，适合搜索和问答场景。如果是创意写作，可以适当提高该参数。

十、如何改造成生产级 AI 搜索？

上面的 Demo 只是教学示例。如果要用于真实业务，还需要增强很多能力。

1. 更好的文档切分

真实文档通常很长，需要按段落、标题、语义进行切分。切得太短会丢失上下文，切得太长会影响检索精度。

常见策略包括：

按标题层级切分；
按固定 token 长度切分；
使用滑动窗口；
保留章节路径；
为每个片段添加元数据。

2. 使用专业向量数据库

当文档数量较大时，本地 NumPy 检索效率不够。可以使用：

Milvus；
FAISS；
Qdrant；
Weaviate；
Elasticsearch 向量检索；
pgvector。

3. 混合检索

单纯向量检索有时不适合精确关键词，例如产品型号、错误码、法规条款编号。生产环境通常会采用混合检索：

BM25 关键词检索；
向量语义检索；
重排序模型；
规则过滤。

4. 引用精确定位

不仅要引用文档 ID，还应引用到具体段落、页码、URL、时间戳。这样用户才能快速验证答案。

5. 权限控制

企业知识库搜索必须考虑权限问题。不同用户能看到的文档不同，检索阶段就应该做权限过滤，而不是生成后再过滤。

6. 答案评估机制

生产级 AI 搜索应建立评估集，持续评估：

召回率；
准确率；
答案满意度；
幻觉率；
引用命中率；
用户点击反馈；
多轮追问成功率。

十一、综合评分

基于本文测评维度，可以给通用 AI 搜索能力一个参考评分：

维度	评分	说明
检索准确性	8/10	明确问题表现好，模糊问题仍需澄清
答案完整性	8.5/10	结构化能力强，但可能遗漏关键条件
事实可靠性	7/10	有来源辅助，但仍存在幻觉风险
引用可追溯性	7/10	引用能力有价值，但需检查匹配度
时效性	7.5/10	联网后较好，但依赖索引与来源
中文理解能力	8/10	普通中文问题表现较好
多轮问答能力	8/10	咨询式体验明显提升
技术问题能力	8.5/10	对代码和文档类问题很实用