上一篇 下一篇 分享链接 返回 返回顶部

从搜索到报告:用 AI 浏览器搭一套可复用的自动化工作流

发布人:慈云数据-客服中心 发布时间:2小时前 阅读量:0

AI浏览器 工作流自动化教程|附完整命令

在过去几年里,AI 工具已经从“辅助问答”逐渐演变成“执行任务”的智能助手。尤其是 AI 浏览器的出现,让用户不再只是把网页当作信息来源,而是可以让 AI 直接理解网页内容、提取数据、填写表单、整理资料、生成报告,甚至串联多个工具完成一整套工作流。

本文将围绕“AI 浏览器工作流自动化”展开,介绍它适合解决哪些问题、如何搭建基础环境、如何设计自动化流程,并提供一套可直接参考的完整命令示例。无论你是运营、产品经理、研究员、开发者,还是希望提高日常办公效率的普通用户,都可以通过本文建立一套属于自己的 AI 浏览器自动化系统。


一、什么是 AI 浏览器工作流自动化?

所谓 AI 浏览器工作流自动化,可以理解为:

让 AI 在浏览器环境中自动完成网页访问、信息读取、数据整理、内容生成、表单填写、文件下载、结果汇总等一系列操作。

传统自动化工具通常依赖固定规则,例如使用脚本定位页面元素、点击按钮、抓取文本。但网页结构经常变化,固定脚本维护成本较高。而 AI 浏览器的优势在于,它不仅可以“操作网页”,还可以“理解网页”。

例如,你可以向 AI 浏览器下达类似指令:

打开知乎,搜索“AI 浏览器自动化”,阅读前 5 个高赞回答,总结主要观点,并生成一份 Markdown 报告。

或者:

进入指定电商网站,搜索“机械键盘”,筛选价格 300 元以内、销量较高的产品,整理商品名称、价格、评分和链接,输出为表格。

这类任务如果手动完成,可能需要 20 分钟甚至更久;如果流程设计合理,AI 浏览器可以在几分钟内完成初稿,大幅减少重复劳动。


二、AI 浏览器自动化适合哪些场景?

AI 浏览器自动化并不是万能工具,但它非常适合处理以下几类任务。


1. 信息检索与资料整理

这是最常见的使用场景。比如:

  • 搜索行业报告;
  • 汇总竞品信息;
  • 收集新闻动态;
  • 整理论文摘要;
  • 对比多个网页观点;
  • 提取网页中的表格和关键信息。

示例指令:

请搜索最近一个月关于“AI Agent 浏览器自动化”的中文资料,筛选出 10 篇质量较高的文章,提取标题、来源、发布时间、核心观点和链接,并整理成 Markdown 表格。

2. 内容创作与选题研究

内容创作者可以借助 AI 浏览器完成选题调研、素材收集和初稿生成。

例如:

请调研小红书、知乎、微信公众号中关于“AI 工具提效”的热门内容,分析高互动标题特点,总结 20 个适合写公众号文章的选题。

AI 浏览器可以访问网页内容,提取热门标题、评论观点和用户痛点,再结合语言模型生成可用的内容方向。


3. 竞品分析

产品经理、运营人员经常需要查看竞品官网、帮助中心、价格页、更新日志等内容。

示例任务:

请访问以下 5 个竞品官网,整理它们的产品定位、核心功能、价格套餐、目标用户和差异化卖点,并输出一份竞品分析报告。

如果配合表格和模板,AI 浏览器可以自动生成结构化分析文档。


4. 数据采集与结构化处理

对于公开网页中的数据,可以让 AI 浏览器提取并整理为 CSV、JSON 或 Markdown 表格。

例如:

请打开指定网页,提取页面中所有招聘岗位的信息,包括岗位名称、公司名称、城市、薪资、经验要求和职位链接,并输出为 CSV 格式。

需要注意的是,数据采集必须遵守网站规则、robots 协议和相关法律法规,不能用于绕过权限、批量攻击或非法采集隐私数据。


5. 表单填写与重复性操作

一些重复性的网页操作也可以由 AI 浏览器完成,例如:

  • 填写日报;
  • 提交内部系统表单;
  • 上传固定格式文件;
  • 按模板发布内容;
  • 执行简单后台配置。

示例:

请打开公司日报系统,将以下内容填写到今日工作总结、明日计划和风险问题三个字段中,然后保存草稿,不要提交。

对于涉及财务、审批、账号权限、对外发布等高风险操作,建议保留人工确认环节。


三、AI 浏览器自动化的基本架构

一个完整的 AI 浏览器工作流,通常包括以下几个部分:

任务目标 → 浏览器执行 → 页面理解 → 数据提取 → AI 分析 → 结果输出 → 人工确认

进一步拆解,可以分为:

  1. 输入层:用户给出任务、网址、关键词、限制条件。
  2. 浏览器层:自动打开网页、点击、搜索、翻页、下载。
  3. 理解层:AI 读取网页文本、表格、图片说明等内容。
  4. 处理层:清洗数据、去重、分类、总结、分析。
  5. 输出层:生成 Markdown、CSV、Excel、JSON 或报告。
  6. 反馈层:用户检查结果后继续追问、修正或二次加工。

其中最关键的是“任务拆解”。一个模糊的大任务,通常不适合直接丢给 AI 浏览器执行。更好的做法是把任务拆成多个明确步骤。


四、开始之前:你需要准备什么?

不同 AI 浏览器或 AI Agent 工具的实现方式不同,但基本准备工作类似。

你需要准备:

  • 一个可用的 AI 浏览器或支持浏览器操作的 Agent 工具;
  • 稳定的网络环境;
  • 明确的任务目标;
  • 可访问的网址或关键词;
  • 输出格式要求;
  • 如果需要自动化脚本,则准备 Node.js 或 Python 环境。

本文为了方便演示,将以“自然语言指令 + Playwright 命令”的方式展开。自然语言适合普通用户,Playwright 适合开发者或希望构建稳定流程的人。


五、方式一:直接用自然语言控制 AI 浏览器

如果你使用的是带浏览器能力的 AI 工具,最简单的方法就是直接写清楚任务。

不过,很多人写出来的指令太短,例如:

帮我整理 AI 浏览器资料。

这个指令存在几个问题:

  • 没有指定搜索范围;
  • 没有指定时间范围;
  • 没有指定资料数量;
  • 没有指定输出格式;
  • 没有说明判断标准;
  • 没有限制是否需要引用链接。

更好的写法是:

请使用浏览器搜索中文互联网中关于“AI 浏览器工作流自动化”的资料,优先选择最近一年发布的文章、产品文档和案例分析。请筛选 10 个高质量来源,提取每个来源的标题、作者或机构、发布时间、链接、核心观点、适合应用的场景。最后输出为 Markdown 表格,并在表格后总结 5 条可落地的实践建议。

如果你希望 AI 的执行更稳定,可以进一步加上流程要求:

执行步骤如下:

1. 先搜索关键词:“AI 浏览器 工作流 自动化”;
2. 再搜索关键词:“AI Agent browser automation workflow”;
3. 分别打开搜索结果中相关性较高的网页;
4. 跳过广告页、内容农场和无法访问的页面;
5. 每个网页只提取与 AI 浏览器自动化有关的信息;
6. 最终整理为 Markdown 表格;
7. 报告最后附上引用链接列表。

这种指令对 AI 更友好,因为它明确了输入、过程、筛选标准和输出格式。


六、方式二:用 Playwright 搭建可复用自动化流程

如果你想让浏览器自动化流程更加稳定,可以使用 Playwright。它是一个现代化浏览器自动化框架,支持 Chromium、Firefox 和 WebKit,可用于网页测试、数据提取和自动化操作。


七、安装 Node.js 环境

首先确认本地是否已安装 Node.js。

node -v
npm -v

如果没有安装,可以前往 Node.js 官网下载安装 LTS 版本。

创建项目目录:

mkdir ai-browser-workflow
cd ai-browser-workflow

初始化项目:

npm init -y

安装 Playwright:

npm install playwright

安装浏览器依赖:

npx playwright install

如果你使用的是 Linux 服务器,还可以执行:

npx playwright install-deps

八、创建第一个浏览器自动化脚本

新建文件:

touch search.js

如果是 Windows PowerShell,可以使用:

New-Item search.js

写入以下代码:

const { chromium } = require('playwright');

(async () => {
  const browser = await chromium.launch({
    headless: false
  });

  const page = await browser.newPage();

  await page.goto('https://www.baidu.com');

  await page.fill('#kw', 'AI浏览器 工作流自动化');
  await page.click('#su');

  await page.waitForTimeout(3000);

  const titles = await page.locator('h3').allTextContents();

  console.log('搜索结果标题:');
  titles.slice(0, 10).forEach((title, index) => {
    console.log(`${index + 1}. ${title}`);
  });

  await browser.close();
})();

运行:

node search.js

这个脚本会自动打开百度,搜索关键词,并输出前 10 个搜索结果标题。


九、提取搜索结果链接

只获取标题还不够,我们通常还需要链接。可以改写脚本:

const { chromium } = require('playwright');

(async () => {
  const browser = await chromium.launch({
    headless: false
  });

  const page = await browser.newPage();

  await page.goto('https://www.baidu.com');

  await page.fill('#kw', 'AI浏览器 工作流自动化');
  await page.click('#su');

  await page.waitForTimeout(3000);

  const results = await page.$$eval('h3 a', links => {
    return links.slice(0, 10).map(a => ({
      title: a.innerText,
      href: a.href
    }));
  });

  console.log(JSON.stringify(results, null, 2));

  await browser.close();
})();

运行命令:

node search.js

输出结果类似:

[
  {
    "title": "AI 浏览器自动化工具介绍",
    "href": "https://example.com/article-1"
  },
  {
    "title": "如何用 AI Agent 自动浏览网页",
    "href": "https://example.com/article-2"
  }
]

需要说明的是,搜索引擎结果页结构可能变化,不同地区、不同账号、不同时间看到的页面也不同,因此选择器需要适当调整。


十、抓取网页正文并交给 AI 总结

自动化浏览器的价值不只是获取链接,更重要的是读取网页内容。下面示例展示如何打开搜索结果链接,并提取正文文本。

新建文件:

touch extract.js

代码如下:

const { chromium } = require('playwright');
const fs = require('fs');

(async () => {
  const browser = await chromium.launch({
    headless: false
  });

  const page = await browser.newPage();

  const urls = [
    'https://example.com/article-1',
    'https://example.com/article-2'
  ];

  const articles = [];

  for (const url of urls) {
    try {
      await page.goto(url, {
        waitUntil: 'domcontentloaded',
        timeout: 30000
      });

      await page.waitForTimeout(2000);

      const title = await page.title();

      const text = await page.locator('body').innerText({
        timeout: 10000
      });

      articles.push({
        url,
        title,
        text: text.slice(0, 5000)
      });

      console.log(`已提取:${title}`);
    } catch (error) {
      console.error(`提取失败:${url}`);
      console.error(error.message);
    }
  }

  fs.writeFileSync(
    'articles.json',
    JSON.stringify(articles, null, 2),
    'utf-8'
  );

  await browser.close();
})();

运行:

node extract.js

运行完成后,会生成:

articles.json

里面包含网页标题、链接和正文文本。后续你可以把这个 JSON 文件交给大模型处理,让它总结观点、提取结构化信息或生成报告。


十一、接入 AI 模型进行自动总结

如果你使用支持 API 的大模型,可以把提取到的网页文本发送给模型进行处理。下面用伪代码形式展示整体逻辑,具体 API 地址和参数需要根据你使用的平台调整。

安装依赖:

npm install axios dotenv

创建环境变量文件:

touch .env

写入:

AI_API_KEY=你的_API_Key
AI_BASE_URL=https://api.example.com/v1/chat/completions

创建总结脚本:

touch summarize.js

示例代码:

require('dotenv').config();
const fs = require('fs');
const axios = require('axios');

const articles = JSON.parse(fs.readFileSync('articles.json', 'utf-8'));

async function summarizeArticle(article) {
  const prompt = `
你是一名专业的信息分析师。
请阅读以下网页内容,并提取结构化信息。

要求:
1. 输出中文;
2. 提取文章主题;
3. 总结 5 个核心观点;
4. 判断适合哪些应用场景;
5. 给出一句话评价;
6. 保留原文链接。

网页标题:${article.title}
网页链接:${article.url}
网页正文:
${article.text}
`;

  const response = await axios.post(
    process.env.AI_BASE_URL,
    {
      model: 'your-model-name',
      messages: [
        {
          role: 'user',
          content: prompt
        }
      ],
      temperature: 0.3
    },
    {
      headers: {
        Authorization: `Bearer ${process.env.AI_API_KEY}`,
        'Content-Type': 'application/json'
      }
    }
  );

  return response.data.choices[0].message.content;
}

(async () => {
  const summaries = [];

  for (const article of articles) {
    try {
      const summary = await summarizeArticle(article);
      summaries.push({
        title: article.title,
        url: article.url,
        summary
      });

      console.log(`已总结:${article.title}`);
    } catch (error) {
      console.error(`总结失败:${article.title}`);
      console.error(error.message);
    }
  }

  fs.writeFileSync(
    'summaries.json',
    JSON.stringify(summaries, null, 2),
    'utf-8'
  );
})();

运行:

node summarize.js

最终会生成:

summaries.json

这就是一个“搜索 → 提取 → 总结”的基础 AI 浏览器自动化工作流。


十二、生成 Markdown 报告

最后,我们可以把总结内容整理为 Markdown 文件。

新建文件:

touch report.js

代码如下:

const fs = require('fs');

const summaries = JSON.parse(fs.readFileSync('summaries.json', 'utf-8'));

let markdown = `# AI 浏览器工作流自动化资料调研报告

生成时间:${new Date().toLocaleString()}

## 一、资料列表

| 序号 | 标题 | 链接 |
|---|---|---|
`;

summaries.forEach((item, index) => {
  markdown += `| ${index + 1} | ${item.title.replace(/\|/g, '')} | [查看原文](${item.url}) |\n`;
});

markdown += `

## 二、逐篇摘要

`;

summaries.forEach((item, index) => {
  markdown += `### ${index + 1}. ${item.title}

原文链接:${item.url}

${item.summary}

`;
});

markdown += `

## 三、综合结论

请基于以上资料进一步分析:
1. AI 浏览器自动化的主流应用方向;
2. 目前工具的优势和局限;
3. 普通用户如何快速上手;
4. 企业落地时需要注意的数据安全和权限问题。

`;

fs.writeFileSync('report.md', markdown, 'utf-8');

console.log('报告已生成:report.md');

运行:

node report.js

你会得到一个 Markdown 报告:

report.md

至此,完整流程已经跑通:

node search.js
node extract.js
node summarize.js
node report.js

十三、完整命令汇总

为了方便复制,下面把完整命令整理如下。

创建项目:

mkdir ai-browser-workflow
cd ai-browser-workflow
npm init -y

安装依赖:

npm install playwright axios dotenv
npx playwright install

Linux 安装系统依赖:

npx playwright install-deps

创建文件:

touch search.js extract.js summarize.js report.js .env

Windows PowerShell:

New-Item search.js
New-Item extract.js
New-Item summarize.js
New-Item report.js
New-Item .env

执行流程:

node search.js
node extract.js
node summarize.js
node report.js

查看结果:

cat report.md

Windows PowerShell:

Get-Content report.md

十四、如何设计一个稳定的 AI 浏览器工作流?

很多自动化流程失败,并不是因为工具不强,而是因为任务设计不合理。建议遵循以下原则。


1. 目标要明确

不要写:

帮我研究一下 AI 浏览器。

应该写:

请调研最近一年中文互联网关于 AI 浏览器自动化的文章,筛选 10 篇高质量内容,整理标题、链接、核心观点、应用场景和局限性,并生成 Markdown 报告。

2. 输出格式要固定

如果你希望结果可复用,就一定要指定格式。

例如:

请输出为 Markdown 表格,字段包括:标题、来源、发布时间、链接、核心观点、适用场景、可信度评分。

或者:

请输出为 JSON 数组,每个对象包含 title、url、summary、scenario、score 字段。

格式越清晰,后续自动处理越容易。


3. 加入筛选标准

AI 浏览器在搜索资料时,可能会遇到广告、重复内容、低质量采集页。因此要提前定义筛选规则。

例如:

筛选规则:
1. 优先选择官方文档、技术博客、产品案例和权威媒体;
2. 跳过广告页面、软件下载站、内容重复页面;
3. 发布时间优先选择最近一年;
4. 每个来源必须提供链接;
5. 如果页面无法访问,请跳过并记录原因。

4. 设置人工确认节点

对于高风险任务,不建议让 AI 全自动执行到最后。例如:

  • 自动付款;
  • 删除数据;
  • 发布公开内容;
  • 修改系统配置;
  • 提交审批;
  • 群发邮件。

更合理的做法是:

请填写表单但不要提交,完成后停下来等待我确认。

或者:

请生成邮件草稿,不要发送。

5. 记录日志

如果你用脚本执行任务,建议保存每一步结果,例如:

search-results.json
articles.json
summaries.json
report.md
error.log

这样即使中途出错,也能快速定位问题,而不是从头再来。


十五、常见问题与解决方案


问题 1:网页内容提取不完整怎么办?

原因可能是网页使用了动态加载、懒加载或反爬策略。可以尝试:

await page.waitForLoadState('networkidle');
await page.waitForTimeout(5000);

也可以模拟滚动:

await page.evaluate(async () => {
  await new Promise(resolve => {
    let totalHeight = 0;
    const distance = 500;
    const timer = setInterval(() => {
      window.scrollBy(0, distance);
      totalHeight += distance;

      if (totalHeight >= document.body.scrollHeight) {
        clearInterval(timer);
        resolve();
      }
    }, 300);
  });
});

问题 2:页面选择器失效怎么办?

网页结构会变化,建议不要过度依赖复杂选择器。可以优先提取 body 文本:

const text = await page.locator('body').innerText();

如果需要精准提取,可以使用多个备用选择器:

const selectors = ['article', '.article-content', '.post-content', 'main', 'body'];

let text = '';

for (const selector of selectors) {
  const count = await page.locator(selector).count();
  if (count > 0) {
    text = await page.locator(selector).first().innerText();
    break;
  }
}

问题 3:AI 总结内容太泛怎么办?

可以优化提示词,让模型按固定结构输出。

示例:

请不要泛泛而谈。你必须基于原文内容回答。
输出格式:

## 文章主题
一句话说明。

## 核心观点
- 观点 1:
- 观点 2:
- 观点 3:
- 观点 4:
- 观点 5:

## 可落地做法
- 做法 1:
- 做法 2:
- 做法 3:

## 局限与风险
- 风险 1:
- 风险 2:

## 原文链接
填写链接。

问题 4:流程经常中断怎么办?

建议增加异常处理和重试机制:

async function retry(fn, times = 3) {
  let lastError;

  for (let i = 0; i < times; i++) {
    try {
      return await fn();
    } catch (error) {
      lastError = error;
      console.log(`第 ${i + 1} 次失败,准备重试...`);
      await new Promise(resolve => setTimeout(resolve, 2000));
    }
  }

  throw lastError;
}

使用方式:

await retry(async () => {
  await page.goto(url, {
    waitUntil: 'domcontentloaded',
    timeout: 30000
  });
});

十六、一个完整的实战案例:自动生成竞品分析报告

假设你是一名产品经理,需要分析 5 个 AI 浏览器相关产品。你可以这样设计任务:

输入

产品列表:
1. 产品 A 官网
2. 产品 B 官网
3. 产品 C 官网
4. 产品 D 官网
5. 产品 E 官网

自动化流程

1. 访问每个产品官网;
2. 提取首页文案;
3. 查找 Pricing、Docs、Blog、Changelog 页面;
4. 整理产品定位、核心功能、价格、目标用户;
5. 分析共同点和差异点;
6. 输出竞品分析报告。

AI 提示词

你是一名资深 SaaS 产品经理。请基于以下网页资料,生成竞品分析报告。

报告结构:
1. 行业背景;
2. 产品总览表;
3. 各产品定位;
4. 核心功能对比;
5. 价格策略对比;
6. 目标用户分析;
7. 差异化卖点;
8. 机会点;
9. 风险与不确定性;
10. 结论与建议。

要求:
- 输出中文;
- 使用 Markdown;
- 表格优先;
- 每个判断尽量引用来源链接;
- 不确定的信息请标注“未在公开页面发现”。

这个案例的关键不是让 AI “凭空分析”,而是先让浏览器收集公开页面信息,再让 AI 基于资料进行判断。这样结果更可靠,也更适合工作场景使用。


十七、安全、合规与隐私注意事项

AI 浏览器自动化虽然强大,但必须注意边界。

1. 不要采集敏感隐私信息

包括但不限于:

  • 身份证号;
  • 手机号;
  • 邮箱;
  • 地址;
  • 医疗信息;
  • 金融账户;
  • 未公开的用户数据。

2. 遵守网站规则

不要绕过登录限制、付费墙、验证码或访问控制。对于公开数据,也要控制频率,避免对网站造成压力。

3. 重要操作必须人工确认

涉及删除、付款、提交、发布、审批等行为时,应始终保留人工确认。

4. 保护 API Key

不要把 .env 文件上传到公开仓库。建议创建 .gitignore

touch .gitignore

写入:

.env
node_modules
articles.json
summaries.json

十八、进阶方向:从脚本到真正的 Agent

当你跑通基础流程后,可以继续升级:

  1. 加入任务队列:批量处理多个关键词或网址;
  2. 接入数据库:把结果存入 SQLite、PostgreSQL 或 Notion;
  3. 加入定时任务:每天自动生成行业日报;
  4. 加入多模型协作:一个模型负责提取,一个模型负责分析;
  5. 加入人工审核界面:让用户确认后再发布;
  6. 接入企业知识库:把网页资料和内部文档结合分析;
  7. 部署到服务器:形成稳定的自动化服务。

例如使用 cron 定时运行:

crontab -e

添加每天早上 8 点执行:

0 8 * * * cd /path/to/ai-browser-workflow && node search.js && node extract.js && node summarize.js && node report.js

如果想把报告自动复制到指定目录:

cp report.md /path/to/reports/ai-browser-report-$(date +%F).md

十九、总结

AI 浏览器工作流自动化的核心价值,不是简单地“让浏览器自动点击”,而是把浏览器操作、网页理解、信息提取和 AI 分析结合起来,让原本重复、繁琐、耗时的知识工作变成半自动甚至自动化流程。

对于普通用户,最重要的是学会写清楚自然语言任务指令:目标、范围、步骤、筛选标准、输出格式都要明确。

对于开发者或高级用户,可以使用 Playwright 搭建可复用脚本,再接入 AI API,实现从搜索、提取、总结到生成报告的完整闭环。

建议你从一个简单任务开始,例如“自动搜索 10 篇资料并生成 Markdown 摘要”,逐步增加数据清洗、质量评分、定时执行和人工确认节点。只要流程设计合理,AI 浏览器会成为你日常工作中非常高效的自动化助手。

目录结构
全文