**Generating a title**
The user has asked me to create a title based on specific keywords related to a novel. It seems they want just one title, focusing on the keyword "重点," and it should be straightforward without any AI-like embellishments. I n
GEO营销 对服务器有什么影响|附完整命令
在过去几年里,企业做线上增长的核心关键词经历了几轮变化:从 SEO、SEM,到内容营销、私域运营,再到今天越来越多人开始讨论的 GEO。这里的 GEO,并不是传统意义上的地理位置营销,而是 Generative Engine Optimization,通常可以理解为“生成式引擎优化”或“AI 搜索优化”。
简单来说,GEO 营销的目标是:当用户在 ChatGPT、Claude、Perplexity、Gemini、豆包、通义、Kimi、文心一言等 AI 工具中提问时,品牌、产品、网站内容能够被更容易地识别、引用、推荐和总结。
例如,过去用户会在搜索引擎里输入:
“适合中小企业的 CRM 系统推荐”
而现在,用户可能直接问 AI:
“我是一家 50 人左右的外贸公司,有没有适合我的 CRM 系统?请对比价格、功能和部署难度。”
这类问题的答案不再只是传统搜索结果列表,而是由 AI 综合多个网页、知识库、论坛、测评文章、官网信息后生成。因此,企业想要被 AI 引用,就需要重新审视网站内容结构、技术可访问性、服务器稳定性、日志分析能力、反爬策略、内容更新频率等基础能力。
很多人一提 GEO 营销,就只想到“写文章”“做内容”“让 AI 收录”。但实际上,GEO 对服务器的影响非常直接。因为 AI 爬虫、搜索引擎爬虫、第三方聚合工具、内容分析工具都会访问你的网站。如果服务器配置不足、访问策略不合理、缓存没做好,就可能导致网站变慢、日志暴涨、带宽升高,甚至影响真实用户访问。
本文会从实战角度讲清楚:GEO 营销到底会对服务器产生哪些影响,应该如何监控、优化和防护,并附上常用的完整命令,方便你直接在 Linux 服务器上排查和配置。
一、什么是 GEO 营销
GEO 营销的核心不是简单地“让网站被 AI 爬取”,而是让企业信息在生成式 AI 的回答中更容易被理解、提取、引用和信任。
它通常包含以下几个方面:
-
内容结构优化
让网站内容更清晰,比如 FAQ、对比表、产品参数、案例、价格说明、使用场景、行业解决方案等。 -
语义表达优化
不只是堆关键词,而是围绕用户真实问题进行回答。例如“XX 产品好不好”“XX 适合谁”“XX 和 YY 有什么区别”。 -
技术可访问性优化
确保 AI 爬虫、搜索引擎爬虫可以正常访问核心页面,避免被错误的 robots.txt、WAF、防火墙规则拦截。 -
权威信号建设
包括品牌介绍、作者信息、公司资质、客户案例、媒体报道、外部引用等。 -
数据可解析性优化
比如结构化数据、站点地图、清晰的 HTML 标签、语义化标题、规范的 canonical 地址等。
这些动作表面上是营销动作,本质上也会增加服务器的访问压力和运维复杂度。
二、GEO 营销为什么会影响服务器
传统 SEO 阶段,网站主要面对的是搜索引擎蜘蛛,例如 Googlebot、Bingbot、Baiduspider、Sogou spider 等。而进入 GEO 阶段后,访问你网站的自动化程序变得更多,包括:
- 搜索引擎爬虫;
- AI 训练或检索爬虫;
- AI 搜索聚合工具;
- 内容摘要工具;
- 行业数据库抓取工具;
- 竞品监控工具;
- SEO 分析工具;
- 第三方流量分析机器人;
- 恶意采集脚本。
这意味着服务器会面临更多非真人访问。
这些访问本身并不一定是坏事。合理的爬虫访问可以帮助你的内容被发现、索引和引用。但如果访问频率过高、路径过深、缓存未命中严重,就会消耗 CPU、内存、磁盘 IO、数据库连接和带宽资源。
尤其是中小企业网站,常见部署方式是:
- 一台 2 核 4G 云服务器;
- Nginx + PHP-FPM 或 Node.js;
- WordPress、Typecho、Discuz、Shopify 代理站、企业官网 CMS;
- MySQL 与 Web 服务同机部署;
- 没有 CDN 或缓存配置较弱。
这种架构在日常访问量不高时没有问题,但一旦多个爬虫同时抓取,服务器就可能出现明显波动。
三、GEO 营销对服务器的主要影响
1. 访问量增加,带宽消耗上升
GEO 优化通常会增加内容页数量,例如:
- 行业解决方案页面;
- 问答页面;
- 产品对比页面;
- 使用教程页面;
- 案例页面;
- 博客文章;
- 词汇解释页;
- 价格说明页。
页面越多,被爬虫访问的入口就越多。
如果网站没有开启 gzip、br 压缩,没有使用 CDN,或者图片资源过大,那么爬虫访问也会消耗大量带宽。尤其是一些低质量爬虫会重复请求图片、CSS、JS、分页、搜索页、标签页,导致带宽被无效消耗。
查看服务器实时带宽可以使用:
iftop -i eth0
如果没有安装,可以先安装:
sudo apt update
sudo apt install -y iftop
CentOS / Rocky Linux / AlmaLinux 可以使用:
sudo yum install -y epel-release
sudo yum install -y iftop
也可以使用 nload 查看进出流量:
sudo apt install -y nload
nload
2. CPU 占用升高
如果网站页面是动态生成的,比如 WordPress、Laravel、Django、Next.js SSR、Nuxt SSR,每次请求都可能触发后端逻辑、模板渲染、数据库查询。
当 AI 爬虫大量抓取页面时,CPU 会持续升高。特别是以下页面很容易造成压力:
- 搜索结果页;
- 标签聚合页;
- 分类翻页;
- 复杂筛选页;
- 动态推荐页;
- 站内搜索接口;
- 未缓存的产品详情页;
- 带大量数据库查询的文章页。
查看 CPU 占用:
top
或者使用更友好的工具:
sudo apt install -y htop
htop
查看 CPU 核心数量:
nproc
查看系统负载:
uptime
如果 load average 长期大于 CPU 核心数,说明服务器已经比较吃力。例如 2 核服务器,负载长期超过 2,就需要关注。
3. 内存压力增加
爬虫访问增多后,Web 服务、PHP-FPM、Node.js、数据库都会占用更多内存。如果内存不足,系统会开始使用 swap,访问速度会明显下降。
查看内存:
free -h
查看进程内存占用排行:
ps aux --sort=-%mem | head -20
查看是否频繁使用 swap:
swapon --show
如果没有 swap,小内存服务器在高峰时可能直接触发 OOM,导致 MySQL、PHP-FPM、Node.js 被系统杀掉。可以临时增加 swap:
sudo fallocate -l 2G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
设置开机自动挂载:
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
注意:swap 只能缓解内存不足,不能替代真正的内存扩容。如果业务持续增长,还是应该升级服务器或拆分服务。
4. 数据库连接数增加
很多企业网站的瓶颈不是 Nginx,而是数据库。爬虫大量访问动态页面时,会触发 MySQL 查询。如果数据库没有索引、没有缓存、连接数配置过低,就可能出现慢查询、连接耗尽、页面 502 或 504。
查看 MySQL 当前连接:
mysql -uroot -p -e "SHOW PROCESSLIST;"
查看最大连接数:
mysql -uroot -p -e "SHOW VARIABLES LIKE 'max_connections';"
查看当前连接统计:
mysql -uroot -p -e "SHOW STATUS LIKE 'Threads_connected';"
查看慢查询是否开启:
mysql -uroot -p -e "SHOW VARIABLES LIKE 'slow_query_log';"
开启慢查询日志:
mysql -uroot -p -e "SET GLOBAL slow_query_log = 'ON';"
mysql -uroot -p -e "SET GLOBAL long_query_time = 2;"
查看慢查询日志路径:
mysql -uroot -p -e "SHOW VARIABLES LIKE 'slow_query_log_file';"
如果你使用 WordPress,爬虫访问文章页、标签页、搜索页时,很容易让数据库压力变大。建议配合页面缓存插件、对象缓存 Redis、Nginx 缓存或 CDN 缓存一起使用。
5. 日志文件快速膨胀
GEO 营销会让爬虫访问显著增加,这会导致 Nginx、Apache、应用日志迅速变大。日志过大不仅占用磁盘,还会影响排查效率。
查看 Nginx 日志大小:
sudo du -sh /var/log/nginx/*
查看磁盘空间:
df -h
查看访问日志最后 100 行:
sudo tail -n 100 /var/log/nginx/access.log
实时查看访问日志:
sudo tail -f /var/log/nginx/access.log
统计访问 IP 前 20 名:
sudo awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
统计 User-Agent 前 20 名:
sudo awk -F\" '{print $6}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
统计访问最多的 URL:
sudo awk '{print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
如果日志文件过大,可以配置 logrotate。查看 Nginx 是否已有轮转配置:
cat /etc/logrotate.d/nginx
手动测试日志轮转:
sudo logrotate -d /etc/logrotate.d/nginx
强制执行日志轮转:
sudo logrotate -f /etc/logrotate.d/nginx
6. 磁盘 IO 压力增加
访问量增加后,磁盘 IO 压力可能来自多个方面:
- 写入访问日志;
- 写入错误日志;
- 写入应用日志;
- 数据库读写;
- 缓存文件生成;
- 图片缩略图生成;
- 搜索索引更新。
查看磁盘 IO:
iostat -xz 1
如果没有安装:
sudo apt install -y sysstat
查看哪些进程在读写磁盘:
sudo apt install -y iotop
sudo iotop
如果磁盘长期处于高 %util,网站响应会变慢。此时可以考虑:
- 将日志级别调低;
- 配置日志轮转;
- 使用 SSD 云盘;
- 将数据库单独部署;
- 使用 CDN 缓存静态资源;
- 减少动态页面生成;
- 使用 Redis 或 Memcached。
7. 安全风险增加
GEO 营销带来更多曝光,也会带来更多扫描和攻击。常见风险包括:
- 后台登录页被爆破;
- API 接口被频繁请求;
- 搜索页被恶意构造参数;
- 评论接口被垃圾提交;
- XML-RPC 被攻击;
- CMS 插件漏洞被扫描;
- 伪装成 AI 爬虫的恶意采集。
查看失败登录日志:
sudo grep "Failed password" /var/log/auth.log | tail -50
CentOS 系统通常是:
sudo grep "Failed password" /var/log/secure | tail -50
查看最近登录成功的用户:
last
查看当前登录用户:
who
开放端口检查:
sudo ss -tunlp
如果发现大量异常 IP,可以临时封禁:
sudo iptables -A INPUT -s 1.2.3.4 -j DROP
如果使用 UFW:
sudo ufw deny from 1.2.3.4
但不建议长期手动封 IP,因为爬虫和攻击源经常变化。更好的做法是使用 WAF、CDN 安全规则、Fail2ban、Nginx 限速规则等。
四、如何判断 GEO 爬虫是否正在访问网站
不同 AI 平台和搜索平台可能使用不同的 User-Agent。常见的包括:
GPTBotChatGPT-UserOpenAIGooglebotGoogle-ExtendedBingbotBaiduspiderBytespiderClaudeBotPerplexityBotApplebotCCBotYandexBotDuckDuckBotSemrushBotAhrefsBot
你可以直接在日志中搜索:
sudo grep -Ei "GPTBot|ChatGPT|OpenAI|ClaudeBot|PerplexityBot|Googlebot|Bingbot|Bytespider|CCBot" /var/log/nginx/access.log | tail -100
统计这些爬虫的访问次数:
sudo grep -Eio "GPTBot|ChatGPT-User|ClaudeBot|PerplexityBot|Googlebot|Bingbot|Bytespider|CCBot" /var/log/nginx/access.log | sort | uniq -c | sort -nr
统计某个爬虫访问了哪些页面:
sudo grep -i "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -nr | head -50
查看某个爬虫的访问 IP:
sudo grep -i "GPTBot" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -nr | head -20
需要注意的是,User-Agent 可以伪造。不能只根据 User-Agent 判断对方一定是真实官方爬虫。对于重要业务,应该结合 IP 段、反向 DNS、访问行为、频率、路径特征进行判断。
五、GEO 营销下服务器优化的核心原则
1. 允许有价值的爬虫,限制低质量爬虫
GEO 营销不是把所有机器人都放进来。真正要做的是“选择性开放”。
你可以允许主流搜索引擎和重要 AI 爬虫访问核心内容,同时限制低质量采集工具、过度抓取工具和恶意脚本。
查看 robots.txt:
curl -I https://example.com/robots.txt
curl https://example.com/robots.txt
一个基础 robots.txt 示例:
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /search
Disallow: /cart/
Disallow: /checkout/
Allow: /
Sitemap: https://example.com/sitemap.xml
如果你希望开放内容页,但不希望搜索页、后台、购物车、结算页被抓取,这种配置就比较合理。
如果要单独限制某些爬虫,可以写:
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
不过要记住:robots.txt 是君子协议,恶意爬虫不会遵守。因此它只能作为第一层规则,不能替代服务器安全策略。
2. 给动态页面加缓存
缓存是降低 GEO 爬虫压力最有效的方法之一。只要页面内容不是每秒变化,就应该尽量缓存。
Nginx FastCGI 缓存示例:
fastcgi_cache_path /var/cache/nginx levels=1:2 keys_zone=PHP_CACHE:100m inactive=60m max_size=2g;
server {
listen 80;
server_name example.com;
set $skip_cache 0;
if ($request_method = POST) {
set $skip_cache 1;
}
if ($query_string != "") {
set $skip_cache 1;
}
location / {
try_files $uri $uri/ /index.php?$args;
}
location ~ \.php$ {
include fastcgi_params;
fastcgi_pass unix:/run/php/php8.2-fpm.sock;
fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;
fastcgi_cache PHP_CACHE;
fastcgi_cache_valid 200 301 302 10m;
fastcgi_cache_bypass $skip_cache;
fastcgi_no_cache $skip_cache;
add_header X-FastCGI-Cache $upstream_cache_status;
}
}
创建缓存目录:
sudo mkdir -p /var/cache/nginx
sudo chown -R www-data:www-data /var/cache/nginx
测试 Nginx 配置:
sudo nginx -t
重载 Nginx:
sudo systemctl reload nginx
测试缓存是否命中:
curl -I https://example.com/
如果响应头中出现:
X-FastCGI-Cache: HIT
说明缓存已经生效。
3. 配置 Nginx 限速,避免爬虫打满服务器
可以用 Nginx 的 limit_req 限制单个 IP 的请求频率。
在 http 块中添加:
limit_req_zone $binary_remote_addr zone=perip:10m rate=2r/s;
在 server 或 location 中添加:
location / {
limit_req zone=perip burst=10 nodelay;
try_files $uri $uri/ /index.php?$args;
}
测试配置:
sudo nginx -t
重载:
sudo systemctl reload nginx
这个配置表示单个 IP 平均每秒 2 个请求,允许短时间突发 10 个请求。对于普通企业站来说已经足够。如果是 API 或高并发站点,需要结合业务另行调整。
4. 压缩静态资源,降低带宽消耗
开启 gzip:
gzip on;
gzip_comp_level 5;
gzip_min_length 1024;
gzip_types text/plain text/css application/json application/javascript application/xml text/xml image/svg+xml;
测试 Nginx:
sudo nginx -t
sudo systemctl reload nginx
验证 gzip 是否生效:
curl -H "Accept-Encoding: gzip" -I https://example.com/
如果响应头中有:
Content-Encoding: gzip
说明压缩已经生效。
如果条件允许,也可以使用 Brotli 压缩,但需要对应模块支持。
5. 使用 CDN 分担爬虫访问压力
CDN 对 GEO 营销非常重要,因为它可以把大量静态资源请求和部分页面请求挡在源站之外。
使用 CDN 后,你应该重点关注:
- 静态资源是否缓存;
- HTML 页面是否按需缓存;
- 是否开启 Brotli/gzip;
- 是否配置 WAF;
- 是否启用 Bot 管理;
- 是否允许主流爬虫访问;
- 是否误拦截 AI 爬虫;
- 回源频率是否过高。
查看是否命中 CDN,可以使用:
curl -I https://example.com/
常见命中响应头可能包括:
CF-Cache-Status: HIT
X-Cache: HIT
Age: 3600
不同 CDN 的响应头不同,但核心逻辑一样:尽量让重复请求在 CDN 层解决,不要每次都打到源站。
六、GEO 营销服务器监控常用命令
下面这组命令适合日常巡检。
查看系统负载:
uptime
查看 CPU 和内存:
top
free -h
查看磁盘空间:
df -h
查看目录大小:
sudo du -sh /var/log/*
查看端口监听:
sudo ss -tunlp
查看 Nginx 状态:
sudo systemctl status nginx
查看 PHP-FPM 状态:
sudo systemctl status php8.2-fpm
查看 MySQL 状态:
sudo systemctl status mysql
查看最近错误日志:
sudo tail -n 100 /var/log/nginx/error.log
查看 5xx 错误:
sudo awk '$9 ~ /^5/ {print}' /var/log/nginx/access.log | tail -100
统计 HTTP 状态码:
sudo awk '{print $9}' /var/log/nginx/access.log | sort | uniq -c | sort -nr
统计最近访问最多的 IP:
sudo awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
统计最近访问最多的路径:
sudo awk '{print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
统计爬虫访问:
sudo awk -F\" '{print $6}' /var/log/nginx/access.log | grep -Ei "bot|spider|crawler|GPT|Claude|Perplexity|Bytespider" | sort | uniq -c | sort -nr | head -50
七、GEO 营销服务器优化建议
1. 内容页尽量静态化
如果你的 GEO 策略依赖大量内容页面,建议尽量生成静态页面。例如:
- 企业介绍;
- 产品介绍;
- 解决方案;
- 帮助中心;
- FAQ;
- 案例文章;
- 术语解释;
- 白皮书摘要。
静态页面对服务器压力最小,最适合被搜索引擎和 AI 工具读取。对于访问量不大的企业站,静态化往往比盲目升级服务器更有效。
2. 不要让爬虫访问无价值页面
以下页面通常不适合被 AI 或搜索引擎抓取:
- 登录页;
- 注册页;
- 后台页;
- 购物车;
- 订单页;
- 搜索结果页;
- 无限筛选页;
- 带复杂参数的列表页;
- 用户隐私页面;
- 内部测试页面。
这些页面对 GEO 价值不大,却可能消耗大量服务器资源。应该通过 robots.txt、noindex、Nginx 规则、CDN 规则进行限制。
给页面加 noindex:
给 HTTP 响应加 noindex:
add_header X-Robots-Tag "noindex, nofollow";
3. 站点地图要清晰
GEO 营销不等于让爬虫自己乱爬。你应该主动告诉搜索引擎和 AI 检索系统哪些页面重要。
站点地图通常放在:
https://example.com/sitemap.xml
检查 sitemap:
curl https://example.com/sitemap.xml
如果 sitemap 很大,可以拆分成多个:
/sitemap-posts.xml
/sitemap-products.xml
/sitemap-cases.xml
/sitemap-faq.xml
robots.txt 中声明:
Sitemap: https://example.com/sitemap.xml
好的 sitemap 可以减少无效抓取,提高重要页面被发现的概率。
4. 对图片和附件做优化
很多 GEO 内容页会包含大量截图、产品图、流程图、PDF。图片过大会拖慢页面,也会增加服务器带宽。
查找大文件:
find /var/www/html -type f -size +5M -exec ls -lh {} \;
查找大图片:
find /var/www/html -type f \( -name "*.jpg" -o -name "*.png" -o -name "*.webp" \) -size +1M -exec ls -lh {} \;
建议:
- 图片转 WebP;
- 控制首屏图片大小;
- 开启懒加载;
- PDF 文件走 CDN;
- 不要在文章里放超大原图;
- 给图片加准确 alt 文本。
5. 建立监控和告警
如果 GEO 是长期策略,就不能只靠人工看日志。建议至少监控以下指标:
- CPU 使用率;
- 内存使用率;
- 磁盘空间;
- 磁盘 IO;
- 带宽;
- 5xx 错误数;
- Nginx 请求量;
- 数据库连接数;
- 慢查询数量;
- 爬虫访问比例;
- CDN 回源率。
简单监控可以使用 Netdata:
bash <(curl -Ss https://my-netdata.io/kickstart.sh)
也可以使用 Prometheus + Grafana,或者云厂商自带监控。
八、GEO 营销服务器配置参考方案
小型企业站
适合日访问 1000 到 10000 的官网或博客。
推荐配置:
- 2 核 CPU;
- 4G 内存;
- 40G SSD;
- Nginx;
- PHP-FPM 或静态站点;
- MySQL 同机;
- CDN;
- 页面缓存;
- gzip 压缩;
- 基础 WAF。
重点优化:
- 开启缓存;
- 限制搜索页抓取;
- 配置 robots.txt;
- 图片压缩;
- 定期分析日志。
中型内容站
适合日访问 10000 到 100000 的内容站、帮助中心、产品知识库。
推荐配置:
- 4 核到 8 核 CPU;
- 8G 到 16G 内存;
- 独立数据库;
- Redis 缓存;
- CDN;
- 对象存储;
- 日志分析;
- WAF;
- 自动备份。
重点优化:
- 静态化内容页;
- Redis 对象缓存;
- 数据库索引优化;
- 慢查询分析;
- CDN 缓存规则;
- Bot 管理策略。
大型品牌站或 SaaS 官网
适合多语言、多地区、多产品线的 GEO 营销。
推荐架构:
- 负载均衡;
- 多台 Web 服务器;
- 独立数据库集群;
- Redis 集群;
- CDN 全球加速;
- 对象存储;
- 日志系统;
- WAF;
- APM 性能监控;
- 灰度发布;
- 自动扩缩容。
重点优化:
- 国际化页面性能;
- 多地区 CDN;
- AI 爬虫访问策略;
- 结构化数据;
- 内容版本管理;
- 高可用部署;
- 灾备方案。
九、GEO 营销中的常见误区
误区一:所有爬虫都应该放行
这是非常危险的想法。GEO 需要开放,但不是无边界开放。低质量采集器不仅不会给你带来价值,还可能拖慢服务器、复制内容、消耗带宽。
正确做法是:允许重要爬虫访问核心页面,限制无价值路径和异常频率。
误区二:服务器慢只是配置不够
很多网站慢并不是因为服务器太小,而是因为缓存没做好、数据库查询太重、图片太大、日志爆满、爬虫无限抓取参数页面。
在升级服务器前,应该先排查:
uptime
free -h
df -h
sudo tail -n 100 /var/log/nginx/error.log
sudo awk '{print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
如果发现访问最多的是无价值页面,优先处理规则,而不是盲目加钱升级。
误区三:robots.txt 可以防住恶意爬虫
robots.txt 只能约束遵守规则的爬虫。真正恶意的脚本可以完全无视它。
因此还需要:
- CDN WAF;
- Nginx 限速;
- IP 黑名单;
- 行为识别;
- 登录保护;
- API 鉴权;
- Fail2ban;
- 安全更新。
误区四:GEO 只需要写文章
GEO 营销确实需要内容,但内容只是前台。后台还包括服务器性能、页面结构、可访问性、稳定性和数据可信度。
如果 AI 爬虫访问你的页面时经常超时、报错、返回 403、页面结构混乱,那么再多内容也很难形成稳定的引用信号。
十、完整排查命令清单
下面是一套可以直接复制使用的服务器排查命令。
# 查看系统负载
uptime
# 查看 CPU、内存和进程
top
free -h
ps aux --sort=-%cpu | head -20
ps aux --sort=-%mem | head -20
# 查看磁盘空间
df -h
sudo du -sh /var/log/*
sudo du -sh /var/www/*
# 查看网络连接
sudo ss -tunlp
sudo ss -ant | awk '{print $1}' | sort | uniq -c
# 查看 Nginx 状态
sudo systemctl status nginx
sudo nginx -t
# 查看 Nginx 日志
sudo tail -n 100 /var/log/nginx/access.log
sudo tail -n 100 /var/log/nginx/error.log
# 统计访问 IP
sudo awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
# 统计访问路径
sudo awk '{print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
# 统计状态码
sudo awk '{print $9}' /var/log/nginx/access.log | sort | uniq -c | sort -nr
# 查看 404
sudo awk '$9 == 404 {print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -30
# 查看 5xx
sudo awk '$9 ~ /^5/ {print}' /var/log/nginx/access.log | tail -100
# 统计 User-Agent
sudo awk -F\" '{print $6}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -30
# 搜索 AI 和搜索引擎爬虫
sudo grep -Ei "GPTBot|ChatGPT|OpenAI|ClaudeBot|PerplexityBot|Googlebot|Bingbot|Bytespider|Baiduspider|CCBot" /var/log/nginx/access.log | tail -100
# 统计 Bot 类型
sudo awk -F\" '{print $6}' /var/log/nginx/access.log | grep -Ei "bot|spider|crawler|GPT|Claude|Perplexity|Bytespider" | sort | uniq -c | sort -nr | head -50
# 查看 MySQL 连接
mysql -uroot -p -e "SHOW PROCESSLIST;"
mysql -uroot -p -e "SHOW STATUS LIKE 'Threads_connected';"
mysql -uroot -p -e "SHOW VARIABLES LIKE 'max_connections';"
# 查看慢查询配置
mysql -uroot -p -e "SHOW VARIABLES LIKE 'slow_query_log';"
mysql -uroot -p -e "SHOW VARIABLES LIKE 'long_query_time';"
mysql -uroot -p -e "SHOW VARIABLES LIKE 'slow_query_log_file';"
# 查看安全登录日志
sudo grep "Failed password" /var/log/auth.log | tail -50
last
who
十一、推荐的基础 Nginx 配置片段
下面是一份适合企业官网的基础优化片段,可根据实际环境调整。
# gzip 压缩
gzip on;
gzip_comp_level 5;
gzip_min_length 1024;
gzip_types text/plain text/css application/json application/javascript application/xml text/xml image/svg+xml;
# 单 IP 限速
limit_req_zone $binary_remote_addr zone=perip:10m rate=2r/s;
server {
listen 80;
server_name example.com;
root /var/www/html;
index index.html index.php;
access_log /var/log/nginx/access.log;
error_log /var/log/nginx/error.log warn;
location / {
limit_req zone=perip burst=10 nodelay;
try_files $uri $uri/ /index.php?$args;
}
location ~* \.(jpg|jpeg|png|gif|webp|svg|css|js|ico|woff|woff2)$ {
expires 30d;
add_header Cache-Control "public, max-age=2592000";
access_log off;
}
location ~* /(admin|login|wp-login\.php) {
limit_req zone=perip burst=3 nodelay;
try_files $uri $uri/ /index.php?$args;
}
location ~ /\. {
deny all;
}
}
测试并重载:
sudo nginx -t
sudo systemctl reload nginx
十二、总结
GEO 营销会让企业网站从“面向搜索引擎”进一步走向“面向生成式 AI”。这是一种新的流量机会,但它不是单纯的内容工作,也不是简单地写几篇文章就能完成。
从服务器角度看,GEO 营销可能带来访问量增加、爬虫请求增多、带宽上升、CPU 和数据库压力增加、日志膨胀、磁盘 IO 增强,以及更多安全扫描。对企业来说,真正成熟的 GEO 策略应该同时包含内容策略和技术策略。
比较稳妥的做法是:
- 核心内容页面开放给搜索引擎和 AI 爬虫;
- 后台、搜索页、参数页、无价值页面限制抓取;
- 使用 CDN、缓存、压缩降低源站压力;
- 定期分析 Nginx 日志和数据库慢查询;
- 配置基础限速和安全策略;
- 持续监控 CPU、内存、磁盘、带宽和 5xx 错误;
- 让服务器稳定、页面快速、内容清晰、结构易解析。
GEO 营销的本质,是让 AI 更容易理解你、信任你、引用你。而服务器的作用,就是保证这些内容能够稳定、快速、准确地被访问。只有内容和技术同时做好,GEO 才能真正成为长期有效的增长资产。