Back

AI爬虫及如何使用robots.txt阻止它们

OpenReplay Team

Apr 11, 2025 · 2 min read

随着AI不断重塑网络，越来越多的机器人正在爬取网站以收集内容来训练大型语言模型。本文解释什么是AI爬虫，为什么它们很重要，以及如何使用robots.txt阻止它们。

要点

AI爬虫收集网络内容以训练或改进AI模型。
您可以使用robots.txt标准允许或阻止这些机器人。
有道德的AI公司会遵守这些规则——但有些爬虫会忽略它们。

AI爬虫是专门的机器人，它们扫描网站不是为了搜索索引，而是为了提取信息来驱动人工智能系统。这包括文本、图像、结构化数据和API。它们的存在引发了关于数据所有权、同意和保护专有或敏感内容的问题。

什么是AI爬虫？

AI爬虫是自动化程序，它们访问网页以收集用于机器学习和生成式AI的内容。与传统的搜索引擎机器人（如Googlebot）不同，AI机器人通常在幕后使用这些数据来喂养或改进大型语言模型。

AI爬虫的例子

以下是一些知名的AI爬虫：

GPTBot（OpenAI）
Google-Extended（Google AI模型）
CCBot（Common Crawl）
anthropic-ai和Claude-Web（Anthropic的Claude）
Bytespider、img2dataset、Omgili、FacebookBot（用于抓取或训练）

这些机器人不会为搜索建立页面索引。它们将您网站的内容摄入AI训练管道——有时经过许可，有时没有。

AI爬虫的应用

AI爬虫用于多种目的：

LLM训练：摄取文章、文档和论坛内容以改进像GPT或Claude这样的模型。
聊天机器人响应调优：收集结构化问答或对话内容。
价格和产品研究：爬取电子商务和SaaS定价页面。
数据集丰富：收集用户生成内容、文档、代码片段。

虽然这些用例有利于AI系统，但它们通常不会使内容创建者受益，特别是如果数据在没有明确同意的情况下被使用。

如何阻止AI爬虫

要选择退出AI模型训练，请使用标准的robots.txt协议。您在域名根目录发布一个文本文件，机器人会读取它以确定它们被允许爬取的内容。

示例：阻止已知的AI机器人

# Block AI bots
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: img2dataset
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Omgili
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: magpie-crawler
Disallow: /

# Allow everything else
User-agent: *
Allow: /

这个配置明确告诉最常见的AI爬虫不要访问您的网站。

如何实施

创建一个名为robots.txt的文件
粘贴上面的内容（或您的变体）
将其放在您域名的根目录：https://yourdomain.com/robots.txt
确保它以text/plain内容类型提供服务
使用curl https://yourdomain.com/robots.txt进行测试，确认可见性

如果您在S3 + CloudFront等静态服务上托管，请将文件直接放入构建输出或公共目录中。

不遵守规则的机器人怎么办？

并非所有机器人都遵守规则。

有道德的AI公司如OpenAI、Google和Anthropic尊重robots.txt。
其他爬虫可能会忽略它并继续抓取内容。

如果您对此感到担忧，请考虑将robots.txt与服务器级别的阻止（例如，IP过滤、速率限制）或基于JavaScript的混淆相结合——但这些方法有权衡取舍。

结论

AI爬虫不会消失。它们已经在塑造我们每天使用的工具。作为网站所有者或产品团队，您应该决定是否希望您的内容包含在该过程中。幸运的是，robots.txt为您提供了一种简单的方式来表达这种偏好——大多数信誉良好的AI公司会尊重它。

常见问题

搜索引擎爬虫为公共搜索结果建立页面索引。AI爬虫收集数据以训练或改进机器学习模型，通常用于聊天机器人或内容生成等用例。

大多数信誉良好的AI公司如OpenAI、Google和Anthropic确实尊重它。其他可能不会。没有强制执行机制——这是自愿的。

是的。您可以禁止特定的AI机器人如GPTBot或Google-Extended，同时通过不阻止Googlebot来允许它。

它们应该停止爬取您的网站，您的内容不会用于未来的训练运行。但已收集的数据可能会保留。

在您网站的根目录：[https://yourdomain.com/robots.txt。它必须公开可访问。

](https://yourdomain.com/robots.txt%E3%80%82%E5%AE%83%E5%BF%85%E9%A1%BB%E5%85%AC%E5%BC%80%E5%8F%AF%E8%AE%BF%E9%97%AE%E3%80%82%22%5D)

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.

Self-Host Try Cloud Free

Loved by thousands of developers