Back

ИИ-краулеры и как блокировать их с помощью robots.txt

ИИ-краулеры и как блокировать их с помощью robots.txt

По мере того как ИИ продолжает преобразовывать веб, растущее число ботов сканирует сайты для сбора контента для обучения больших языковых моделей. Эта статья объясняет, что такое ИИ-краулеры, почему они важны и как блокировать их с помощью robots.txt.

Ключевые выводы

  • ИИ-краулеры собирают веб-контент для обучения или улучшения моделей ИИ.
  • Вы можете разрешить или блокировать этих ботов, используя стандарт robots.txt.
  • Этичные ИИ-компании соблюдают эти правила, но некоторые краулеры их игнорируют.

ИИ-краулеры — это специализированные боты, которые сканируют веб-сайты не для поисковой индексации, а для извлечения информации для питания систем искусственного интеллекта. Это включает текст, изображения, структурированные данные и API. Их присутствие поднимает вопросы о владении данными, согласии и защите проприетарного или конфиденциального контента.

Что такое ИИ-краулеры?

ИИ-краулеры — это автоматизированные программы, которые посещают веб-страницы для сбора контента для машинного обучения и генеративного ИИ. В отличие от традиционных поисковых ботов (таких как Googlebot), ИИ-боты часто используют эти данные за кулисами для питания или улучшения больших языковых моделей.

Примеры ИИ-краулеров

Вот некоторые известные ИИ-краулеры:

  • GPTBot (OpenAI)
  • Google-Extended (модели Google AI)
  • CCBot (Common Crawl)
  • anthropic-ai и Claude-Web (Claude от Anthropic)
  • Bytespider, img2dataset, Omgili, FacebookBot (используются для скрапинга или обучения)

Эти боты не индексируют страницы для поиска. Они поглощают контент вашего сайта в конвейеры обучения ИИ — иногда с разрешения, иногда нет.

Применение ИИ-краулеров

ИИ-краулеры используются для различных целей:

  • Обучение LLM: Поглощение статей, документов и форумов для улучшения моделей, таких как GPT или Claude.
  • Настройка ответов чат-ботов: Сбор структурированных вопросов и ответов или контента бесед.
  • Исследование цен и продуктов: Сканирование страниц электронной коммерции и ценообразования SaaS.
  • Обогащение набора данных: Сбор пользовательского контента, документации, фрагментов кода.

Хотя эти варианты использования приносят пользу системам ИИ, они часто не приносят пользы создателям контента, особенно если данные используются без явного согласия.

Как блокировать ИИ-краулеры

Чтобы отказаться от обучения моделей ИИ, используйте стандартный протокол robots.txt. Вы публикуете текстовый файл в корне вашего домена, и боты будут читать его, чтобы определить, что им разрешено сканировать.

Пример: Блокировка известных ИИ-ботов

# Block AI bots
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: img2dataset
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Omgili
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: magpie-crawler
Disallow: /

# Allow everything else
User-agent: *
Allow: /

Эта конфигурация явно указывает наиболее распространенным ИИ-краулерам не обращаться к вашему сайту.

Как это реализовать

  1. Создайте файл с именем robots.txt
  2. Вставьте содержимое выше (или ваш вариант)
  3. Разместите его в корне вашего домена: https://yourdomain.com/robots.txt
  4. Убедитесь, что он обслуживается с типом содержимого text/plain
  5. Проверьте его с помощью curl https://yourdomain.com/robots.txt, чтобы подтвердить видимость

Если вы размещаете на статическом сервисе, таком как S3 + CloudFront, поместите файл непосредственно в выходные данные сборки или в общедоступный каталог.

Что насчет несоответствующих ботов?

Не все боты следуют правилам.

  • Этичные ИИ-компании, такие как OpenAI, Google и Anthropic, уважают robots.txt.
  • Другие краулеры могут игнорировать его и все равно скрапить контент.

Если вы обеспокоены этим, рассмотрите возможность комбинирования robots.txt с блокировкой на уровне сервера (например, фильтрация IP, ограничение скорости) или обфускацией на основе JavaScript, но это сопряжено с компромиссами.

Заключение

ИИ-краулеры никуда не денутся. Они уже формируют инструменты, которые мы используем ежедневно. Как владелец сайта или команда продукта, вы должны решить, хотите ли вы, чтобы ваш контент был включен в этот процесс. К счастью, robots.txt дает вам простой способ выразить это предпочтение, и большинство уважаемых ИИ-компаний будут его уважать.

Часто задаваемые вопросы

Поисковые краулеры индексируют страницы для публичных результатов поиска. ИИ-краулеры собирают данные для обучения или улучшения моделей машинного обучения, часто для таких случаев использования, как чат-боты или генерация контента.

Большинство уважаемых ИИ-компаний, таких как OpenAI, Google и Anthropic, уважают его. Другие могут не уважать. Механизма принудительного исполнения нет — это добровольно.

Да. Вы можете запретить ИИ-специфичных ботов, таких как GPTBot или Google-Extended, и при этом разрешить Googlebot, не блокируя его.

Они должны прекратить сканирование вашего сайта, и ваш контент не будет использоваться в будущих циклах обучения. Но уже собранные данные могут остаться.

В корень вашего сайта: <https://yourdomain.com/robots.txt>. Он должен быть общедоступным.

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.
Loved by thousands of developers