Экспертиза

GPTBot vs OAI-SearchBot vs ChatGPT-User — зачем разделять

GPTBot vs OAI-SearchBot vs ChatGPT-User — зачем разделять
Содержание

OpenAI окончательно разделила своих краулеров на три независимые ветки. Для вебмастера это значит, что эпоха бинарного выбора «пускать или не пускать ИИ» закончилась. Теперь нужно решать по отдельности: хотите ли вы кормить базу обучения моделей, планируете ли вы получать трафик из поисковых ответов ChatGPT или готовы ли вы обслуживать разовые заходы по ссылкам пользователей. Разделение User-Agent позволяет гибко настроить доступ, не превращая сайт в бесплатный склад данных для обучения чужих нейросетей.

Кратко

  • GPTBot собирает данные для обучения будущих моделей (GPT-5 и далее). Трафика не дает, только нагрузку на сервер.
  • OAI-SearchBot — это поисковый индекс. Он нужен, чтобы ваш сайт попадал в ответы ChatGPT Search со ссылками.
  • ChatGPT-User срабатывает, когда пользователь просит чат-бота «посмотреть вот эту ссылку». Блокировать его обычно вредно для UX.

Сравнительная таблица трёх ботов

БотТип User-AgentЦель визитаВлияние на трафик
GPTBotGPTBotСбор данных для обучения LLMНулевое (прямого трафика нет)
OAI-SearchBotOAI-SearchBotИндексация для поиска OpenAIПрямое (ссылки в поисковой выдаче ИИ)
ChatGPT-UserChatGPT-UserВыполнение запроса пользователя в реальном времениТочечное (переход по конкретной ссылке)

GPTBot — обучение моделей

Этот бот — классический «пылесос» контента. Его задача — выкачивать огромные массивы текста, чтобы OpenAI могла обучать свои генеративные модели. Для владельца сайта GPTBot представляет наименьшую ценность в краткосрочной перспективе. Он не генерирует переходы и не помогает сайту ранжироваться.

По нашим наблюдениям, именно GPTBot создает основную паразитную нагрузку на сервер в этой тройке. Если ваш проект живет за счет уникального контента, который вы не хотите отдавать бесплатно для улучшения моделей конкурентов, этого бота закрывают первым. По официальной документации OpenAI, GPTBot соблюдает директивы robots.txt, поэтому его блокировка — самый простой способ защиты интеллектуальной собственности.

OAI-SearchBot работает иначе. Это поисковый краулер, аналогичный Googlebot или YandexBot. Он индексирует страницы, чтобы ChatGPT мог использовать их в качестве источников при формировании ответов на поисковые запросы.

Если вы заблокируете этот бот, ваш сайт исчезнет из результатов поиска ChatGPT. В нашей практике это часто приводит к потере сегмента аудитории, которая переходит на ИИ-поиск как на основной инструмент. OpenAI заявляет, что OAI-SearchBot может использоваться для дополнения данных, полученных от партнеров-поисковиков (например, Bing), обеспечивая актуальность ответов.

ChatGPT-User — обращения по запросу

Этот агент не занимается массовым обходом веба. Он просыпается только тогда, когда пользователь вводит конкретный URL в чат или просит Custom GPT проанализировать страницу. ChatGPT-User работает как прокси-инструмент: он заходит на страницу, «читает» её и возвращает выжимку пользователю.

Блокировать ChatGPT-User — решение сомнительное. Обычно так бывает, когда вебмастер хочет полностью закрыться от любых ИИ-инструментов, но на практике это просто ломает функционал для ваших же посетителей, которые пытаются использовать ChatGPT как ассистента для работы с вашим контентом.

Как настроить robots.txt раздельно

Разделение ботов дает вебмастеру стратегическое преимущество. Вы можете запретить обучение на своих данных, но остаться в поиске. Это «золотая середина» для тех, кто скептически относится к ИИ-корпорациям, но не хочет терять охваты.

Пример конфигурации robots.txt для такой стратегии:

# Разрешаем поиск, чтобы получать трафик
User-agent: OAI-SearchBot
Allow: /

# Запрещаем обучение моделей
User-agent: GPTBot
Disallow: /

# Разрешаем действия по запросу пользователя
User-agent: ChatGPT-User
Allow: /

Честно — мы видели и обратное: когда сайты закрывают всё, кроме ChatGPT-User, опасаясь, что OAI-SearchBot будет «воровать» клики, выдавая полные ответы без необходимости перехода на сайт. Однако с развитием ChatGPT Search присутствие в его индексе становится таким же обязательным, как присутствие в Google.

Что показывают логи сервера

При анализе логов важно смотреть не только на User-Agent, но и на IP-адреса. OpenAI публикует списки своих IP-диапазонов, что позволяет отличить реальных ботов от парсеров, которые мимикрируют под них.

В нашей практике часто встречается ситуация, когда нагрузка от GPTBot распределяется неравномерно: он может «молчать» неделями, а потом зайти и начать агрессивно выкачивать целый раздел. OAI-SearchBot ведет себя более предсказуемо, обходя в первую очередь обновляемые разделы и карты сайта.

Decision-tree для выбора политики доступа:

  1. Вам нужен трафик из поиска ChatGPT?
    • Да → Разрешить OAI-SearchBot.
    • Нет → Заблокировать OAI-SearchBot.
  2. Вы согласны, чтобы ваш контент обучал GPT-5/6?
    • Да → Разрешить GPTBot.
    • Нет → Заблокировать GPTBot.
  3. Вы хотите, чтобы пользователи могли кидать ссылки на ваш сайт в чат?
    • Да → Разрешить ChatGPT-User.
    • Нет → Заблокировать ChatGPT-User.

Открытые вопросы

Несмотря на прозрачность документации, остаются нюансы, которые обсуждаются в кейсах рынка, но публично не задокументированы OpenAI. Например, неясно, как быстро обновляется поисковый индекс после изменения robots.txt. По аналогии с традиционными поисковиками это может занимать от нескольких дней до недель.

Также существует теория, что OpenAI может использовать данные от OAI-SearchBot для «подсказок» обучающим алгоритмам, даже если GPTBot заблокирован. Официально это отрицается, но техническая возможность объединения кэша для разных нужд всегда остается на стороне разработчика.

Для детального изучения параметров каждого бота рекомендуем обращаться к первоисточнику: https://platform.openai.com/docs/bots .