Экспертиза

Как попасть в ChatGPT Search: OAI-SearchBot и robots.txt

Как попасть в ChatGPT Search: OAI-SearchBot и robots.txt
Содержание

Чтобы ваш сайт стал источником ответов в ChatGPT Search, необходимо разрешить доступ специализированному краулеру OAI-SearchBot. OpenAI запустила полноценный поиск внутри чат-бота 31 октября 2024 года, и теперь система не просто генерирует текст на основе старых данных, а ищет актуальную информацию в сети с цитированием конкретных площадок. Если вы заблокируете этого бота в файле robots.txt , ваши страницы исчезнут из поисковой выдачи ChatGPT, даже если они прекрасно ранжируются в Google.

Кратко

  • OAI-SearchBot — это поисковый робот, который индексирует контент специально для выдачи в ChatGPT Search, а не для обучения моделей.
  • Разрешение доступа OAI-SearchBot критично для получения трафика из экосистемы OpenAI, при этом вы можете продолжать блокировать GPTBot (сборщик данных для обучения).
  • Видимость в Bing остается фундаментом: ChatGPT Search активно опирается на индекс Microsoft, поэтому качественная индексация в Bing Webmaster Tools обязательна.

Что такое OAI-SearchBot

OAI-SearchBot — это специализированный user-agent, созданный OpenAI для поддержки поисковых функций в реальном времени. В отличие от классических LLM, которые “помнят” мир на момент завершения обучения, ChatGPT Search работает как поисковик. Бот обходит сайты, индексирует свежий контент и позволяет системе давать ответы со ссылками на первоисточники.

По нашим наблюдениям, появление этого бота стало ответом на претензии издателей. Теперь вебмастер может четко разделить: “я не хочу, чтобы на моих текстах обучали нейросеть (бесплатно), но я хочу получать переходы из поиска OpenAI”. По официальной документации Google Search Central, поисковые системы стремятся к прозрачности идентификации ботов, и OpenAI здесь следует общему тренду.

Чем OAI-SearchBot отличается от GPTBot и ChatGPT-User

Путаница в именах ботов OpenAI часто приводит к тому, что вебмастеры случайно отрезают себе путь в поиск. Важно различать три разных сущности, которые ведут себя на сервере по-разному.

  1. GPTBot: Массовый краулер. Его задача — выкачивать интернет-архивы для обучения будущих версий GPT-5, GPT-6 и так далее. Он создает серьезную нагрузку на сервер и не дает прямого трафика.
  2. OAI-SearchBot: Поисковый робот. Он заходит на страницы, чтобы они появились в выдаче ChatGPT Search. Это ваш потенциальный источник лидов и кликов.
  3. ChatGPT-User: Ведет себя иначе. Он активируется “по требованию”, когда конкретный пользователь в чате просит: “проверь вот эту ссылку”. Обсуждается в кейсах рынка, но публично не задокументировано, что этот бот может использоваться для скрытого сбора данных о поведении пользователей.

В нашей практике мы видели кейсы, когда владельцы сайтов закрывали User-agent: *, надеясь защититься от AI, и тем самым полностью обнуляли свою видимость в новом поиске OpenAI.

Как настроить robots.txt — примеры

Настройка доступа к сайту теперь требует хирургической точности. Вы можете комбинировать разрешения, чтобы соблюсти баланс между защитой интеллектуальной собственности и получением трафика.

Сценарий 1: Разрешить все для OpenAI (и поиск, и обучение)

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

Сценарий 2: Только поиск (рекомендуемый для большинства) Вы запрещаете использовать контент для обучения, но разрешаете индексацию для ChatGPT Search.

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

Сценарий 3: Полная блокировка Если вы не хотите иметь ничего общего с продуктами OpenAI.

User-agent: OAI-SearchBot
Disallow: /

Важный нюанс: если у вас настроен Cloudflare AI Audit или аналогичные системы защиты на уровне прокси, они могут блокировать ботов еще до того, как те прочитают ваш robots.txt . Проверяйте настройки WAF и панели управления ботами в Cloudflare, иначе правки в файле не дадут эффекта.

Несмотря на наличие собственного бота, OpenAI тесно сотрудничает с Microsoft. Хотя точная техническая архитектура публично не раскрывается, на практике мы видим прямую корреляцию: сайты, которые плохо индексируются в Bing, крайне редко появляются в ответах ChatGPT Search.

Если OAI-SearchBot еще не зашел на ваш сайт, система может подтянуть данные из индекса Bing. Это значит, что работа над ChatGPT Search — это на 50% работа с Bing Webmaster Tools. Мы рекомендуем использовать протокол IndexNow для моментального уведомления о новых страницах. По официальной документации https://www.indexnow.org/documentation , это позволяет ускорить обход контента сразу несколькими поисковиками.

ФакторВлияние на ChatGPT SearchЧто делать
robots.txt (OAI-SearchBot)КритическоеУстановить Allow: /
Индексация в BingВысокоеНастроить Bing Webmaster Tools
Скорость загрузкиСреднееОптимизировать LCP для мобильных
Наличие микроразметкиВысокоеИспользовать Schema.org для сущностей

Частые ошибки настройки

Самая распространенная ошибка — использование директивы Disallow: / для всех ботов (User-agent: *) с надеждой, что “нужные” поисковики поймут исключения. OAI-SearchBot — дисциплинированный бот, он уйдет сразу, как увидит запрет.

Вторая ошибка — игнорирование структуры URL. Если ваш контент спрятан за сложными JS-скриптами, которые бот не может отрендерить, он не попадет в поиск. OpenAI заявляет, что их поисковый бот умеет работать с современным вебом, но на практике — чем проще HTML, тем выше шансы на корректное цитирование.

Честно — мы видели ситуации, когда сайт разрешал доступ OAI-SearchBot, но все равно не попадал в выдачу. Обычно так бывает, когда контент признается “малоценным” или дублирующим крупные агрегаторы. AI-поиск стремится давать один-два лучших ответа, а не список из десяти синих ссылок.

Что не делать

Не пытайтесь обмануть бота, отдавая ему один контент (оптимизированный под AI), а пользователям — другой. Клоакинг в эпоху AI-поиска вычисляется быстрее, так как модели сравнивают семантическую суть страницы с тем, что видит пользователь при переходе.

Не стоит также ожидать мгновенных результатов. Даже если вы прописали все разрешения в robots.txt, OAI-SearchBot может прийти через неделю или месяц. Это не Google Indexing API, который работает почти мгновенно для определенных типов страниц.

Открытые вопросы

На данный момент остается несколько “серых зон”, которые обсуждаются в сообществе, но не имеют официальных ответов.

Во-первых, OpenAI не публикует полный и актуальный список IP-адресов для каждого из своих ботов (OAI-SearchBot, GPTBot, ChatGPT-User). Это создает проблемы для тех, кто хочет настроить доступ на уровне файрвола, а не только через robots.txt.

robots.txt Чтобы ваш

Во-вторых, не ясны долгосрочные последствия для SEO. Если сайт запрещает OAI-SearchBot, повлияет ли это на его авторитетность в глазах других систем? Теоретически — нет, на практике — алгоритмы могут учитывать “цитируемость” в AI-среде как новый фактор ранжирования. Пока это лишь предположения аналитиков рынка, но тренд на интеграцию AI в классический поиск (как Google AI Overviews) делает этот вопрос крайне актуальным.