Вопрос блокировки AI-ботов перестал быть теоретическим дискурсом и превратился в ежедневную рутину вебмастера. Если раньше мы боролись только за краулинговый бюджет Google и Яндекса, то сегодня приходится решать: кормить ли своим контентом нейросети, которые в ответ могут “украсть” ваш трафик, выдав готовый ответ прямо в интерфейсе чата. Однозначного “да” или “нет” не существует, всё зависит от модели монетизации вашего проекта.
Кратко
- Разделяйте ботов на поисковые (OAI-SearchBot, PerplexityBot) и обучающие (GPTBot, ClaudeBot). Первые могут приносить трафик, вторые — только потребляют ресурсы.
- Для контентных сайтов с рекламной моделью полная блокировка обучающих ботов — стандарт индустрии, позволяющий защитить уникальность данных.
- Cloudflare и другие защитные системы могут игнорировать ваши директивы в robots.txt, если включены специфические опции “AI Audit”, поэтому проверку нужно проводить на уровне сервера.
Какие AI-краулеры существуют
Мир ботов перестал быть бинарным. Раньше были “хорошие” поисковики и “плохие” спам-скрейперы. Теперь AI-агенты делятся на три функциональные группы, и к каждой нужен свой подход.
Первая группа — поисковые AI-боты. Сюда относятся OAI-SearchBot (от OpenAI) и PerplexityBot. Их задача — найти актуальную информацию для формирования ответа со ссылкой на источник. По нашему опыту, это фактически новые поисковые системы. Если их заблокировать, сайт исчезнет из выдачи ChatGPT Search или Perplexity.
Вторая группа — обучающие боты. Это GPTBot, ClaudeBot и Google-Extended. Они собирают массивы данных для тренировки будущих версий моделей (GPT-5 и далее). Трафика они не дают. Посещение сайта таким ботом — это чистый расход ресурсов сервера без прямой выгоды для владельца в моменте.
Третья группа — гибриды и системные агенты. Например, Applebot-Extended или YandexAdditional. Последний, по данным из документации Яндекса, может использоваться для улучшения качества поиска и обучения нейросетей. Обсуждается в кейсах рынка, но публично не задокументировано, насколько критично отсутствие YandexAdditional для ранжирования в основном поиске Яндекса.
Плюсы открытия — что получаешь
Главный аргумент “за” — присутствие в ответах AI-поисковиков. Пользователи всё чаще ищут информацию не через классическую строку Google, а через диалоговые интерфейсы. Если ваш сайт закрыт от OAI-SearchBot, вы добровольно отдаете этот кусок пирога конкурентам.
Второй плюс — скорость индексации. Хотя официальная документация Google Search Central подчеркивает, что для ускорения обхода следует использовать инструмент URL Inspection (https://developers.google.com/search/docs/crawling-indexing/ask-google-to-recrawl) , активность AI-ботов иногда коррелирует с общим интересом поисковых систем к ресурсу.
Третий момент касается Яндекса. Использование современных протоколов, таких как IndexNow (https://www.indexnow.org/) , позволяет мгновенно уведомлять систему об изменениях. Если сайт открыт для всех легитимных ботов Яндекса, включая AI-надстройки, это минимизирует риск рассинхрона между реальным контентом и тем, что видит нейросеть в поиске.
Минусы открытия — что теряешь
Основной риск — “нулевой клик”. AI-модель считывает вашу статью, делает выжимку и показывает её пользователю. Пользователь получил ответ, вы — не получили визит, не показали рекламу, не продали товар. Это экзистенциальная угроза для информационных сайтов.
Другие минусы:
- Нагрузка на сервер. Обучающие боты могут быть крайне агрессивными, совершая тысячи запросов в секунду.
- Обесценивание контента. Ваши уникальные исследования становятся частью весов нейросети, которая позже перескажет их без упоминания автора (или мелким шрифтом).
- Риск парсинга сетками. AI-боты часто используются как прикрытие для обычного скрейпинга данных.
| Тип бота | Трафик | Нагрузка | Рекомендация |
|---|---|---|---|
| SearchBot (OpenAI) | Да | Средняя | Открыть |
| GPTBot (Training) | Нет | Высокая | Закрыть |
| PerplexityBot | Да | Низкая | Открыть |
| Google-Extended | Нет | Средняя | Закрыть (по ситуации) |
| ClaudeBot | Нет | Высокая | Закрыть |
Решение по типу сайта
В нашей практике мы выработали дифференцированный подход. Нельзя одинаково настраивать robots.txt для интернет-магазина и для узконишевого блога.
Для интернет-магазинов и сервисов: Здесь лучше открыть всё. Ваша цель — чтобы товар был найден везде, где только можно. Если ChatGPT посоветует ваш пылесос со ссылкой на карточку товара — это прямая продажа. Риск того, что кто-то “обучится” на ваших ценах, вторичен по сравнению с охватом.
Для информационных сайтов и СМИ: Здесь мы рекомендуем хирургическую точность. Закрывайте обучающих ботов (GPTBot, ClaudeBot), но оставляйте доступ поисковым AI-агентам. Это позволит сохранить трафик из AI-выдачи, не отдавая контент на бесплатную переработку для обучения моделей.
Для сайтов с закрытым контентом (Paywall): Блокируйте всех AI-ботов без исключения. Были случаи, когда нейросети умудрялись индексировать фрагменты контента, скрытого за формами регистрации, если боты находили “дыры” в настройках доступа.
Cloudflare AI Audit — отдельная история
Если ваш сайт находится за прокси Cloudflare, настройки в robots.txt могут оказаться бесполезными. В 2024 году сервис внедрил функционал AI Audit, который позволяет блокировать ботов одной кнопкой.
Однако есть нюанс: настройка “AI Audit override” может перекрывать ваши локальные правила. Обсуждается в кейсах рынка, но публично не задокументировано, как именно Cloudflare приоритизирует эти запросы в случае конфликта с мета-тегами на самой странице. Мы видели ситуации, когда вебмастер закрыл бота в robots.txt, но Cloudflare продолжал его пропускать, считая “доверенным”. Проверяйте логи сервера, а не только панель управления.
Практическая рекомендация
Если вы не хотите глубоко погружаться в дебри логов, используйте правило “Search Yes, Training No”.
Для Google-Extended ситуация двоякая. Этот токен управляет тем, может ли Google использовать ваш контент для обучения Gemini и Vertex AI. При этом блокировка Google-Extended не влияет на присутствие сайта в классическом поиске. По официальной документации Google Search Central, это независимые сущности.
Для Яндекса всё проще: компания активно продвигает IndexNow и инструменты Вебмастера (https://yandex.com/support/webmaster/en/robot-workings/site-reindex) . Если вы используете эти инструменты, роботы Яндекса будут приходить вовремя. Блокировать специфические AI-подсистемы Яндекса (YandexAdditional) мы бы не советовали — в рамках одной экосистемы это может косвенно повлиять на доверие к ресурсу.
Открытые вопросы
Пока индустрия находится в стадии формирования правил, остаются серые зоны:
- Какие конкретные плюсы и минусы открывания сайта для Applebot-Extended или YandexAdditional в долгосрочной перспективе? Пока данных о прямой выгоде в виде трафика мало.
- Как использование Cloudflare AI Audit override влияет на индексацию сайтов классическими поисковиками? Есть опасения, что слишком жесткие фильтры могут случайно задеть легитимных краулеров.
- Появятся ли механизмы монетизации за то, что обучающие боты используют ваш контент? Пока это выглядит как игра в одни ворота.
Честно — мы видели примеры, когда полная блокировка всех AI-ботов приводила к росту позиций в классическом Google, возможно, за счет экономии краулингового бюджета. Но это скорее исключение, чем тренд.
