Экспертиза

Что такое robots.txt и зачем он нужен сайту

Что такое robots.txt и зачем он нужен сайту
Содержание

Robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие разделы можно сканировать, а какие нет. Лежит он по адресу https://example.com/robots.txt. Это первый файл, который запрашивает практически любой поисковый бот, придя на сайт.

Главная путаница начинается с того, что robots.txt управляет именно сканированием, а не индексацией. Если страница закрыта в robots.txt, бот туда не зайдёт. Но это не значит, что страница исчезнет из выдачи: Google может оставить её в индексе по внешним ссылкам, просто без описания. Чтобы убрать страницу из поиска, используют другие сигналы — meta noindex или удаление через панель вебмастера.

Из чего состоит файл

Файл содержит блоки правил для разных ботов. Минимальный пример:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

User-agent — имя бота. Звёздочка означает «все боты». Можно прописать отдельные блоки для Googlebot, Yandex, Bingbot, GPTBot и других. Allow и Disallow указывают, какие пути разрешены или запрещены. Sitemap — ссылка на карту сайта; не обязательная директива, но полезная.

Порядок правил имеет значение: при конфликте более конкретное правило обычно побеждает более общее. Хороший практический подход — держать правила компактными и не плодить десятки Disallow там, где можно ограничить один общий путь.

Что обычно закрывают

  • /admin/, /wp-admin/ и подобные — административные интерфейсы.
  • /cart/, /checkout/ — внутренние страницы корзины и оформления заказа.
  • /search? и другие параметры — внутренний поиск, бесконечные параметры фильтров.
  • /print/, /pdf/ — служебные версии страниц.
  • Страницы тестового или служебного контента, которые случайно попали на боевой домен.

Чего не стоит закрывать: разделы, на которые приходят пользователи из поиска. Если вы случайно закроете в robots категорию или весь сайт — Google перестанет переобходить страницы и постепенно выкидывать их из индекса.

AI-краулеры в 2026 году

К стандартному набору поисковых ботов добавились боты, обслуживающие AI-поиск и обучение моделей. Самые известные:

  • GPTBot и ChatGPT-User от OpenAI.
  • ClaudeBot и Claude-Web от Anthropic.
  • Google-Extended — отдельный сигнал для Google Bard и других AI-продуктов.
  • PerplexityBot.
  • YandexAdditional.
  • Applebot-Extended.

Эти боты можно явно разрешить или запретить в robots.txt. Если хотите, чтобы материалы сайта появлялись в ответах ChatGPT Search или AI Overviews Google, не закрывайте им доступ. Если, наоборот, хотите, чтобы ваш контент не использовался для обучения, добавьте Disallow: / для нужных user-agent.

Отдельная история — настройки на уровне CDN. Cloudflare, например, умеет автоматически закрывать AI-ботов через настройку «AI Audit». Если у вас включена эта опция, она перебивает ваши собственные правила в robots.txt — стоит проверить, не блокирует ли CDN то, что вы наоборот хотите открыть.

Типичные ошибки

  • Закрытый сайт целиком. Disallow: / без оговорок — мгновенный способ потерять весь поиск. Обычно это случается на тестовом домене и потом по ошибке остаётся на боевом.
  • Закрытые статические ресурсы. Если запретить роботам доступ к CSS и JS, поисковик может неверно отрисовать страницу и решить, что она пустая или сломана.
  • Конфликт sitemap и robots. В sitemap указаны URL, которые в robots.txt закрыты. Поисковик увидит несогласованность и доверится robots.
  • Кириллический путь без percent-encoding. Boyе сейчас понимают UTF-8, но для страховки кириллицу в путях лучше кодировать.
  • Файл недоступен по https или возвращает не 200. Поисковик в этом случае предполагает, что весь сайт открыт для обхода, и может зайти туда, куда вы не планировали.

Как проверить файл у себя

В Яндекс.Вебмастере есть встроенный анализатор robots.txt: вставляете URL, видите, какое правило срабатывает. У Google аналогичный инструмент доступен через Search Console. Также полезно открыть файл напрямую в браузере и убедиться, что он отдаётся, не превращается в HTML-страницу 404 и не блокируется CDN.

Перед публикацией крупных правок имеет смысл скачать текущую версию, внести изменения локально, прогнать через анализатор и только потом заливать на боевой сайт. Тогда любая ошибка ловится на этапе проверки, а не на падающем трафике.

Связанные термины

robots.txt и зачем

  • meta noindex и X-Robots-Tag — сигналы для индексации, а не для обхода.
  • sitemap.xml — карта рекомендуемых для обхода адресов.
  • crawl budget — лимит на количество страниц, которые поисковик готов обходить за единицу времени.
  • IndexNow — отдельный протокол push-сигналов о новых и изменённых страницах для Яндекса и Bing.