Robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие разделы можно сканировать, а какие нет. Лежит он по адресу https://example.com/robots.txt. Это первый файл, который запрашивает практически любой поисковый бот, придя на сайт.
Главная путаница начинается с того, что robots.txt управляет именно сканированием, а не индексацией. Если страница закрыта в robots.txt, бот туда не зайдёт. Но это не значит, что страница исчезнет из выдачи: Google может оставить её в индексе по внешним ссылкам, просто без описания. Чтобы убрать страницу из поиска, используют другие сигналы — meta noindex или удаление через панель вебмастера.
Из чего состоит файл
Файл содержит блоки правил для разных ботов. Минимальный пример:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Sitemap: https://example.com/sitemap.xml
User-agent — имя бота. Звёздочка означает «все боты». Можно прописать отдельные блоки для Googlebot, Yandex, Bingbot, GPTBot и других. Allow и Disallow указывают, какие пути разрешены или запрещены. Sitemap — ссылка на карту сайта; не обязательная директива, но полезная.
Порядок правил имеет значение: при конфликте более конкретное правило обычно побеждает более общее. Хороший практический подход — держать правила компактными и не плодить десятки Disallow там, где можно ограничить один общий путь.
Что обычно закрывают
/admin/,/wp-admin/и подобные — административные интерфейсы./cart/,/checkout/— внутренние страницы корзины и оформления заказа./search?и другие параметры — внутренний поиск, бесконечные параметры фильтров./print/,/pdf/— служебные версии страниц.- Страницы тестового или служебного контента, которые случайно попали на боевой домен.
Чего не стоит закрывать: разделы, на которые приходят пользователи из поиска. Если вы случайно закроете в robots категорию или весь сайт — Google перестанет переобходить страницы и постепенно выкидывать их из индекса.
AI-краулеры в 2026 году
К стандартному набору поисковых ботов добавились боты, обслуживающие AI-поиск и обучение моделей. Самые известные:
- GPTBot и ChatGPT-User от OpenAI.
- ClaudeBot и Claude-Web от Anthropic.
- Google-Extended — отдельный сигнал для Google Bard и других AI-продуктов.
- PerplexityBot.
- YandexAdditional.
- Applebot-Extended.
Эти боты можно явно разрешить или запретить в robots.txt. Если хотите, чтобы материалы сайта появлялись в ответах ChatGPT Search
или AI Overviews Google, не закрывайте им доступ. Если, наоборот, хотите, чтобы ваш контент не использовался для обучения, добавьте Disallow: / для нужных user-agent.
Отдельная история — настройки на уровне CDN. Cloudflare, например, умеет автоматически закрывать AI-ботов через настройку «AI Audit». Если у вас включена эта опция, она перебивает ваши собственные правила в robots.txt — стоит проверить, не блокирует ли CDN то, что вы наоборот хотите открыть.
Типичные ошибки
- Закрытый сайт целиком.
Disallow: /без оговорок — мгновенный способ потерять весь поиск. Обычно это случается на тестовом домене и потом по ошибке остаётся на боевом. - Закрытые статические ресурсы. Если запретить роботам доступ к CSS и JS, поисковик может неверно отрисовать страницу и решить, что она пустая или сломана.
- Конфликт sitemap и robots. В sitemap указаны URL, которые в robots.txt закрыты. Поисковик увидит несогласованность и доверится robots.
- Кириллический путь без percent-encoding. Boyе сейчас понимают UTF-8, но для страховки кириллицу в путях лучше кодировать.
- Файл недоступен по https или возвращает не 200. Поисковик в этом случае предполагает, что весь сайт открыт для обхода, и может зайти туда, куда вы не планировали.
Как проверить файл у себя
В Яндекс.Вебмастере есть встроенный анализатор robots.txt: вставляете URL, видите, какое правило срабатывает. У Google аналогичный инструмент доступен через Search Console. Также полезно открыть файл напрямую в браузере и убедиться, что он отдаётся, не превращается в HTML-страницу 404 и не блокируется CDN.
Перед публикацией крупных правок имеет смысл скачать текущую версию, внести изменения локально, прогнать через анализатор и только потом заливать на боевой сайт. Тогда любая ошибка ловится на этапе проверки, а не на падающем трафике.
Связанные термины
- meta noindex и X-Robots-Tag — сигналы для индексации, а не для обхода.
- sitemap.xml — карта рекомендуемых для обхода адресов.
- crawl budget — лимит на количество страниц, которые поисковик готов обходить за единицу времени.
- IndexNow — отдельный протокол push-сигналов о новых и изменённых страницах для Яндекса и Bing.
