Crawl budget — это лимит на количество страниц, которые поисковый бот готов обойти на вашем сайте за единицу времени. Реальные алгоритмы расчёта Google не публикует, но базовая идея простая: бот распределяет своё время между сайтами и тратит его так, чтобы не перегрузить сервер и не уйти в бесконечные параметрические страницы.
Для большинства сайтов crawl budget в принципе не проблема — бот успевает обойти всё, что нужно. Тема становится критичной для крупных проектов: интернет-магазины с десятками тысяч SKU, агрегаторы, новостные сайты с большим архивом, многоязычные порталы.
Из чего складывается лимит
Google в публичных материалах разделяет crawl budget на две составляющих.
Crawl rate limit — максимальная нагрузка, которую бот может создать на сайт без перегрузки. Зависит от скорости ответа сервера: чем быстрее отдаёте страницы, тем больше бот готов забирать за единицу времени. Если сервер начинает отвечать медленнее или сыпать 5xx, бот сбавляет.
Crawl demand — спрос. Бот не обходит всё подряд, а решает, какие страницы стоят повторного визита. На спрос влияют популярность страницы, частота обновлений, количество входящих ссылок, упоминания в sitemap.
Если у вас крупный сайт и часть страниц долго не попадает в индекс, скорее всего проблема в спросе, а не в технической пропускной способности. Бот просто не считает эти страницы достаточно интересными для повторного визита.
Где утекает бюджет
Самые частые сценарии «бот тратит время не на то».
- Параметрические URL фильтров. На страницах каталога с 10 параметрами легко получить миллионы комбинаций. Если фильтры открыты для индексации и нет грамотного canonical, бот будет обходить их вместо новых товаров.
- Бесконечная пагинация. Архивные страницы листингов, у которых каждая копия отличается одной ссылкой.
- Страницы внутреннего поиска.
?q=что-то. Часто открыты по умолчанию, генерируют тысячи бессмысленных URL. - Зеркала. Старые версии с www и без, http и https, региональные версии без жёстких 301.
- Страницы с тонким контентом. Бот обходит, но не индексирует. На большом сайте это огромный мусорный поток.
- Битые внутренние ссылки. 404 и редиректы съедают тот же crawl budget, что и нормальные страницы.
Что сделать в первую очередь
Закройте мусор от обхода. В robots.txt: служебные параметры, бесконечные фильтры, страницы внутреннего поиска. Не закрывайте через robots то, что нужно убрать из индекса — для этого есть meta noindex.
Проставьте canonical. На всех параметрических страницах укажите основную версию. Самоканонизация на каждой странице — нормально, главное чтобы canonical вёл на индексируемый URL.
Уберите редиректы из внутренней структуры. Внутренние ссылки должны вести напрямую на актуальные страницы, а не через /old/page/ → /new/page/. Каждая такая прокидка — отдельный запрос бота.
Почините 4xx и 5xx. Ошибки серверной стороны прямо сжимают crawl rate limit. На большом сайте 0,5% 5xx запросов могут заметно проседать обход.
Sitemap по-прежнему нужен. Это отдельный сигнал «вот реально важные страницы». Отделите карту товаров от карты статей, чтобы видеть, где медленнее идёт обход.
Как замерить ситуацию у себя
Самый честный способ — серверные логи. Отфильтруйте запросы по user-agent Googlebot и Yandex/Bing, посмотрите, сколько уникальных URL они посещают в сутки и какая доля приходится на «нужные» страницы. Если 70% запросов идёт в параметры и поиск — у вас проблема с распределением, не с лимитом.
Без логов есть косвенные метрики:
- В Google Search Console: «Индексирование → Статистика сканирования» (Crawl Stats). Виден объём запросов, тип ответов, типы файлов.
- В Яндекс.Вебмастере: «Индексирование → Статистика обхода». Отдельно показывает количество и распределение страниц по статусам.
- В Bing Webmaster Tools: «Crawl Information». Менее детально, но ловит общие проблемы.
Когда crawl budget не главная проблема
Если у вас сайт меньше нескольких тысяч страниц, и часть из них всё равно не попадает в индекс, проблема скорее всего не в crawl budget, а в качестве контента. Поисковик сканирует, но не считает страницы достаточно ценными — это статус Crawled, currently not indexed. Тут поможет не оптимизация обхода, а доработка самих страниц.
Также часто crawl budget валят на «бот не зашёл», а реальная картина — бот зашёл, увидел noindex или Disallow и отступил. Логи и Search Console это сразу прояснят.
Связанные термины
- robots.txt — управление обходом, ключевой инструмент экономии crawl budget.
- canonical URL — сигнал, какие URL считать основными при дубликатах.
- Crawled, currently not indexed — статус, в котором бот всё-таки зашёл, но не проиндексировал.
- IndexNow — push-сигналы для Яндекса и Bing об изменённых страницах, экономят их crawl budget.
