Экспертиза

Что такое crawl budget и как его экономить

Что такое crawl budget и как его экономить
Содержание

Crawl budget — это лимит на количество страниц, которые поисковый бот готов обойти на вашем сайте за единицу времени. Реальные алгоритмы расчёта Google не публикует, но базовая идея простая: бот распределяет своё время между сайтами и тратит его так, чтобы не перегрузить сервер и не уйти в бесконечные параметрические страницы.

Для большинства сайтов crawl budget в принципе не проблема — бот успевает обойти всё, что нужно. Тема становится критичной для крупных проектов: интернет-магазины с десятками тысяч SKU, агрегаторы, новостные сайты с большим архивом, многоязычные порталы.

Из чего складывается лимит

Google в публичных материалах разделяет crawl budget на две составляющих.

Crawl rate limit — максимальная нагрузка, которую бот может создать на сайт без перегрузки. Зависит от скорости ответа сервера: чем быстрее отдаёте страницы, тем больше бот готов забирать за единицу времени. Если сервер начинает отвечать медленнее или сыпать 5xx, бот сбавляет.

Crawl demand — спрос. Бот не обходит всё подряд, а решает, какие страницы стоят повторного визита. На спрос влияют популярность страницы, частота обновлений, количество входящих ссылок, упоминания в sitemap.

Если у вас крупный сайт и часть страниц долго не попадает в индекс, скорее всего проблема в спросе, а не в технической пропускной способности. Бот просто не считает эти страницы достаточно интересными для повторного визита.

Где утекает бюджет

Самые частые сценарии «бот тратит время не на то».

  • Параметрические URL фильтров. На страницах каталога с 10 параметрами легко получить миллионы комбинаций. Если фильтры открыты для индексации и нет грамотного canonical, бот будет обходить их вместо новых товаров.
  • Бесконечная пагинация. Архивные страницы листингов, у которых каждая копия отличается одной ссылкой.
  • Страницы внутреннего поиска. ?q=что-то. Часто открыты по умолчанию, генерируют тысячи бессмысленных URL.
  • Зеркала. Старые версии с www и без, http и https, региональные версии без жёстких 301.
  • Страницы с тонким контентом. Бот обходит, но не индексирует. На большом сайте это огромный мусорный поток.
  • Битые внутренние ссылки. 404 и редиректы съедают тот же crawl budget, что и нормальные страницы.

Что сделать в первую очередь

Закройте мусор от обхода. В robots.txt: служебные параметры, бесконечные фильтры, страницы внутреннего поиска. Не закрывайте через robots то, что нужно убрать из индекса — для этого есть meta noindex.

Проставьте canonical. На всех параметрических страницах укажите основную версию. Самоканонизация на каждой странице — нормально, главное чтобы canonical вёл на индексируемый URL.

Уберите редиректы из внутренней структуры. Внутренние ссылки должны вести напрямую на актуальные страницы, а не через /old/page/ → /new/page/. Каждая такая прокидка — отдельный запрос бота.

Почините 4xx и 5xx. Ошибки серверной стороны прямо сжимают crawl rate limit. На большом сайте 0,5% 5xx запросов могут заметно проседать обход.

Sitemap по-прежнему нужен. Это отдельный сигнал «вот реально важные страницы». Отделите карту товаров от карты статей, чтобы видеть, где медленнее идёт обход.

Как замерить ситуацию у себя

Самый честный способ — серверные логи. Отфильтруйте запросы по user-agent Googlebot и Yandex/Bing, посмотрите, сколько уникальных URL они посещают в сутки и какая доля приходится на «нужные» страницы. Если 70% запросов идёт в параметры и поиск — у вас проблема с распределением, не с лимитом.

Без логов есть косвенные метрики:

  • В Google Search Console: «Индексирование → Статистика сканирования» (Crawl Stats). Виден объём запросов, тип ответов, типы файлов.
  • В Яндекс.Вебмастере: «Индексирование → Статистика обхода». Отдельно показывает количество и распределение страниц по статусам.
  • В Bing Webmaster Tools: «Crawl Information». Менее детально, но ловит общие проблемы.

Когда crawl budget не главная проблема

Если у вас сайт меньше нескольких тысяч страниц, и часть из них всё равно не попадает в индекс, проблема скорее всего не в crawl budget, а в качестве контента. Поисковик сканирует, но не считает страницы достаточно ценными — это статус Crawled, currently not indexed. Тут поможет не оптимизация обхода, а доработка самих страниц.

Также часто crawl budget валят на «бот не зашёл», а реальная картина — бот зашёл, увидел noindex или Disallow и отступил. Логи и Search Console это сразу прояснят.

Связанные термины

  • robots.txt — управление обходом, ключевой инструмент экономии crawl budget.
  • canonical URL — сигнал, какие URL считать основными при дубликатах.
  • Crawled, currently not indexed — статус, в котором бот всё-таки зашёл, но не проиндексировал.
  • IndexNow — push-сигналы для Яндекса и Bing об изменённых страницах, экономят их crawl budget.