Экспертиза

Что такое crawl budget и как его экономить

Q: Где утекает бюджет?

Самые частые сценарии «бот тратит время не на то». - Параметрические URL фильтров. На страницах каталога с 10 параметрами легко получить миллионы комбинаций. Если фильтры открыты для индексации и нет грамотного canonical, бот будет обходить их вместо новых товаров. - Бесконечная пагинация. Архивные

Q: Что сделать в первую очередь?

Закройте мусор от обхода. В robots.txt: служебные параметры, бесконечные фильтры, страницы внутреннего поиска. Не закрывайте через robots то, что нужно убрать из индекса — для этого есть meta noindex. Проставьте canonical. На всех параметрических страницах укажите основную версию. Самоканонизация на

Редакция Indexatori 28.04.2026 4 мин чтения

Что такое crawl budget и как его экономить

Содержание

Crawl budget — это лимит на количество страниц, которые поисковый бот готов обойти на вашем сайте за единицу времени. Реальные алгоритмы расчёта Google не публикует, но базовая идея простая: бот распределяет своё время между сайтами и тратит его так, чтобы не перегрузить сервер и не уйти в бесконечные параметрические страницы.

Для большинства сайтов crawl budget в принципе не проблема — бот успевает обойти всё, что нужно. Тема становится критичной для крупных проектов: интернет-магазины с десятками тысяч SKU, агрегаторы, новостные сайты с большим архивом, многоязычные порталы.

Из чего складывается лимит

Google в публичных материалах разделяет crawl budget на две составляющих.

Crawl rate limit — максимальная нагрузка, которую бот может создать на сайт без перегрузки. Зависит от скорости ответа сервера: чем быстрее отдаёте страницы, тем больше бот готов забирать за единицу времени. Если сервер начинает отвечать медленнее или сыпать 5xx, бот сбавляет.

Crawl demand — спрос. Бот не обходит всё подряд, а решает, какие страницы стоят повторного визита. На спрос влияют популярность страницы, частота обновлений, количество входящих ссылок, упоминания в sitemap.

Если у вас крупный сайт и часть страниц долго не попадает в индекс, скорее всего проблема в спросе, а не в технической пропускной способности. Бот просто не считает эти страницы достаточно интересными для повторного визита.

Где утекает бюджет

Самые частые сценарии «бот тратит время не на то».

Параметрические URL фильтров. На страницах каталога с 10 параметрами легко получить миллионы комбинаций. Если фильтры открыты для индексации и нет грамотного canonical, бот будет обходить их вместо новых товаров.
Бесконечная пагинация. Архивные страницы листингов, у которых каждая копия отличается одной ссылкой.
Страницы внутреннего поиска. ?q=что-то. Часто открыты по умолчанию, генерируют тысячи бессмысленных URL.
Зеркала. Старые версии с www и без, http и https, региональные версии без жёстких 301.
Страницы с тонким контентом. Бот обходит, но не индексирует. На большом сайте это огромный мусорный поток.
Битые внутренние ссылки. 404 и редиректы съедают тот же crawl budget, что и нормальные страницы.

Что сделать в первую очередь

Закройте мусор от обхода. В robots.txt: служебные параметры, бесконечные фильтры, страницы внутреннего поиска. Не закрывайте через robots то, что нужно убрать из индекса — для этого есть meta noindex.

Проставьте canonical. На всех параметрических страницах укажите основную версию. Самоканонизация на каждой странице — нормально, главное чтобы canonical вёл на индексируемый URL.

Уберите редиректы из внутренней структуры. Внутренние ссылки должны вести напрямую на актуальные страницы, а не через /old/page/ → /new/page/. Каждая такая прокидка — отдельный запрос бота.

Почините 4xx и 5xx. Ошибки серверной стороны прямо сжимают crawl rate limit. На большом сайте 0,5% 5xx запросов могут заметно проседать обход.

Sitemap по-прежнему нужен. Это отдельный сигнал «вот реально важные страницы». Отделите карту товаров от карты статей, чтобы видеть, где медленнее идёт обход.

Как замерить ситуацию у себя

Самый честный способ — серверные логи. Отфильтруйте запросы по user-agent Googlebot и Yandex/Bing, посмотрите, сколько уникальных URL они посещают в сутки и какая доля приходится на «нужные» страницы. Если 70% запросов идёт в параметры и поиск — у вас проблема с распределением, не с лимитом.

Без логов есть косвенные метрики:

В Google Search Console: «Индексирование → Статистика сканирования» (Crawl Stats). Виден объём запросов, тип ответов, типы файлов.
В Яндекс.Вебмастере: «Индексирование → Статистика обхода». Отдельно показывает количество и распределение страниц по статусам.
В Bing Webmaster Tools: «Crawl Information». Менее детально, но ловит общие проблемы.

Когда crawl budget не главная проблема

Если у вас сайт меньше нескольких тысяч страниц, и часть из них всё равно не попадает в индекс, проблема скорее всего не в crawl budget, а в качестве контента. Поисковик сканирует, но не считает страницы достаточно ценными — это статус Crawled, currently not indexed. Тут поможет не оптимизация обхода, а доработка самих страниц.

Также часто crawl budget валят на «бот не зашёл», а реальная картина — бот зашёл, увидел noindex или Disallow и отступил. Логи и Search Console это сразу прояснят.

Связанные термины

robots.txt — управление обходом, ключевой инструмент экономии crawl budget.
canonical URL — сигнал, какие URL считать основными при дубликатах.
Crawled, currently not indexed — статус, в котором бот всё-таки зашёл, но не проиндексировал.
IndexNow — push-сигналы для Яндекса и Bing об изменённых страницах, экономят их crawl budget.

Из чего складывается лимит

Где утекает бюджет

Что сделать в первую очередь

Как замерить ситуацию у себя

Когда crawl budget не главная проблема

Связанные термины

Читайте также

Как читать заявления "мы используем Google Indexing API"

Почему SEO-рынок всё равно использует Google Indexing API

Почему несколько аккаунтов Google для индексации — риск