Экспертиза

Что такое sitemap.xml и как его составить правильно

Что такое sitemap.xml и как его составить правильно
Содержание

Sitemap.xml — это XML-файл со списком страниц сайта, которые владелец считает важными для поиска. По нему поисковик быстрее находит новые и изменённые материалы, не полагаясь только на внутренние ссылки. Лежит файл обычно по адресу https://example.com/sitemap.xml и упоминается в robots.txt.

Важная оговорка с самого начала: sitemap — это подсказка, а не гарантия. Google прямо пишет в документации, что отправка sitemap не гарантирует индексацию. Поисковик решает сам, какие страницы из карты обходить и в каком порядке.

Минимальная структура

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-04-28T12:00:00+00:00</lastmod>
  </url>
  <url>
    <loc>https://example.com/posts/article/</loc>
    <lastmod>2026-04-25T10:30:00+00:00</lastmod>
  </url>
</urlset>

Обязательное поле — <loc>. Остальные (lastmod, changefreq, priority) — необязательные. По актуальной позиции Google, changefreq и priority практически не учитываются. lastmod — учитывается, но только если ему можно доверять: если он меняется на каждой публикации без реальных правок, поисковик начинает игнорировать значение.

Что класть в sitemap, а что нет

Включайте только те адреса, которые вы хотите видеть в выдаче. Sitemap должен содержать канонические URL — те, которые на странице помечены как rel="canonical". Если в карте указан один адрес, а в HTML страницы canonical другой, поисковик увидит конфликт и доверится canonical.

Что не должно попадать в sitemap:

  • страницы с meta noindex;
  • закрытые в robots.txt;
  • 4xx и 5xx ответы;
  • 301/302 редиректы;
  • параметрические URL фильтров и сортировок;
  • технические страницы корзины, оформления заказа, поиска по сайту.

Если в вашем sitemap есть мусор, поисковик потратит crawl budget на его повторный обход и оценит сайт как менее аккуратный. Регулярная чистка sitemap часто даёт заметно более быстрое попадание новых страниц в индекс.

Большие сайты и индексные карты

Один файл sitemap.xml ограничен 50 000 URL и 50 МБ в распакованном виде. Если страниц больше, делают sitemap-индекс — карту карт:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-posts.xml</loc>
    <lastmod>2026-04-28T00:00:00+00:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products.xml</loc>
  </sitemap>
</sitemapindex>

Удобно делить карту по разделам: посты, товары, страницы категорий, картинки. Так проще диагностировать, где именно проседает индексация.

Sitemap-images.xml для картинок

Отдельная карта изображений помогает попасть в Google Images и в ответы AI-поиска, которые иллюстрируются миниатюрами. Формат:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
  <url>
    <loc>https://example.com/posts/article/</loc>
    <image:image>
      <image:loc>https://example.com/img/cover.webp</image:loc>
      <image:title>Описание картинки</image:title>
    </image:image>
  </url>
</urlset>

Стоит включать только канонические страницы с осмысленными обложками. Если у каждой статьи на сайте есть нормальная WebP-обложка, такая карта быстро окупает себя.

Что писать в robots.txt

Просто добавьте строку Sitemap: https://example.com/sitemap.xml (или ссылку на индексную карту). Не критично, в каком блоке файла она стоит. Лучше всё-таки в самом конце, после User-agent блоков, чтобы не путать парсеры.

Как отправить sitemap поисковику

  • Google Search Console. В разделе «Файлы Sitemap» добавьте полный URL карты. После этого там появятся данные о количестве отправленных и проиндексированных URL и об ошибках.
  • Яндекс.Вебмастер. Раздел «Индексирование → Файлы Sitemap». Аналогично можно указать адрес и отслеживать обработку.
  • Bing Webmaster Tools. Раздел «Sitemaps». Bing также поддерживает протокол IndexNow для быстрых push-уведомлений по конкретным URL.

Sitemap не отменяет ни IndexNow, ни ручную отправку конкретных адресов через инструменты вебмастера. Это разные слои. Sitemap полезен как полный список того, что у вас есть, IndexNow — как сигнал о том, что только что появилось или поменялось.

Типичные ошибки

  • Sitemap содержит редиректы. Поисковик идёт в редирект, теряет время и игнорирует часть карты.
  • lastmod выставляется сегодняшней датой на каждой странице. Это сигнал «я не знаю, когда что менялось», и Google перестанет ему доверять.
  • Sitemap содержит закрытые в robots. Поисковик видит конфликт и снижает доверие к карте в целом.
  • Карта обновляется раз в месяц, а сайт публикует материалы каждый день. Половина новых страниц долго не попадает в карту и в индекс.
  • Файл недоступен по https. Поисковик не сможет его прочитать; ошибка остаётся в Search Console и в Вебмастере.

Связанные термины

  • robots.txt — управление обходом, не индексацией.
  • canonical URL — какой адрес считать основным.
  • IndexNow — push-сигналы для Яндекса и Bing.
  • Discovered/Crawled, currently not indexed — статусы, на которые часто влияет качество карты сайта.