Soft 404 — ситуация, когда сервер возвращает поисковику код 200 OK, а содержимое страницы при этом «пустое» или сообщает об отсутствии контента. Поисковик считает, что страница технически жива, но фактически бесполезна. В Search Console такой статус так и называется — «Мягкая ошибка 404».
Канонический пример: страница с надписью «Товар не найден» отдаётся с кодом 200. С точки зрения сервера всё в порядке, с точки зрения поисковика — индексировать нечего. Поисковик мягко выкидывает страницу из индекса и помечает её как soft 404.
Почему это плохо
Несколько причин, по которым soft 404 стоит чинить, а не игнорировать.
Снижение доверия к сайту. Если на сайте систематически встречаются «живые, но пустые» страницы, поисковик хуже доверяет другим страницам того же сайта. Crawl budget на крупных проектах начинает уходить на обход soft 404 вместо нормальных страниц.
Потеря ссылочного веса. Внешняя ссылка ведёт на soft 404, поисковик не индексирует страницу — ссылка не передаёт вес.
Сбитая аналитика. В отчётах ошибочно растёт количество страниц без отказов: пользователь увидел пустоту и закрыл вкладку, но сервер ответил 200. На сухой статистике всё выглядит нормально.
Откуда берутся soft 404
Несуществующий товар или статья. Карточка удалена, движок возвращает шаблон с надписью «не найдено», но забывает переключить статус на 404 или 410.
Параметрические страницы фильтров. Например, фильтр «синие женские туфли 47 размера» при отсутствии товаров отдаёт пустой каталог. Если таких комбинаций тысячи, поисковик утопает в soft 404.
Заглушки с минимальным текстом. Страница «Скоро здесь будет контент» в продакшене. Технически 200, фактически пусто.
Сломанные шаблоны. Бывает, что движок отдаёт страницу без основного блока контента из-за ошибки в коде, а статус всё равно 200.
Слишком тонкий контент. На границе soft 404 и Crawled, currently not indexed. Если страница из 30 слов с минимальной полезностью — поисковик может сам решить, как её классифицировать.
Как чинить
Удалённые страницы. Сервер должен отдавать 404 (страница не найдена) или 410 (gone, удалена навсегда). 410 явно сообщает поисковику «не приходи больше», 404 — мягче, поисковик ещё какое-то время будет проверять. В большинстве случаев достаточно 404.
Страницы с устаревшим контентом, которые перенесены. 301 редирект на актуальный аналог. Без редиректов поисковик попадает в пустоту.
Параметрические комбинации фильтров без товаров. Здесь варианты: либо отдавать 404 при пустом результате, либо ставить meta noindex (страница доступна пользователям, но не идёт в индекс), либо канонизировать на основную страницу категории. Самое мягкое решение — noindex плюс понятный текст «по таким параметрам сейчас нет товаров, попробуйте другие».
Заглушки. Не выкатывайте «Скоро будет контент» в продакшене. Лучше скрыть страницу до момента, когда она готова.
Тонкий контент на границе. Тут уже не статус, а контент. Перепишите страницу, добавьте пользы, либо удалите её.
Как найти soft 404 у себя
Google Search Console. Раздел «Индексирование → Страницы». Там есть отдельная категория «Мягкая ошибка 404» с примерами URL. Это первое место, куда стоит зайти.
Яндекс.Вебмастер. В отчёте «Страницы в поиске» и «Исключённые страницы» можно увидеть похожие классификации, хотя термин «soft 404» Яндекс использует реже.
Серверные логи. Сложнее, но точнее. Найти URL, на которые часто заходит Googlebot и которые при этом отдают шаблон без основного контента. Метрика — соотношение размера страницы и количества полезных блоков. Очень малые страницы при коде 200 — кандидаты.
Сторонние краулеры. Screaming Frog, Sitebulb и аналоги умеют отмечать страницы с подозрительно малым размером и одинаковым шаблоном. Полезно для крупных проектов.
Чего делать не нужно
- Закрывать soft 404 через robots.txt. Бот туда не зайдёт и не увидит, что страница уже исправлена. Лучше чинить, не прятать.
- Ставить везде 410 без раздумий. 410 сообщает «больше не вернусь». Если страница потенциально вернётся — лучше 404 или редирект.
- Делать массовый 301 на главную. Это создаёт паттерн «много URL ведут на одну страницу», и поисковик начинает считать главную мягкой 404 для редиректов.
Связанные термины
- 404 / 410 — серверные коды отсутствия страницы.
- 301 / 302 — редиректы.
- Crawled, currently not indexed — статус, в котором страница уже сканировалась, но не попала в индекс.
- Тонкий контент — основная причина soft 404 и общего низкого качества страниц.
