Поиск битых ссылок на сайте, журнал 404 ошибок

Новые возможности seo-модуля

Мы выпустили обновление модуля « Инструменты seo-специалиста ». Теперь в нем есть Журнал битых ссылок на сайте. Журнал работает полностью автономно, в фоновом режиме. Отчет доступен в любое время, без дополнительных «парсингов». Подробности о новой функции ниже.

seo-модуль + журнал 404 = новый seo-модуль

Что такое Ошибка 404 или 404 Not found

Ошибка 404 или Not Found («не найдено») — стандартный код ответа HTTP о том, что клиент был в состоянии общаться с сервером, но сервер не может найти данные согласно запросу (цитата из Википедии, https://ru.wikipedia.org/wiki/HTTP_404 ).

Это значит — запрашиваемой страницы сейчас нет на сервере. Возможно, раньше была (http не хранит историю состояний). Сама по себе ошибка 404 на странице не страшна.

Плохо, если на страницы с 404 ошибками ссылаются другие. Такие ссылки называют «битыми», или «мертвыми». Битые ссылки мешают пользователям и поисковикам воспринимать информацию сайта:

  1. Уменьшают трафик. Однажды открыв битую ссылку, пользователь (как и поисковая машина), не перейдет по ней вновь.
  2. Увеличивают отказы. Пользователи видят страницу с ошибкой и покидают сайт.
  3. Уменьшают время, проведенное пользователем на сайте.
  4. Создают «плохую карму» ссылочному профилю сайта. Поисковик тратит лишнее время на переходы по битым ссылкам.

Большое количество битых ссылок — серьезная проблема. Расскажем, как ее исправить.

Откуда берутся битые ссылки на сайте

Битые ссылки могут быть как следствием неправильной настройки CMS, так и результатом человеческих ошибок.

  • На сайте неправильно настроены ЧПУ, инфоблоки, компоненты. При попытке открыть страницу новости, например, появляется ошибка.
  • Товар снят с продажи или закончился на складе. Некоторые сайты в этом случае удаляют страницу товара из каталога.
  • Адрес страницы изменился, вы не поставили 301 редирект, страница выдает ошибку (статья - https://www.intervolga.ru/blog/marketing/301-redirect-bitrix/ ).
  • Пользователь (или другой сайт) ошибочно скопировал ссылку на страницу.
  • Вы удалили картинку, pdf-ку, видеоролик с сайта, не проверив, есть на него ссылки или нет.

Если в первых трех случаях вы можете ошибки предотвратить грамотной настройкой сайта, от последних вы не застрахованы. Если к адресу любого сайта дописать /abracadabra_404, скорей всего увидите 404 ошибку.

Программы для поиска 404 ошибок на сайте

Есть несколько программ, которые справляются с поиском 404 ошибок.

  1. Xenu’s Link Sleuth ( http://home.snafu.de/tilman/xenulink.html ). Бесплатная. Работает только под Windows (на виртуальной машине не проверяли). Выгружает результат в HTML и CSV (чтобы открыть в Excel надо сменить кодировку). Пример работы программы:
    xenu
  2. Comparser ( http://parser.alaev.info/ ). Платная, 2000 руб. Работает только под Windows, работу на виртуальной машине не проверяли.
  3. Netpeak seospider ( https://netpeaksoftware.com/ru/spider ). Платная, от $9,80/мес. На данный момент работает только под Windows. На странице программы написано, что версии MacOS и Linux в разработке.

Программы замечательно справляются с поиском битых ссылок, но обладают недостатками:

  1. Все-таки, это десктопные программы. Чтобы получить результат, вам надо запустить сервис проверки, дождаться его завершения. Далее обработать результат. На больших объемах данных это бывает непросто.
  2. Для больших сайтов программа работает несколько часов. При этом растет нагрузка на сайт. Сайт из 1 миллиона страниц мы за 2 недели так и не смогли полностью обойти, сервер не справляется с нагрузкой и блокирует программу.
  3. Программы не работают в фоновом режиме. Если вы делали проверку месяц назад, вероятно, на сайте появились новые битые ссылки, и парсер надо запускать заново.

Для небольших сайтов (до 5 тысяч страниц) используйте любую программу или даже отчет Вебмастера Яндекса. Для больших сайтов сканирование проводят «частями» или небольшими интервалами.

Мы упростили работу специалистам по продвижению сайтов на 1С-Битрикс и добавили функцию поиска битых ссылок в модуль «Инструменты seo-специалиста». Мы планируем сделать инструмент, полностью закрывающий задачи оптимизации сайта. Вместо нескольких программ используйте наш seo-модуль.

Поиск битых ссылок с помощью нашего seo-модуля

Несколько лет назад, когда обновляли свой сайт, мы уже использовали похожий инструмент — Журнал 404 ошибок. Статья - https://www.intervolga.ru/blog/projects/404-redirect/ .

На его основе мы доработали и выпустили новую версию модуля “Инструменты seo-специалиста”. Теперь в нем есть функция отслеживания и записи в единый журнал всех ошибок 404 на страницах сайта.

Задача — хранить список свежих битых ссылок в удобном для seo-специалиста виде. Без дополнительных настроек и программирования.

Смело скажем — У нас получилось! Как только вы установите (или обновите модуль), на сайте появится журнал битых ссылок, который автоматически начнет пополняться в момент срабатывания ошибок 404.

Журнал битых ссылок работает сразу после установки модуля.

Внимание, на данный момент обновление модуля находится в beta-версии. Есть небольшая ошибка при установке, но обновление можно установить, отключив флажок «Загружать только стабильные обновления». Обязательно сделайте резервную копию перед установкой.

Кратко о новых возможностях.

Включение логирования 404 ошибок

При установке модуля функция логирования сразу включена. Фиксация битых ссылок начинается, как только вы установили модуль. Ничего дополнительно делать не надо!

включение логирования 404 ошибок

У журнала есть настройка, сколько дней хранить записи. По умолчанию стоит 90 дней. Если на сайте несколько миллионов страниц и вы переживаете за размер базы данных (битые ссылки хранятся в отдельной таблице iv_seo_error_log ), установите меньший период.

Механика работы

Если функция включена, модуль отслеживает на каждой странице появление ошибки 404. Даже если это делает компонент (сообщение Элемент не найден).

пример 404 ошибки, вызванной компонентом битрикс

При срабатывании 404 ошибки модуль добавляет в таблицу iv_seo_error_log новую запись об ошибке. Для существующей пары {URL - реферер} модуль не создаёт новую запись, а увеличивает счетчик посещений. Вы будете знать, сколько раз на конкретную ссылку переходили с конкретного источника.

Таблица создается при установке модуля (или при обновлении). Если функция выключена, запись в таблицу не происходит. При удалении модуля таблица сохраняется в базе.

Интерфейс

В меню модуля «Сервисы - SEO-свойства» появился новый пункт «Битые ссылки».

журнал битых ссылок в меню модуля

На странице типовая «админская» таблица. В ней выводится список известных модулю URL, на которых сработала 404.

проверка работы

Для каждого URL хранится реферер перехода и количество хитов, чтобы найти и устранить источник ошибки.

запись в журнале 404

Для таблицы доступно редактирование порядка и состава столбцов, а также выгрузка в Excel. Если выбрать страницы с помощью фильтра, выгрузка в Excel сработает только для них. Например, можно выгрузить список 404 с определенным реферером.

настройка столбцов журнала

выгрузка 404 ошибок в excel

Что *не* находит модуль

Модуль определяет отсутствие документов (php, html, doc, xls, pdf) — запросы, в результате которых можно увидеть страницу 404 вашего сайта (их перехватывает и обрабатывает 1С-Битрикс).

При этом, в зависимости от настроек сервера, файлы картинок, js, css могут быть обработаны на уровне Nginx. Такие обращения модуль не зафиксирует.

Для их поиска пользуйтесь предложенными программами или панелью вебмастера. Как правило, % таких битых ссылок низкий.

Исправление битых ссылок на сайте

Для начала фильтром выберите нужные страницы и скачайте список 404 ошибок для обработки. Проведите анализ битых ссылок и решите, что делать с каждой. Для исправления битых ссылок можно:

  1. Разместить по этому адресу релевантный документ.
  2. Настроить редирект со старого адреса на новый. Если на страницу ссылаются другие сайты, и вы не можете их отредактировать, возможно так и придется сделать.
  3. Отредактировать страницу-источник — удалить ссылку или заменить на корректную.

Модуль не знает об исправлении ошибок, и хранит все ссылки в базе. Чтобы проверить, что новых ошибок после чистки не появляется, используйте фильтр по “дате последнего изменения”.

Для каждой ссылки подходит один вариант. Какой — решает специалист по seo. Обновленный модуль «Инструменты seo-специалиста» поможет найти битые ссылки и восстановить информацию на сайте.

Комментарии (0)