Как на сайте найти дубли страниц

Отсутствие дублированного контента — один из критериев оценки качества сайта. Продуктовые эксперты справочного форума для вебмастеров Google Евгений Кобзарь и Вячеслав Вареня расскажут, как при помощи программ Netpeak Spider и Checker найти дубли страниц сайта в индексе.

Существует достаточно вариантов поиска дублей страниц на сайте, которые, в основном, предполагают сканирование и поиск одинаковых данных в заголовке h1 и мета-данных.

В этой статье мы предложим свой вариант поиска дублей по URL в случаях, когда проставлены ссылки с utm-меткам, когда в URL используются знаки вопросов, а также когда сайт генерирует не понятные URL рандомно.

Основной используемый софт — Netpeak Checker.

В Netpeak Checker есть встроенный инструмент «Парсер поисковых систем». Его мы и будем использовать.

Используя Netpeak Checker и оператор site:, вы можете получить информацию по дублям страниц сайта, которые находятся в индексе. К тому же, информация будет получена быстро и в виде таблицы для удобной дальнейшей работы с дублями.

Итак, нам понадобится:
Софт — Netpeak Spider и Netpeak Checker.
Прокси — чем больше, тем лучше.
Таблица Google Sheets.

Для каких сайтов подходит данный метод поиска дублей?

Данный метод поиска дублей подходит для небольших (до 3 000 страниц) интернет-магазинов, блогов, сайтов компаний.
Процедура поиска дублей следующая:
1. Чтобы начать искать дубли страниц, нам нужен список самих страниц. Запускаем Netpeak Spider.
2. Переходим во вкладку «Список URL» → «Загрузить из Sitemap» вставляем Sitemap сайта, который будем проверять, и вытягиваем все URL.
Netpeak Spider - sitemap

3. Вы, как владелец сайта, или человек, который взялся за данную процедуру, должны знать, сколько примерно у вас URL на сайте должно индексироваться. Открываем поиск Google, вбиваем запрос site:domain.com → смотрим, сколько примерно страниц в индексе.

Проверка количества страниц в индексе
4. Считаем количество URL. В нашем примере их 500.
Если страниц менее 500 на порядок → значит не все URL проиндексированы.
Если страниц +- 500 → отлично.
Если страниц больше 500 → значит есть URL, которых не должно быть в индексе.
5. Открываем таблицу Google Sheets, в первой ячейке первого столбца прописываем site:, во второй столбец вставляем URL  сайта, которые мы вытянули с помощью Netpeak Spider, в третьем столбце пишем формулу “=сцепить($A$1;B1)”. Формулу растягиваем по всем 500 ячейкам, согласно URL сайта.
Удаляем протокол https:// через замену (сочетание клавиш Ctrl+H).
Шаблон таблицы Google находится по ссылке, можете скопировать себе документ и использовать.
6. Копируем данные третьего столбца.
Формула сцепить
7. Запускаем Netpeak Checker и в нём открываем инструмент «Парсер ПС». Переходим к настройкам, добавляем прокси. Затем вставляем скопированные запросы, запускаем парсер — ждём, когда парсер соберёт нужные данные.
Netpeak Checker - как найти дубли страниц
Примечание
Если у вас древовидная структура сайта (всё по папкам), то при запросах категорий вы будете получать и URL, вложенные в эту категорию, и эти же URL при запросе главной и самих URL непосредственно — это побочный эффект, просто подчистите данные.
Иногда CMS строит страницы сайтов и из блоков, и блокам дает URL (сайты на Drupal). В результате URL этих блоков попадают в индекс. Этих URL в Sitemap не будет. Вы о них не будете знать, но именно данный метод покажет, что есть и то, чего не должно быть в индексе.
Плюс метода → из Netpeak Checker вы можете выгрузить результаты в MS Excel, что очень удобно для дальней обработки и анализа данных.
Для удаления дублей можно использовать инструмент удаление URL, а именно скрываем на 90 дней. Нужно отметить, что сотрудники Google в отношении наличия дублей страниц в индексе считают, что с этим особо не стоит заморачиваться.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *