Вопросы, связанные с индексацией сайтов, — «Как проверить индексацию сайта? Почему не все страницы сайта в индексе? Почему мой сайт так долго индексируется?» Их наиболее часто задают на Справочном форуме для веб-мастеров.
Индексирование — это сложный процесс занесения информации о URL и их содержимом в индексные таблицы поисковой системы. На него влияют различные факторы. Поэтому точно спрогнозировать дату (время) и количество проиндексированных страниц невозможно. Обычно если в Search Sonsole добавляется информация о новом сайте данные могут обновляться на протяжении десяти — двадцати дней. Раньше этого срока предполагать, что с сайтом что-то не так, не стоит.
Технические ресурсы Google значительные, но распределении их для индексирования все же имеет свои квоты. Полная индексация страниц сайта не гарантируется. Не стоит ожидать индексации всех страниц сайта ещё и по такой причине.
Мы уже, кажется, имеем контент, проиндексированный по другим URL. Почему мы также должны индексировать ещё эту страницу?
— John Mueller,Google
Обязательно проверьте все ли важные и нужные страницы сайта разрешены к индексированию и поисковый бот имеет к ним нормальный доступ. Используйте инструмент Google Search Console под названием «Посмотреть как Googlebot». Также проверьте, добавили ли вы в Google Search Console правильную версию сайта.
Возможно вы в Search Sonsole подтвердили «неправильную» версию вашего сайта. Вам нужно добавить сайт в Search Sonsole с правильным «http» или «https» протоколом & возможно с «www». Если вы добавляете альтернативную версию (например, добавив «http://example.com» когда ваш сайт индексируется как «http://www.example.com»), то мы не сможем показать все ваши данные.
— John Mueller,Google
От чего зависит скорость индексирования?
Скорость индексирования сайта зависит от многих факторов, точные сроки не определены. Но для значительного ускорения добавления страниц в индекс можно использовать тот же инструмент «Посмотреть как Googlebot». В большинстве случаев после этого страница добавляется в индекс если не мгновенно, то очень быстро.
Помните для каждого сайта всё очень индивидуально. Частота заходов робота и количество запросов на один заход определяется автоматически.
Индексирование может сильно замедлиться, если:
— найдены ссылки на несуществующие страницы (идут повторные запросы этих страниц вместо сканирования других);
— найдены ссылки на страницы без содержания;
— слишком долгий отклик сервера (увеличивается пауза между запросами и уменьшается их количество, чтобы не создавать излишнюю нагрузку на сервер);
— CMS сайта генерирует в большом количестве разные ссылки на одно и то же содержание или на пустые страницы.
Почему страницы (сайт) исключены из индекса?
Первое, что нужно проверить, нет ли ошибки в настройке CMS или в заполнении файла robots.txt.
Иногда по невнимательности или по другим причинам веб-мастера в настройках CMS сайта забывают открыть доступ поисковым роботам. В результате в коде страниц сайта появляется мета-тег:<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
Это означает — не индексировать текст, но переходить по ссылкам. Подобный случай относительно недавно комментировал Джон Мюллер (John Mueller).
Ваш сайт отдаёт (исполняет) x-robots-tag HTTP заголовок со значением none — это значит что этот URL не должен индексироваться. Вы можете это перепроверить, используя «Посмотреть как Googlebot» в Search Console или использовать следующую командную строку(команду):
$ curl --silent -I http://toddnetworks.ie/ | grep -iE "oboy?"
X-Robots-Tag: none
Удалив (убрав) это (возможно это просто опция в Вашей CMS) и ещё раз добавив url через «Посмотреть как Googlebot» / «отправить в индекс«, всё должно заработать как нужно.
— John Mueller,Google
Вторая причина — нарушение авторских прав. Проверьте ваш сайт в lumendatabase.org.
Третья причина — как не банально, ссылочный спам.
Обязательно прочитайте:
Ссылочный спам – точка зрения Google
Как проверить качество ссылок
Как бесплатно проверить посещаемость сайта онлайн
Как проверить индексацию сайта
Проверить индексацию сайта можно разными способами и каждый из них дают разные результаты. В связи с этим возникает вопрос о точности оценки и на что ориентироваться.
Для этих целей многие веб-мастера используют оператор «site:». Но можно ли на него ориентироваться?
Но когда страниц на сайте не очень много, то можно просто домотать до последней страницы и уж все эти [страницы — прим.авт.] точно в индексе есть, раз выдаются.
Ринат Сафин, Google
В большинстве случаев количество результатов при использовании оператора «site:» почти соответствует значению проиндексированных страниц файла sitemap в Google Search Console.
Если вам нужны более надёжные результаты, прислушайтесь к мнению Андрея Липатцева в отношении использования оператора «site:».
Ориентируйтесь на количество проиндексированных страниц, указанное в разделе Статус Индексирования [Google Search Console — прим.авт.]. Те цифры, которые Вы приводите, свидетельствуют только о количестве проиндексированных страниц, из числа помещённых в sitemap. Это не обязательно одно и то же.
Андрей Липатцев,Google
Смотрите специальный доклад Андрея Липатцева на эту тему.
Раздел «Статус индексирования» Google Search Console показывает количество проиндексированных страниц, но не показывает какие именно из них находятся в индексе.
Как удалить страницу из индекса
Многие веб-мастера считают что для этого достаточно закрыть страницу в robots.txt.
Это не выход. Такая страница будет и дальше индексироваться только в сниппете появится информация, что страница закрыта в robots.txt.
На самом деле в код такой страницы без блокировки её в robots.txt нужно добавить мета-тег:<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
В этой статье я хотел максимально подробно рассказать о том как ускорить и проверить индексацию сайта, как удалить страницу из индекса. Если есть вопросы, задавайте в комментариях.
Спасибо за статью! Меня как начинающего блоггера очень интересуют нюансы индексирования будущих страниц бблога. Теперь буду знать, чему уделить больше внимания….
У меня последнюю неделю не заходят в индекс, проекты совершенно разные. Аккаунты пробовал менять, не помогает.
Я один такой?)
Хорошее и развернутое описание процесса проверки индексации. А вот яндекс поломался что-то, два дня не работает через site-auditor