Сколько существуют поисковики, столько же существуют спам страницы. Google стремится сделать поиск как можно более качественным. Главная задача поискового алгоритма — удовлетворить мотивы и потребности пользователя путём предоставления в первых результатах поисковой выдачи максимально релевантной запросу информации.
Довольно большая часть веб-мастеров пытается манипулировать результатами поисковой выдачи Google используя разного рода обманные техники, в том числе спам страницы.
Отношение поисковой системы Google к спаму описано тут.
Как определить спам страницы
Предлагаю вам, друзья мои, ознакомиться с извлечениями из двух патентов Google в которых описаны методы идентификации спама.
Давайте посмотрим, что написано в этом патенте.
Methods and systems for identifying manipulated articles.
Patent No: US 7,302,645 B1
Date of Patent: Nov. 27, 2007
В случае определения страницы такой, которой пытаются манипулировать в результатах поиска, она может быть классифицирована как спам.
Во время реализации метода используются внешние сигналы, связанные с документом, и сигналы документа.
Внешние сигналы – например, дорвеи, внешние ссылки с гостевых и т. п.
Сигналы документа:
— Текст нормальный или автоматически сгенерированный.
— Содержит ли документ в метатегах избыточное число ключевых слов.
— Замаскированные редиректы (ссылки) на другие документы.
— Документ содержит большое количество не связанных (случайных) ссылок.
— История документа – что за текст в документе, структура ссылок, последние изменения, в том числе ссылочной структуры.
— Анкорный текст – если на странице много ссылок и мало текста или текст не соотносится с анкором.
— Большое количество ключевых слов непропорционально количеству предложений.
Перейдём к следующему патенту.
Ссылочный и анкорный спам страницы
Ranking based on reference contexts
United States Patent 8,577,893
November 5, 2013
Один из методов относится к ссылочному спаму. Ссылочный спам включает получение большого количества ссылок на конкретную страницу, чтобы увеличить ранг страницы.
Другой метод относится к спаму в анкорах. Он предполагает получение большого количества ссылок с одинаковым анкором, с которым документ должен быть связан.
Система анализирует примерно пять слов слева от анкора и столько же слов справа, выявляет самые редко упоминающиеся слова слева и справа. Затем пытается установить релевантность околоссылочного текста анкору ссылки.
Алгоритм сопоставляет слова в околоссылочном тексте с такими же словами на других вебсайтах (веб-страницах) и анализирует употребляются ли они вместе с таким анкором. Создаются идентификаторы контекста. Определяют количество вхождений идентификаторов контекста в ассоциации со ссылкой в качестве контекста.
На основе этой информации составляется список контекста. Этот список, как один из многих факторов, является основой расчёта бала ранжирования страницы-акцептора.
Также учитываются другие идентификаторы контекста:
— Количество ссылок на документ.
— Важность веб-страниц, ссылающихся на документ.
— Свежесть веб-страниц, ссылающихся на документ.
— Другие известные факторы ранжирования.
Я надеюсь эта информация будет вам хорошим дополнением к пониманию справочных материалов Google, полезна при анализе качества ссылочного профиля и позволит точно определять спам страницы.
Спасибо!