Сколько существуют поисковики, столько же существуют спам страницы. Google стремится сделать поиск как можно более качественным. Главная задача поискового алгоритма — удовлетворить мотивы и потребности пользователя путём предоставления в первых результатах поисковой выдачи максимально релевантной запросу информации.

Довольно большая часть веб-мастеров пытается манипулировать результатами поисковой выдачи Google используя разного рода обманные техники, в том числе спам страницы.

Отношение поисковой системы Google к спаму .

Как определить спам страницы

Предлагаю вам, друзья мои, ознакомиться с извлечениями из двух патентов Google в которых описаны методы идентификации спама.

Давайте посмотрим, что написано в этом патенте.

Как определить спам страницы

Methods and systems for identifying manipulated articles.
Patent No: US 7,302,645 B1
Date of Patent: Nov. 27, 2007

В случае определения страницы такой, которой пытаются манипулировать в результатах поиска, она может быть классифицирована как спам.

Во время реализации метода используются внешние сигналы, связанные с документом, и сигналы документа.

Внешние сигналы – например, дорвеи, внешние ссылки с гостевых и т. п.

Сигналы документа:
—    Текст нормальный или автоматически сгенерированный.
—    Содержит ли документ в метатегах избыточное число ключевых слов.
—    Замаскированные редиректы (ссылки) на другие документы.
—    Документ содержит большое количество не связанных (случайных) ссылок.
—    История документа – что за текст в документе, структура ссылок, последние изменения, в том числе ссылочной структуры.
—    Анкорный текст – если на странице много ссылок и мало текста или текст не соотносится с анкором.
—    Большое количество ключевых слов непропорционально количеству предложений.

Перейдём к следующему патенту.

Ссылочный и анкорный спам страницы

Ranking based on reference contexts
United States Patent 8,577,893
November 5, 2013

Один из методов относится к ссылочному спаму. Ссылочный спам включает получение большого количества ссылок на конкретную страницу, чтобы увеличить ранг страницы.

Другой метод относится к спаму в анкорах.  Он предполагает получение большого количества ссылок с одинаковым анкором, с которым документ должен быть связан.

Система анализирует примерно пять слов слева от анкора и столько же слов справа, выявляет самые редко упоминающиеся слова слева и справа. Затем пытается установить релевантность околоссылочного текста анкору ссылки.

Ссылочный и анкорный спам страницы

Алгоритм сопоставляет слова в околоссылочном тексте с  такими же словами на других вебсайтах (веб-страницах) и анализирует употребляются ли они вместе с  таким анкором. Создаются идентификаторы контекста. Определяют количество вхождений идентификаторов контекста в ассоциации со ссылкой в качестве контекста.

На основе этой информации составляется список контекста. Этот список, как один из многих факторов, является основой расчёта бала ранжирования страницы-акцептора.

Также учитываются другие идентификаторы контекста:
—    Количество ссылок на документ.
—    Важность веб-страниц, ссылающихся на документ.
—    Свежесть веб-страниц, ссылающихся на документ.
—    Другие известные факторы ранжирования.

Я надеюсь эта информация будет вам хорошим дополнением к пониманию справочных материалов Google, полезна при анализе профиля и позволит точно определять спам страницы.

Один комментарий к “Как Google определяет спам страницы?”

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *