Довольно большая часть веб-мастеров пытается манипулировать результатами поисковой выдачи Google используя разного рода обманные техники, в том числе спам страницы.
Отношение поисковой системы Google к спаму описано тут.
На эту же тему читайте:
Как убрать меры за неинформативное бесполезное содержание
Как отклонить внешние ссылки, ведущие на сайт
Поисковый алгоритм Penguin - основная информация
Как определить спам страницы
Предлагаю вам, друзья мои, ознакомиться с извлечениями из двух патентов Google в которых описаны методы идентификации спама.Давайте посмотрим, что написано в этом патенте.
Methods and systems for identifying manipulated articles.
Patent No: US 7,302,645 B1
Date of Patent: Nov. 27, 2007
В случае определения страницы такой, которой пытаются манипулировать в результатах поиска, она может быть классифицирована как спам.
Во время реализации метода используются внешние сигналы, связанные с документом, и сигналы документа.
Внешние сигналы – например, дорвеи, внешние ссылки с гостевых и т. п.
Сигналы документа:
- Текст нормальный или автоматически сгенерированный.
- Содержит ли документ в метатегах избыточное число ключевых слов.
- Замаскированные редиректы (ссылки) на другие документы.
- Документ содержит большое количество не связанных (случайных) ссылок.
- История документа – что за текст в документе, структура ссылок, последние изменения, в том числе ссылочной структуры.
- Анкорный текст – если на странице много ссылок и мало текста или текст не соотносится с анкором.
- Большое количество ключевых слов непропорционально количеству предложений.
Перейдём к следующему патенту.
Ссылочный и анкорный спам страницы
Ranking based on reference contextsUnited States Patent 8,577,893
November 5, 2013
Один из методов относится к ссылочному спаму. Ссылочный спам включает получение большого количества ссылок на конкретную страницу, чтобы увеличить ранг страницы.
Другой метод относится к спаму в анкорах. Он предполагает получение большого количества ссылок с одинаковым анкором, с которым документ должен быть связан.
Система анализирует примерно пять слов слева от анкора и столько же слов справа, выявляет самые редко упоминающиеся слова слева и справа. Затем пытается установить релевантность околоссылочного текста анкору ссылки.
Алгоритм сопоставляет слова в околоссылочном тексте с такими же словами на других вебсайтах (веб-страницах) и анализирует употребляются ли они вместе с таким анкором. Создаются идентификаторы контекста. Определяют количество вхождений идентификаторов контекста в ассоциации со ссылкой в качестве контекста.
На основе этой информации составляется список контекста. Этот список, как один из многих факторов, является основой расчёта бала ранжирования страницы-акцептора.
Также учитываются другие идентификаторы контекста:
- Количество ссылок на документ.
- Важность веб-страниц, ссылающихся на документ.
- Свежесть веб-страниц, ссылающихся на документ.
- Другие известные факторы ранжирования.
Я надеюсь эта информация будет вам хорошим дополнением к пониманию справочных материалов Google, полезна при анализе качества ссылочного профиля и позволит точно определять спам страницы.
1 коммент.:
Спасибо!
Отправка комментария