Интернет содержит огромное количество информации, которая постоянно меняется. Поисковые системы оценивают эту информацию так, чтобы обеспечить высокое качество результатов поиска.

Искусственное изменение ранга (оценки) веб-страницы спамерами включает в себя набор методов, посредством которых они пытаются обмануть поисковую систему для того, чтобы их информация ранжировалась на или вблизи верхней части списка результатов поиска (позиции сайта).

Суть алгоритма Google Penguin - позиции сайта

Существуют различные методы спама, такие как переспам ключевыми словами, невидимый текст, крошечный текст, редиректы, спам в мета-тегах, спам в анкорах, ссылочный спам. Искусственное увеличение спаммерами рейтинга некоторых документов (низкого качества или нерелевантных) ухудшает качество результатов поиска.

Суть алгоритма Google Penguin 4.0

Суть алгоритма Пингвин – борьба со спамом во всех его проявлениях.

Прочтите

Поисковый алгоритм Penguin — основная информация

Было бы интересно понять как всё-таки работает этот алгоритм. Принципы его работы держатся в строгом секрете. На основе заявлений официальных представителей Google и опубликованных патентов попробуем предположить как он работает. Возможно, вы узнаете что-то новое.

Алгоритм Google Пингвин обновлялся чаще, чем вы думаете. Просто не все обновления афишировались.

Цель состоит в том , чтобы создать постоянно обновляющийся алгоритм Пингвин.
Gary Illyes, Google Webmaster Trends Analysts. SMX Advanced 2015.

Вот часть интервью Gary Illyes на конференции SMX Advanced 2016.

Дэнни Саллливан: Последнее обновление Пингвин было в декабре 2014 г. Когда будет следующее обновление?
Гэри: Я не буду говорить дату , потому что я был неправ слишком много раз . Мне сказали , что это плохо для бизнеса.
Дэнни Саллливан: В этом году?
Гэри: Я не буду больше называть какие-либо сроки.

Похоже, что Гэри запретили называть какие-либо даты обновления алгоритма Пингвин.

Алгоритм обновлялся чаще, чем один раз в месяц (быстрее, чем «Панда») и, вероятно, будет обновляться ежедневно.

Признаки обновления алгоритма Google Penguin 4
Добавьте подпись
Признаки обновления алгоритма Google Penguin 4 появились 2 сентября 2016 года (пиковые скачки на ‘Google Grump’ Rating и на Algoroo). Официально факт обновления алгоритма до четвертой версии был подтвержден 23 сентября 2016 года. Google сообщил, что теперь алгоритм  действует в режиме реального времени. Мои прогнозы оправдались.

Алгоритм самостоятельно отключает спамные ссылки, дизавуирует влияние на рейтинг спама ключевыми словами, спама в мета-тегах и анкорах.

Прочтите

Ссылочный спам – точка зрения Google

Google считает одним из приоритетов машинное обучение. Весьма вероятно, что алгоритм Google Penguin 4.0 – это самообучающаяся система, которая анализирует изменения в пороге и структуре спама. Новые данные о спаме сравниваются со старыми и формулируется ответ поискового алгоритма – замедление положительного эффекта, отрицательный (понижение позиций и/или трафика), положительный (присвоение более высокого рейтинга).

Вам не кажется, что алгоритм Пингвин более коварен, чем вы думаете?

Представьте себе, что Google Penguin 4.0 специально провоцирует веб-мастера на определённые действия с целью получить дополнительные подтверждения наличия попытки манипулирования результатами поисковой выдачи.

Ross Koningstein предложил способ определения влияния спаммеров на оценку рейтинга веб-страницы и идентификации попыток спама, в том числе расчёта рейтинга смаммера. Патент US8244722 B1 «Ranking documents» на это изобретение принадлежит Google Inc.

Запуск первой версии алгоритма Пингвин датирован 24 апреля 2012 года. Патент US8244722 B1 «Ranking documents» опубликован 14 августа 2012 года.

Очень вероятно, что именно патент US8244722 B1 «Ranking documents»  в месте с другими изобретениями лёг в основу алгоритма Пингвин.

Системы и методы, в соответствии с принципами изобретения может предоставить функцию изменения рейтинга (например, на основе времени) для определения изменения рейтинга спамеров.

Функция создаёт вводящие в заблуждение признаки воздействия на ранг в ответ на попытки спама.

Предложенные в патенте системы и методы также помогают наблюдать за реакциями (действиями) спамеров, вызванными функцией изменения рейтинга для определения документов, которыми активно манипулируют. Это помогает в идентификации изменения ранга спамеров.

Ранг документа может измениться с течением времени под влиянием изменений в содержании страницы, количестве и качесте входящих и исходящих ссылок. Эти изменения могут быть результатом легитимных модификаций или изменения ранга спамерами.

Оценка  документа до изменений называется «Старый Ранг», а после изменений – «Целевой Ранг». Описанная функция может генерировать «Ранг перехода», который представляет собой разницу между старой и новой оценкой.  Ранг перехода может вызвать в течении времени задержки ответа (специальное замедление положительного изменения позиций сайта), отрицательный ответ (специально сниженные позиции сайта), случайный ответ и/или неожиданный ответ во время перехода от старого ранга в целевой ранг.

Поисковая система также может соотнести динамику ранга веб-страницы с ответом функции ранжирования перехода для определения попыток манипулирования спаммерами рейтингом документа (web-страницы). Например, сильная корреляция между рангом документа и рангом, связанным с ответом функции изменения рейтинга, с течением времени может свидетельствовать о преднамеренной манипуляции результатами поиска.

Ранг R не изменится, если входные параметры не изменяются. Если входные параметры изменяются, например, изменение количества ссылок, то ранг R будет меняться в дискретном шаге во время вычисления нового ранга R.

Результаты изменения входных параметров не приводят к немедленному изменению рейтинга. Вместо этого, ранг, связанный с документом, может меняться с течением времени в результате изменения во входных параметрах.

Важно

После определённого периода времени ранг документа может перейти новое значение устойчивого состояния (target). Другими словами, это может занять примерно 70 дней чтобы изменить ранг документа на основе информации о его ссылках до стабильного состояния (target).

Первоначальной реакцией на спам может быть снижение рейтинга
Рис.1

На Рис.1  показан пример влияния в течение времени информации о ссылках на ранг.

Ранг документа первоначально может уменьшаться в ответ на позитивные изменения в своей информации, основанной на ссылках. После определённого периода времени ранг документа может подняться до его нового значения – устойчивого состояния (target).

Другими словами, ранг документа может уменьшаться в течение приблизительно 20 дней в указанном  70-дневном периоде, прежде чем достигнет нового стабильного состояния. Также в этот период возможны специальные временные задержки демонстрации положительного эффекта.

Google Penguin 4.0 – возможные примеры обработки данных

Когда спамер пытается положительно влиять на ранг документа, он может быть озадачен значением позиции, определённого функцией изменения рейтинга. Например, первоначальной реакцией на попытки спама может быть снижение рейтинга вместо ожидаемого его повышения (позиции сайта и трафик падают).

Неожиданные результаты обязательно получат ответ от спамера, особенно если его клиент расстроен результатами. Как видим патент во многом рассчитан на паническое поведение спамера.

В ответ на негативные результаты своих попыток спамер может удалить изменения и тем самым способствует долгосрочному воздействию на ранг документа (присвоение значения – ноль).

Спрогнозировать количество времени, чтобы увидеть положительные (или ожидаемые) результаты в ответ на изменения спамера, невозможно.

В ответ на задержки результата спамер может выполнить дополнительные изменения в попытке положительно (или более позитивно) повлиять на ранг документа. Например, при задержке ответа (неполучения нужного рейтинга в ожидаемые сроки), спамер может добавить другие способы спама (например, добавление дополнительных ключевых слов, крошечный текст, невидимый текст, ссылки, и др.). В случае отрицательного ответа спамер может  удалить ссылки на этот документ (или провести другие изменения) в попытке отменить понижение рейтинга.

Для выявления признаков того, что ранг документа подвергается манипуляции, Google Penguin может в режиме реального времени наблюдать (анализировать) поведение спамера.

Данные Penguin обновляются в режиме реального времени, поэтому изменения будут учитываться гораздо быстрее (чаще всего сразу после завершения сканирования и индексирования страницы).

В любом случае эти дальнейшие действия  спаммера могут помочь в выявлении признаков искусственного изменения ранга документа. Например, если ранжирование изменилось в противоположную сторону от изначальных 10% изменений, то это может соответствовать реакции  на первично-инверсионную функцию расчёта рейтинга.

Кроме того, если ранг по-прежнему изменять неожиданно (помимо изменения во время переходного периода), алгоритм может установить дополнительные попытки спаммера каким-то образом компенсировать нежелательные изменения в ранге документа и это будет признаком того, что оценка документа подвергается модификации спаммером.

Корреляция может использоваться в качестве мощного статистического инструмента прогнозирования. В случае задержки ответа (положительный ранг) можно определить изменения, внесённые во время периода задержки, которые влияют на конкретные веб-страницы. В случае отрицательного ответа первоначального ранга корреляция может использоваться для идентификации возврата изменений.

В любом случае последующие попытки манипулировать рангом документа будут выделены в корреляции с течением времени. Таким образом, корреляция с течением времени может использоваться как автоматизированный индикатор изменения оценки (ранга, порога) спама.

Обратите внимание на то, что веб-страницы автор изобретения предлагает квалифицировать как спам-страницы и подозрительные документы.

Когда признаки изменения ранга спама существуют, но их, возможно, недостаточно для позитивного определения изменения ранга спама, то «подозрительный» документ может быть подвергнут более экстремальным вариациям изменения ранга в ответ на изменения в ссылочной массе.

В качестве альтернативы, или дополнительно, в определение ранга документа может быть введён шум. Этот шум может вызвать случайные, переменные и/или нежелательные изменения в ранге документа в попытке заставить спамера принять меры по исправлению положения. Это корректирующее действие может помочь установить подвергался ли рейтинг документа нежелательному воздействию со стороны спамера.
Если установлено, что документ (расчёт его рейтинга) подвергся попыткам манипулирования, то такая веб-страница, сайт, домен, и/или ссылки могут быть определены как спам.

Я думаю, что в описанных в патенте действиях спаммера многие веб-мастера узнали себя. Если позиции сайта меняются необъяснимо и не прогнозируемо – не следует сразу паниковать. Именно такой реакции от вас ждут. Суть алгоритма Google Penguin в том, что борясь с веб-спамом он, вероятно, может провоцировать веб-мастера на дополнительные попытки спама.

Выводы делайте сами, но учитывайте также то, что нет официального подтверждения тому, что этот патент применяется.

5 комментариев для “Суть алгоритма Google Penguin 4 — позиции сайта не прогнозируемы?”
  1. Да, действительно логичные рассуждения. Как говорится, нужно уметь сохранять разумный баланс между seo и качественной подачей материала (перебор в первом опасен санкциями, второй мтериально более затратен)

  2. Я похоже, как раз тот спамер, про которого написано. Интересная статья, спасибо, впредь буду осторожнее работать со ссылками.

  3. Я как, понимаю — Спам — это и ссылки, и часто повторяющиеся слова на странице.
    У меня учебное заведение и на страницах слово "Курсы" повторяются до 7%. Заменять на "уроки", "обучение" как по мне не выход — теряется смысл.
    А за статью Спасибо, многое узнал для себя нового!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *