Как влияет количество информации и энтропия на результаты поиска (SERP)?  Меня заинтересовал этот вопрос.

Я провёл определённое исследование и делюсь с вами результатами.

Влияют ли информация и энтропия на SERP?

Цель исследования — определить существование взаимосвязи между количеством информации, энтропией и результатами поисковой выдачи Google.

Информация — это алгоритм построения системы, обеспечивающей воспроизведение этой информации, функционально связанной со средой своего местоположения.

Информацио́нная энтропи́я — это мера неопределённости или непредсказуемости информации.[1] Чем больше известно о системе, тем меньше её энтропия. Важно ещё одно обстоятельство. Утрачивая информацию, мы увеличиваем энтропию системы.[2]


В патенте Google я прочитал такую фразу:

Энтропия запросов для одного или более документов может быть проверена и использована в качестве основы для подсчёта очков [в результатах поисковой выдачи (SERP) — авт.]. Например, если конкретный документ появляется как хит для несходных наборов запросов, это может (хотя и не обязательно ) рассматриваться как спам. В этом случае поисковая машина оценивает документ относительно ниже[3].

Есть соответствующие формулы расчёта энтропии и количества информации. Я не стану вас утомлять пояснениями этих формул, кому интересно, .

Информация и энтропия в ТОП30

По результатам исследований, до третей страницы результатов поисковой выдачи добираются пять процентов пользователей. В подтверждение этого тезиса я получил ответ от SEMrush:

Мы собираем данные из Топ 20 результатов, потому что мы считаем, что 99% трафика приходит на сайт с первых 2 страниц выдачи и по-этому мы собираем данные с первых двух страниц.
Mariam Sargsyan, SEMrush Support Specialist

Основываясь на этом я спарсил информацию из ТОП тридцать по десяти произвольно отобранным запросам с целью определить количество информации по каждому из них. Полученный список страниц я разделил на три группы ТОП10, ТОП20 (с одинадцатой по двадцатую позицию SERP) и ТОП30 (с двадцать первой по тридцатую позицию SERP).

Спарсенная информация по каждому запросу проанализирована в сервисе Ahrefs. Для получения показателя «количество информации» использовались данные .

Таблица 1. Количество информации в ТОП десять — ТОП тридцать SERP по отобранным запросам.

ЗапросТОП10ТОП20ТОП30
Пластиковые окна1,637261,276981,30682
Создание сайтов1,717281,718991,65562
Игры для девочек1,701281,372311,55045
Фотострана1,698511,387421,29286
winrar1,292861,025740,88322
Opera скачать1,670071,779921,44065
вконтакте1,505471,264091,43293
порно бесплатно1,696931,824981,73570
фильмы 20151,701661,657871,77839
сводки ополчения1,583751,118561,16433

Рисунок 1. Структура количества информации в ТОП10 — ТОП 30.

Как видим, количество информации в ТОП десять составляет 60 процентов, в группе результатов с одинадцатой по двадцатую позицию SERP (ТОП двадцать) — 30 процентов и с двадцать первой по тридцатую позицию SERP (ТОП тридцать) — соответственно 10 процентов. Энтропия меньше всего в ТОП десять. В ТОП двадцать поисковой выдачи энтропия выше, чем в ТОП десять. Самая высокая энтропия в третьей анализируемой группе запросов — в ТОП тридцать.

Первый вывод — довльно логично, что в ТОП десять отражаются результаты поисковой выдачи, в которых количество информации 60 процентов и выше.

Второй вывод — результаты поисковой выдачи из ТОП десять и результаты отражённые с одинадцатой по двадцатую позицию SERP содержат 90 процентов информации и естественно обеспечивают более 90 процентов трафика.

Третий вывод — не обязательно, что Google использует патент «Link-based spam detection». Вероятно энтропия запросов  используется в поисковом алгоритме Google для идентификации спама и влияет на позиции документа (страницы).

1. Информационная энтропия — Википедия.
2. Корогодин В. И., Корогодина В. Л. Информация как основа жизни. – Дубна: Издательский центр «Феникс», 2000. – 208 с.
3. Link-based spam detection. US 7533092 B2.  United States Patent 7,533,092. Berkhin ,  et al. May 12, 2009.

Добавить комментарий

Ваш адрес email не будет опубликован.