Как влияет количество информации и энтропия на результаты поиска (SERP)? Меня заинтересовал этот вопрос.
Я провёл определённое исследование и делюсь с вами результатами.
Влияют ли информация и энтропия на SERP?
Цель исследования — определить существование взаимосвязи между количеством информации, энтропией и результатами поисковой выдачи Google.
Информация — это алгоритм построения системы, обеспечивающей воспроизведение этой информации, функционально связанной со средой своего местоположения.
Информацио́нная энтропи́я — это мера неопределённости или непредсказуемости информации.[1] Чем больше известно о системе, тем меньше её энтропия. Важно ещё одно обстоятельство. Утрачивая информацию, мы увеличиваем энтропию системы.[2]
В патенте Google я прочитал такую фразу:
Энтропия запросов для одного или более документов может быть проверена и использована в качестве основы для подсчёта очков [в результатах поисковой выдачи (SERP) — авт.]. Например, если конкретный документ появляется как хит для несходных наборов запросов, это может (хотя и не обязательно ) рассматриваться как спам. В этом случае поисковая машина оценивает документ относительно ниже[3].
Есть соответствующие формулы расчёта энтропии и количества информации. Я не стану вас утомлять пояснениями этих формул, кому интересно, почитает тут.
Информация и энтропия в ТОП30
По результатам исследований, до третей страницы результатов поисковой выдачи добираются пять процентов пользователей. В подтверждение этого тезиса я получил ответ от SEMrush:
Mariam Sargsyan, SEMrush Support Specialist
Основываясь на этом я спарсил информацию из ТОП тридцать по десяти произвольно отобранным запросам с целью определить количество информации по каждому из них. Полученный список страниц я разделил на три группы ТОП10, ТОП20 (с одинадцатой по двадцатую позицию SERP) и ТОП30 (с двадцать первой по тридцатую позицию SERP).
Спарсенная информация по каждому запросу проанализирована в сервисе Ahrefs. Для получения показателя «количество информации» использовались данные Ahrefs URL Rating.
Таблица 1. Количество информации в ТОП десять — ТОП тридцать SERP по отобранным запросам.
Запрос | ТОП10 | ТОП20 | ТОП30 |
---|---|---|---|
Пластиковые окна | 1,63726 | 1,27698 | 1,30682 |
Создание сайтов | 1,71728 | 1,71899 | 1,65562 |
Игры для девочек | 1,70128 | 1,37231 | 1,55045 |
Фотострана | 1,69851 | 1,38742 | 1,29286 |
winrar | 1,29286 | 1,02574 | 0,88322 |
Opera скачать | 1,67007 | 1,77992 | 1,44065 |
вконтакте | 1,50547 | 1,26409 | 1,43293 |
порно бесплатно | 1,69693 | 1,82498 | 1,73570 |
фильмы 2015 | 1,70166 | 1,65787 | 1,77839 |
сводки ополчения | 1,58375 | 1,11856 | 1,16433 |
Как видим, количество информации в ТОП десять составляет 60 процентов, в группе результатов с одинадцатой по двадцатую позицию SERP (ТОП двадцать) — 30 процентов и с двадцать первой по тридцатую позицию SERP (ТОП тридцать) — соответственно 10 процентов. Энтропия меньше всего в ТОП десять. В ТОП двадцать поисковой выдачи энтропия выше, чем в ТОП десять. Самая высокая энтропия в третьей анализируемой группе запросов — в ТОП тридцать.
1. Информационная энтропия — Википедия. https://ru.wikipedia.org/wiki/Информационная_энтропия
2. Корогодин В. И., Корогодина В. Л. Информация как основа жизни. – Дубна: Издательский центр «Феникс», 2000. – 208 с.
3. Link-based spam detection. US 7533092 B2. United States Patent 7,533,092. Berkhin , et al. May 12, 2009.