388x60 Ads

Машинное обучение и анализ данных о позициях сайта

Машинное обучение или Machine Learning — разновидность искусственного интеллекта в основанного на изучении компьютерных алгоритмов, которые автоматически улучшаются по мере накопления опыта.

В этой статье вы узнаете, как можно использовать машинное обучение и анализ данных для прогнозирования позиции сайта в результатах поисковой выдачи.

Прежде я хотел бы объяснить для чего это может понадобиться вебмастеру или интернет-маркетологу.

Многие из вебмастеров просто мониторят позиции сайта в поисковой выдачи и если эти позиции их не устраивают, начинается поиск причин. Я же вам предлагаю при помощи машинного обучения прогнозировать позиции сайта и оптимизировать страницы так, чтобы в итоге они достигли прогнозных значений.

Машинное обучение и анализ данных для SEO

Всё знают, что поисковики активно используют машинное обучение, но почему-то вебмастера, на мой взгляд, не спешат использовать Machine Learning для целей поисковой оптимизации сайтов. По крайней мере, в сети очень мало достойных внимания статей о машинном обучении, которые сфокусированы именно на SEO.

Я написал несколько статей о машинном обучении для SEO:
Машинное обучение и анализ данных для чайников
Как использовать машинное обучение для анализа тем YMYL страниц
Как Google классифицирует YMYL сайты

Итак, давайте рассмотрим пример, как спрогнозировать позицию страницы своего сайта или сайта конкурента.

Сбор и анализ данных для прогнозирования

Если вы вводите в окно поиска поисковый запрос, поисковик подсвечивает слова из запроса жирным шрифтом, если такие слова упоминаются в Title и Description. То, что использование слов из поискового запроса в Title, Description и Н1 влияют на релевантность страницы известно давно.

Мне было интересно, можно ли при помощи машинного обучения и анализа данных понять как именно "вхождения" ключевых слов влияют на релевантность и влияют ли они на прогноз позиций сайта.

Для анализа данных нужно их для начала собрать. Были собраны данные информационных сайтов. Для сбора данных я использовал SEMrush и Netpeak Spider. 

Откройте SEMrush, введите интересующие вас домен и базу поиска, например RU. Перейдите в раздел "Анализ поисковой выдачи". Если это необходимо, можете настроить необходимые фильтры по позициям, Search Volume и другим показателям. Затем экспортируйте данные.

Из SEMrush в своем наборе данных я использовал такие показатели: Keyword, Position, Previous position, Search Volume, Keyword Difficulty, CPC, URL, Competition.

Далее, я взял из отчёта SEMrush список URL и добавил их в Netpeak Spider. Тут остановлюсь чуть подробнее. Откройте Netpeak Spider. Создайте новый проект.

Netpeak Spider и анализ данных

В меню "Список URL" можно выбрать "Внести вручную" и вставить список URL. Именно так я и сделал.

В параметрах я выбрал: Время ответа сервера, Title, Длина title, Description, Длина description, Содержимое H1, Длина H1,Размер контента, Соотношение Text/HTML, Количество слов, Content-Length.


Я объединил данные из SEMrush и Netpeak Spider в один набор данных, который содержал информацию о 9751 URL.

При помощи самописной программы я получил коэффициент релевантности. Ну, это я для себя так назвал этот показатель, вы можете назвать по другому. Суть его в том, что скрипт по каждому запросу брал каждое слово из него и проверял, упоминается оно в Title, Description и Н1 или нет. Например, если запрос состоит из трех слов, а в Title упоминается только два из них, тогда коэффициент для Title составляет 0,66.

Машинное обучение и анализ данных

Набор данных, дополненный рассчитанными коэффициентами, я загрузил в бесплатный онлайн-инструмент для Machine Learning, который называется BigML. Об этом инструменте я подробно писал в указных выше публикациях.

Я построил модель в виде дерева решений точность которой составляет 77,9 процентов (довольно точная модель).

Машинное обучение и анализ данных

Как видно на этом изображении, предиктором является "Объем поиска". Другими словами, многое зависит от того, это низкочастотный поисковый запрос или нет.

Построенная мной модель с точностью почти 85% показывает, что коэффициенты вхождения ключевого слова из запроса важны, только в случае, если это средне частотный или высокочастотный запрос, а сама страница имеет высокий показатель ответа сервера. Если, при этом, коэффициенты вхождения в Description и Н1 меньше 0,92 (не все слова из запроса упоминаются в Description и Н1), тогда страница не попадёт в ТОП 20 Google.

Прогнозирование и анализ данных о позициях сайта

Используя машинное обучение я решил спрогнозировать вероятность позиции в выдаче Google и как на этот прогноз повлияет изменения коэффициента вхождения ключевого слова в Title, Description и Н1.

Я собрал из SEMrush и Netpeak Spider данные выбранного наугад информационного сайта по указанному выше принципу и шаблону.

Затем, используя машинное обучение я получил прогнозные данные о вероятной позиции в выдаче Google. Сразу скажу, что при достаточно низкой ошибке модели, прогнозные позиции были как в лучшую, так и в худшую сторону, по сравнению с фактической.

Вот расширение для Google таблиц, которое вы можете использовать для повторения моего эксперимента.

Ухудшенная оценка может указывать на то, что страница держится в ТОПе за счет других более важных факторов.

Улучшенная оценка может указывать на то, что при оптимизации используемых в модели параметров можно достичь более высоких результатов.


Предсказание позиций сайта

Для эксперимента я в некоторых строках обнулил значения коэффициентов вхождения ключевых слов в Title, Description и Н1.

В результате в этой выборке у 22% URL ухудшился прогноз возможной позиции в Google.


Предварительные выводы

Этот эксперимент показал следующее:

a) Время ответа сервера более критически важный показатель для страниц, релевантных средне частотным и высокочастотным запросам, чем для страниц, релевантных низкочастотным запросам. В этом есть своя логика. Если много людей что-то ищут, поисковик хочет максимально быстро им предоставить нужную информацию.

b) Упоминание слов из запроса в Title, Description и Н1 является важным для медленных страниц, релевантных средне частотным и высокочастотным запросам.

c) Упоминание слов из запроса в Title, Description и Н1 влияет на уровень релевантности страницы. Поэтому желательно заполнять Description, не надеясь на волю Господа, и/или  упоминать слова из запроса (их синонимы или семантические аналоги) в Title, Description и Н1.

d) Машинное обучение можно применять для различных SEO-задач. Я планирую и дальше писать статьи на эту тему, так что следите за моими публикациями.

Все выводы основанны исключительно на моем наборе данных для проверки информационных сайтов и ваши результаты могут не совпадать с моими.

Кому интересна эта статья, делитесь ею и подписывайтесь на мой Телеграм канал https://t.me/seo_inside


Вячеслав Вареня
Вячеслав Вареня
Статус: seo-специалист | Контакты |


2 коммент.:

Kirill комментирует... [Ответить]

☝😎👍 Какбы внедрить эото дело теперь)

Оптимист комментирует... [Ответить]

Очень интересная тема!

Я так понимаю, список анализируемых параметров надо делать сильно шире, а тогда и результаты будут достоверными только при значительно большем количестве URL. И еще, при строго тематической выборке сайтов, скорее всего, будет очень интересный в практическом плане результат.

Похоже, SEO уже вовсю движется в сторону искусственного интеллекта. Так скоро и тексты придется писать роботу на основе усредненных показателей топа выдачи. Как тогда совместить наличие в тексте смысла и идеальные показатели? :)

Отправка комментария