Машинное обучение для анализа тем YMYL страниц

Кто следит за моими статьями, знают, что я недавно опубликовал исследование «Как Google классифицирует YMYL сайты«.

Исследование было основано на результатах поисковой выдачи Google по ста запросам медицинской тематики. Набор данных состоял из 2914 YMYL страниц.

Используя интеллектуальный анализ данных были выявлены основные кластеры YMYL страниц, которые соответствуют подходу, описанному в  патенте Google WO/2020/033805, для классификации сайтов по уровню качества.

Результаты исследования близки к реалиям в нише «Медицина» и, вероятно, на них можно ориентироваться при принятии определённых решений.

По уровню качества большинство YMYL страниц медицинских сайтов попали в кластер страниц (С2), оценка которых ниже первого порога качества. Страницы сайтов новостей, социальных сетей, ресурсы Яндекса, видео YouTube и страницы Википедии оцениваются лучше, чем медицинские сайты.

Собственно, именно такое положение дел вебмастера наблюдают на практике. По многим медицинским запросам «Комсомольская правда», «АиФ», «Вести» и тому подобное занимают весь ТОП.

При помощи машинного обучения на основе сформированного набора данных была построена модель, которая позволила выявить интересные результаты.

Одним из таких результатов было то, что в моем наборе данных заголовок Н1 YMYL страниц кластера «Новостников» (С3) не содержит слово «отзывы», а у «Медиков» (кластер С2), наоборот, во многих случаях содержит.

Это исследование получило широкий отклик, но некоторые вебмастера в своих комментариях написали, что наличие или отсутствие слова «отзывы» в заголовке Н1 не является однозначным критерием для классификации YMYL страниц.

Учитывая это, я при помощи машинного обучения провел дополнительный анализ текстовых полей моего набора данных.

Что такое анализ тем YMYL страниц?

В ваших текстовых данных скрыто множество ценных идей. Данные в виде простого текста могут быть очень полезны для рекомендаций по содержанию, задач поиска информации, сегментирования ваших данных или обучения прогнозным моделям.

Есть три ключевых слова, которые мы должны знать, когда пытаемся понять основы тематических моделей: документы, термины и темы .

Скрытое распределение Дирихле (LDA) — это метод обучения без присмотра, который обнаруживает различные темы, лежащие в основе набора документов, где каждый документ представляет собой набор слов или терминов. LDA предполагает, что любой документ является комбинацией одной или нескольких тем, и каждая тема связана с определенными терминами высокой вероятности.

Основной целью моделирования тем является поиск значимых тематически связанных терминов  ( «тем» ) в неструктурированных текстовых данных. В тематических моделях слова в ваших текстовых данных, которые часто встречаются вместе, группируются в разные «темы».

Полученный  список тем можно использовать в качестве конечного результата для задач поиска информации, совместной фильтрации или для оценки сходства документов среди других. Темы также могут быть очень полезны как дополнительные входные функции в вашем наборе данных для других задач моделирования (например, классификация, регрессия, кластеризация, обнаружение аномалий).

Для машинного обучения и построения тематических моделей я использую бесплатную подписку на сервис BigML.

Если вы этим заинтересуетесь, рекомендую сначала прочитать статью в блоге BigML.

Машинное обучение для анализа тем YMYL страниц

Я загрузил свой набор данных в BigML в качестве источника. Созданный в BigML был очищен от аномалий. Я обучил и оценил модель принятия решений.

Как вы помните из исследования «Как Google классифицирует YMYL сайты», для классификации сайтов по тематике Google извлекает контент интернет страницы и анализирует его при помощи соответствующих алгоритмов и нейронной сети.

Проанализировав извлечённый контент нейронная сеть присваивает интернет странице тематику. Затем из совокупности тематик, которые определены, присваивается основная тематика всему сайту. По этому медицинским сайтам может быть присвоена совершенно другая тематика, не связанная со здоровьем и лечением.

Учитывая это, я в BigML создал тематическую модель, основанную на текстовых полях моего набора данных — «Содержание Title», «Содержание Description», «Содержание Н1». Когда тематическая модель создана, можно отфильтровать и проверить ее, используя две визуализации, предоставляемые BigML.

В первом представлении вы сможете сразу увидеть все темы, представленные кружками, пропорционально значимости тем (чем больше диаметр кружка, тем выше значимость темы). Кроме того, темы отображаются в макете карты, который отображает отношения между ними, так что более близкие темы более тематически связаны.

Рис.1

Как использовать машинное обучение для анализа тем YMYL страниц
Карта тем YMYL страниц медицинской тематики. Самая значимая тема «Инструкции» имеет коммерческую направленность и относится к фармацевтике.

Как видно на первой визуализации по названием «Карта тем» (Рис.1) темы разделены на четыре кластера:
1. Инструкция (фармацевтика), цена, клиника.
2. Медицина, лечение, симптомы, коррекция.
3. Темы о косметологии и дерматологии.
4. Стоматология.

Самая значимая тема для набора данных — «Инструкции» (описание различных препаратов) в числе основных терминов содержит слово «купить». Сопутствующие ей темы — «Цена». А тема «Клиника» в числе основных терминов содержит слово «цена» и «отзыв».

Следовательно кластер тем №1 имеет ярко выраженную коммерческую тематику. Предполагаю, что нейронная сеть будет «рассуждать» следующим образом — страницы этого кластера созданы чтобы заработать, а не для того, чтобы полечить.

Кроме того, в теме «Клиника» мы видим связь терминов «отзыв» и «цена» — первое подтверждение того, что страницы с отзывами, скорее всего, не относятся к теме Здоровья как такового.

Однако лучший способ получить представление о ваших темах — взглянуть на вторую визуализацию BigML для тематических моделей: гистограмму.

Рис.2

BigML - тематическая модель

На этом графике вы можете просмотреть основные термины по темам. Каждый термин представлен полосой, длина которой обозначает важность термина в этой теме (т. е. вероятность термина).

Модель тем находит термины, которые с большей вероятностью встречаются вместе, и группирует их в разные темы. Этот вероятностный метод дает довольно точные группировки терминов, которые тесно связаны между собой.


Как видно на гистограмме (Рис.2), в моем наборе данных есть две темы об отзывах — «Отзывы фото» и «Отзывы пациентов». И как раз во второй теме есть третий по важности термин — «цена», а сама тема в модели расположена на гистограмме рядом с темами о цене. На мой взгляд, это еще одно подтверждение того, что слово «отзывы» может указывать нейронной сети на коммерческую (не направленную на здоровье и лечение) тематику таких страниц.

Я решил копнуть глубже и на основе тематической модели создал модель для темы «Отзывы пациентов».

Рис.3

BigML - построение модели

Используя машинное обучение я получил довольно интересный результат.

Многие YMYL страницы медицинской тематики занимают в поисковой выдаче позиции на галёрке (с двадцатой и ниже), если:
* Описание для поисковых систем содержит слово «пациентов»;
* Title или заголовок Н1 содержит слово «отзывы».

Следовательно, основываясь исключительно на данных моей выборки (моего набора данных) и моего предыдущего исследования, рискну предположить:
* страницы об отзывах пациентов о медицинских товарах и услугах, скорее всего исключены нейронной сетью Google из тематики «Здоровье»;
* страницы об отзывах пациентов могут попасть в результаты поисковой выдачи на позиции выше двадцатой только в двух случаях — контент на странице не содержит коммерческой составляющей (пользователю не предлагают что-то купить) и пользователь ищет именно отзывы.

Всё написанное выше исключительно моё мнение и может не совпадать с вашим.

Надеюсь на дальнейшее конструктивное обсуждение в комментариях к статье.

Если статья вам понравилась, не забудьте поделится ей с вашими друзьями и знакомыми.

6 комментариев к «Как использовать машинное обучение для анализа тем YMYL страниц»
  1. А можно пожалуйста записать видео с детальным алгоритмом оценки таких сайтов? Что нужно чтобы оценить выборку своих сайтов данным методом или 1 сайт?

  2. Да, как анализировать в BigML. Тоже присоединюсь к просьбе Никиты.
    Как в нем работать, какого рода обучающую выборку вы заливаете, чисто плейн текст или сайдбары всякие тоже идет за контент, какова величина выборки для обучения и т.п.
    Было бы очень интересно.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *