Классификация YMYL сайтов

Из этой статьи вы узнаете, как Google классифицирует сайты, а также прочитаете результаты моего исследования, проведённого на основе ста запросов медицинской тематики. Вам станет понятно, почему у Google есть сайты-любимчики и почему они получают больше трафика независимо от занимаемой позиции.

YMYL – аббревиатура появившаяся в 2014 году в Руководстве Google для асессоров и расшифровывается как  «Ваши деньги или ваша жизнь». YMYL – типы страниц, которые могут потенциально повлиять на будущее счастье, здоровье, финансовую стабильность или безопасность человека.

К YMYL относятся сайты таких тематик: Новости и текущие события; Гражданское право, правительство и закон; Финансы; Покупки; Здоровье и безопасность; Группы людей; Прочие. Формально YMYL относятся страницы любой тематики, кроме тех случаев, когда это прямо указано в Рекомендациях для асессоров. Например, темы спорта, развлечений и повседневного образа жизни, как правило, не являются YMYL страницами.

Как Google классифицирует сайты?

Помните, в августе 2018 года было сильное обновление ядра алгоритма Google, которое получило название «Медицинский апдейт»? Почти в то же время, 10 августа 2018 года была подана заявка на патент «Вектор представительства веб-сайта для обучения результатов поиска и классификации сайта» (номер публикации патента WO/2020/033805). Думаете это совпадение? Однозначно Google опробовал эту технологию в августе 2018 года и одновременно начал процесс получения патента на неё.

В этом патенте сказано, что обученная нейронная сеть классифицирует сайты:

  • * По показателю качества;
  • * По тематике;
  • * По уровню экспертизы;
  • * По авторитету.

Как Google классифицирует сайты по тематике?

Как следует из патента, Google создал домены знаний или как мы привыкли говорить, — отрасли знаний. Эти домены знаний включают в себя поддомены знаний. Google бот сканирует сайт, передаёт данные другим алгоритмам, в том числе алгоритму BERT. Они оценивают качество контента и релевантность области знаний. Затем нейронная сеть используя эти данные, а также ярлыки, присвоенные асессорами этому сайту или сайтам аналогам, определяет к какому поддомену знаний относится сайт или его страница.

[0004]  Способ может включать в себя генерирование каждого из векторов признаков с использованием нейронной сети, которая принимает в качестве входных данных контент, включённый в соответствующий веб-сайт.

По этой причине медицинский сайт в зависимости от его основного контента может быть классифицирован не как медицинский сайт, а как отзовик, сайт обзоров или сайт другого типа.

Как Google классифицирует сайты по качеству и авторитету?

Как рассчитывается показатель в патенте не сказано. Но там сказано о двух порогах качества – «Первый порог» и «Второй порог». Причём «Второй порог» выше первого.  По порогу качества сайты разделены на две основные категории – «Первые» и «Вторые». Но также выделяют «Третьи» или «Прочие» сайты – это те, что нейронная система не может с высокой долей уверенности отнести в состав первых двух категорий.

Первые сайты (не очень качественные по мнению Google) – это сайты, которые не превышают первый порог качества.

Вторые сайты (авторитетные сайты) – сайты, превышающие второй порог качества.

[0005]  Алгоритм может обнаруживать веб-сайты, которые с большей вероятностью реагируют на запросы в области знаний, например, более вероятно, являются авторитетными для области знаний. [0004]  Вторые веб-сайты могут быть определены как набор авторитетных источников данных.

Возникает резонный вопрос, а что же находится между первым и вторым порогом? Логично предположить, что именно там находятся прочие сайты. Другими словами, это сайты, качество которых хорошее, но они ещё не являются доверенными сайтами для Google.

Нейронная сеть формирует общие признаки (наборы отличий) для «Первых» и «Вторых» сайтов. Получая составное представление (обобщённую информацию от других алгоритмов) о сайте нейронная сеть используя коэффициенты сходства оценивает сайт по качеству как «Первый» или «Второй». Если этого сделать нельзя, сайт оценивается как «Прочие».

Как Google классифицирует сайты по экспертизе?

Для классификации веб-сайтов нейронная сеть использует категории сайтов в области знаний по уровню экспертизы.

Наиболее наглядным примером будет цитата из этого патента:

[0013] Классификации веб-сайтов могут включать в себя первую категорию веб-сайтов, созданных экспертами в области знаний, например, врачи, вторую категорию веб-сайтов, созданных учениками в области знаний, например, студенты-медики, и третью категорию веб-сайтов, созданных специалистами или непрофессионалами в области знаний. Используя составное представление, основанное на существующих классификациях веб-сайтов, классификация веб-сайтов может использовать характеристики, извлечённые из существующих веб-сайтов.

Если по-простому, Google делит сайты медицинской тематики по уровню экспертизы на три категории:

  • * сайты врачей (клиник);
  • * сайты людей с достаточным уровнем знаний в медицине, но не врачей;
  • * разного рода блоги, форумы, где любой желающий может дать свой совет по заболеванию, а также сайты, которые нельзя по уровню экспертизы отнести в первые две категории.

Исследование: как Google классифицирует YMYL сайты

Методология:

  • * При помощи SEMrush для анализа я собрал сто запросов медицинской тематики.
  • * Используя Netpeak Checker по каждому из этих ста запросов собраны первые тридцать результатов поисковой выдачи по Google.ru.
  • * Источники данных: Netpeak Checker (показатели OnPage), API Moz (DA, PA), Serpstat (Трафик), Majestic (TF, CF).
  • * Подготовка данных – из набора данных удалены строки, у которых отсутствовали данные о размере контента.
  • * Традиционно для интеллектуального анализа данных был использован бесплатный фреймворк Orange.
  • * Кластеризация – все данные были кластеризованы при помощи алгоритма k-Means на четыре кластера, но об этом чуть позже.

 Процесс исследования классификации сайтов

В процессе сбора данных я получил от Serpstat показатели трафика по Украине и по России. Я добавил в набор данных дополнительный столбец под названием «Общий трафик».

Полученные данные были загружены в Orange. Используя виджет «Line Plot» стало понятно, что для самой лучшей визуализации кластеров нужно использовать показатель «Общий трафик».

Изначально я планировал кластеризовать данные на три кластера, но полученные результаты не отражали реальное положение дел. В настройках виджета «k-Means» Orange количество кластеров было изменено до четырёх. И именно такая настройка кластеризации данных, на мой взгляд, наиболее близка к тому, о чём идёт речь в патенте Google (см. Рис.1).

Рис.1

Как Google классифицирует YMYL сайты
Кластер С4 (оранжевый) — страницы Википеии и YouTube. Кластер С1 (голубой) — преимущественно Яндекс. Кластер С3 — новостники, отзывики и соцсети. Кластер С2 (красный) — сайты в качестве которых Google сомневается.

Как видно на Рис.1 больше всего трафика по данным Serpstat получают YMYL страницы из кластера С4, который почти на 100% состоит из страниц Wikipedia и YouTube. Думаю, это недалеко от истины, поскольку Wikipedia это давний доверенный ресурс для Google, а YouTube – это его сервис и один из самых посещаемых сайтов в мире.

Вторым по количеству трафика является кластер С1, состоящий преимущественно из страниц сервисов Яндекса.

Причём, страницы из кластеров С1 и С4 получают большинство трафика независимо от того, на какой странице выдачи они находятся.

Из этого можно сделать вывод, что сайты из кластеров С1 и С4, скорее всего, оценены нейронной сетью Google как авторитетные и отнесены в категорию «Вторые сайты» (превышают второй порог качества).

Кластер С2 (красный) – это сайты ниже первого порога качества. Другими словами, это те сайты, в качестве которых Google сомневается.

И есть кластер С3 (зелёный), который, как видно на Рис.1, выше первого порога качества, но ещё не дотягивает до второго. Вероятнее всего, по уровню качества нейронная сеть отнесёт их к «Прочим сайтам». Кластер С3 преимущественно состоит из страниц всеми любимой «Комсомольской правды», других известных новостников, facebook, Pinterest, ответов Mail.ru и тому подобное.

Рис.2

Корреляция Moz PA и качества сайтов

На Рис.2 видно, что страницы с высоким показателем PA Moz получают больше трафика независимо от позиции.

Из своего опыта могу сказать, что сайты из кластера С2 (красный) часто грешат тем, что публикуют не точную, не полную, искаженную информацию, либо их контент создан не в профессиональном стиле.

Поэтому, на мой взгляд, Google чаще показывает на «Позиции ноль» (в выделенных описаниях) страницы сайтов, которым поисковик больше доверяет (кластеры С1, С4, С3).

Истинность информации по общественно значимым темам, в том числе касающейся гражданской сферы, медицины, науки и истории, должна быть широко признана в профессиональных кругах. Это правило действует только в отношении контента, который может появляться в выделенных описаниях.

На этом рисунке также видно, что кластеры по уровню качества располагаются в зависимости от показателя PA Moz.

Учитывая это, показатели DA и PA Moz вебмастера могут использовать как ориентир уровня «Авторитета». Google традиционно отрицает, что он использует данные DA и PA Moz, но видимо у Google есть внутренние и очень близкие по методике расчёта метрики, в том числе Page Rank.

Еще примечательная особенность «Первых» сайтов (красный кластер С2) – на их страницах начиная с ТОП 20 очень много исходящих dofollow ссылок на другие сайты (Рис.3).

Рис.3

Количество исходящих dofollow в зависимости от позиции

Обратите внимание на то, что время ответа сервера для «Первых» сайтов (красный кластер С2) является важным фактором для определения качества, поскольку у них эти показатели во многих случаях значительно выше, чем у других кластеров (Рис.4).

Рис.4

Время ответа сервера в зависимости от позиции
У многих страниц из кластера С2 (красный) высокое время ответа сервера. Размер элементов — это время ответа сервера.

Выводы:

1. Google делит сайты по качеству на три категории. У Google есть перечень сайтов, которых он считает авторитетными и на основе данных которых обучал свою нейронную сеть.
2. Для оценки авторитета сайта или страницы лучше всего использовать метрики DA и PA Moz.
3. Страницы кластеров С1, С3, С4 имеют больше траста по Majestic, чем страницы «Первых» сайтов (кластер С2).
4. Для того чтобы прорваться из «Первых» (не очень качественных) сайтов в состав хотя бы «Прочих» сайтов нужно, чтобы страницы в основном соответствовали такому набору показателей:
  • * DA домена>77, PA страницы до 45, Trust Flow домена от 41 до 71;
  • * Хост не содержит www и Citation Flow домена до 41, внешних dofollow ссылок на странице не больше 16;
  • * URL не содержит «http», заголовок Н1 не содержит слово «отзывы».

На Рис.5 вы увидите набор отличий по кластеру С3 (Прочие сайты, кластер зеленого цвета).

Рис.5

Набор отличий по кластеру С3

В заключение, хочу привести цитату Дэвида Файнбера главы Google Health — «Я считаю, что Google уже является компанией здравоохранения«.

Business Insider 18 сентября 2019 подтвердил, что Google завершил поглощение DeepMind через которое еще в 2016 году незаконно получил широкий доступ к данным 1,6 миллиона пациентов. Эти и другие медицинские базы данных легли в основу обучения нейронной сети для классификации сайтов и других алгоритмов Google.

Подписывайтесь на канал и добавляйте блог в закладки!

4 комментария для “Как Google классифицирует YMYL сайты”
  1. Спасибо Слав, как всегда хорошая работа. Похоже мне в своих аптеках пора выкидывать слово "отзывы" из h1 а я все думаю что это гугл у отзовиков звезды рейтинга отбирает а мои аптечки не трогает 🙂 А ведь эти страницы держат лучшие позиции по ВЧ-СЧ ключам. Новое для меня наблюдение. Натолкнул ты на раздумья.

  2. Очень крутая метадология исследований, рассказывай о ней подробнее, будет очень интересно почитать. Спасибо

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *