388x60 Ads

Рекомендации Google для сайтов о здоровье в период коронавируса

Тема "Здоровье" — одна из самых высококонкурентных ниш для поискового продвижения сайтов.

Google несколько лет подряд проводил широкие обновления ядра своего алгоритма, которые, во многих случаях, негативно отразились на позициях и трафике сайтов медицинской тематики.

До марта 2020 года Google старался никак не комментировать такое отношение к сайтам о здоровье (медицинской тематики). В лучшем случае веб-мастер получал от сотрудников Google ответ — "это связано с релевантностью, читайте наши рекомендации для асессоров".

Недавно я провел' исследование "Как Google классифицирует YMYL сайты". Прочитайте его.
  

 Коронавирус — новости для веб-мастеров


Начиная со средины марта 2020 года Google начал прилагать усилия для улучшения отражения в результатах поиска информации о коронавирусе (COVID-19). Вот пример.

Google опубликовал несколько рекомендаций для веб-мастеров в период коронавируса.

Очень важно, Google организовал прямую поддержку национальных сайтов органов здравоохранения, который публикуют важную информацию о коронавирусе (COVID-19).

Если вы администрируете или занимаетесь поисковым продвижением таких сайтов, присоединяйтесь к группе технической поддержки Google.

Вы можете напрямую задать вопросы о своих сайтах и получить ответы. Заполните эту форму, чтобы запросить доступ к этой группе технической поддержки.

Рекомендации Google для сайтов о здоровье


Попробуйте выполнить поиск распространенных запросов о коронавирусе или любом другом заболевании в Google, чтобы увидеть, как отображается и ранжируется ваш сайт. Если сайт очень плохо ранжируется или Google не показывает его вообще, следуйте приведенным ниже советам, чтобы улучшить видимость в Поиске.

При этом нужно учитывать, что Google работает над раскрытием авторитетной информации и не может гарантировать рейтинг сайта в органических результатах поиска.

Убедитесь, что ваш сайт можно просматривать как в мобильных, так и в настольных (десктопных) устройствах: помните, что более половины всех поисковых запросов сегодня выполняются с мобильных устройств. Протестируйте страницы сайта с помощью инструмента «Мобильный тест».

Как вы ранжируетесь по запросам


Проверьте оценку самых популярных запросов в Google Trends. Посмотрите, какие другие связанные запросы показывают ваш сайт в Поиске, как сайт ранжируется по этим запросам и переходят ли пользователи на сайт:

1) Откройте отчет об эффективности в Google Search Console. Фильтр за последние 7 дней, чтобы сосредоточиться на темах, наиболее актуальных для последних поисков.
2) Если коронавирус (любое другое заболевание) является лишь небольшой частью вашего сайта, добавьте URL-фильтр, чтобы сосредоточиться на страницах, которые имеют отношение к этой теме.
3) Сортируйте таблицу по показам, чтобы определить релевантные запросы с высоким показом, но низким CTR. Попробуйте исправить эти страницы, чтобы иметь более точные заголовки, соответствующие их содержанию.
4) Поиск запросов с высоким рейтингом кликов, но низкой позицией: это важные страницы, которые ценят пользователи, но у Google могут возникнуть проблемы с сопоставлением пользовательских запросов. Попробуйте улучшить заголовки страниц и содержание, включив в них термины из общих пользовательских запросов.

Оптимизируйте контент заголовки и мета-теги


Добавьте соответствующий контент на свой сайт, который соответствует запросам пользователей, чтобы улучшить свой рейтинг. Если у вас уже есть этот контент, перепишите его, чтобы включить запросы пользователей в контент страницы, в заголовки страниц или заголовки разделов, чтобы помочь Google идентифицировать его.

Я бы для этих целей использовал текстовую аналитику Serpstat.
Кластеризация ключевых слов

У кого ещё нет подписки Serpstat, купите её нажав на баннер внизу.

Serpstat

Самое важное: при создании новой страницы нужно дать ей название, в котором четко кратко сформулировать её основную суть. Думайте о заголовке страницы как об итогах страницы. Это помогает как Google, так и пользователям интернет понять фокус страницы. Поместите видимый пользователем заголовок страницы в тег HTML <title>.

Убедитесь, что каждая страница на вашем сайте имеет мета-описание. Google будет использовать тег Description со страницы для создания сниппета, если думает, что Description дает пользователям более точное описание, чем из содержимого на странице.

Из этого следует, что мета-тег Description важен и заполнять его нужно для всех страниц сайта, но для формирования сниппета Google отдает приоритет контенту на странице.

Мета-тег Description должен, как правило, информировать и заинтересовать пользователей кратким релевантным описанием того, что представляет собой конкретная страница. Оно должно быть как информационный магнит, который убеждает пользователя, что страница именно то, что они ищут.

Нет ограничений на длину мета-описания, но сниппеты обрезаются по мере необходимости, как правило, для соответствия ширине устройства.

Дополнительно читайте:
Оптимизация заголовков и описаний


Найдите и изучите самые популярные запросы


Посетите Google Trends, чтобы узнать, какие термины, связанные с коронавирусом (любым другим заболеванием), ищут люди.

Найдите список стран и выберите свою, чтобы увидеть поисковые запросы, специфичные для вашей страны. Это позволит сосредоточиться на пользователях из вашего местоположения.

Измените выбор даты, чтобы изучить последние запросы за последнюю неделю или две.

Исследуйте связанные запросы, щелкнув соответствующие записи запросов или изменив условия поиска в верхней части страницы.
Если ввести название вируса с ошибкой (так как многие его слышат)  "Короновирус" с момента введения карантина в Украине в связи с пандемией вируса (COVID-19) видна четкая корреляция с поисковым запросом "Доставка".

Используйте разметку FAQ


Когда вы предоставляете структурированные данные на своем веб-сайте, Google может легче извлекать и представлять информацию в результатах поиска полезными способами. Правильно реализованные структурированные данные часто задаваемых вопросов (разметка FAQ) могут появляться в Google со специальным форматированием, чтобы помочь представить вашу информацию на видном месте.

После внесения изменений в разметку обязательно сообщите Google об изменениях.

Самый простой способ отправлять Google новые и измененные URL – в Search Console воспользуйтесь отчетом о файлах Sitemap: из него вы узнаете, какие файлы были обработаны и какие при этом возникли проблемы.

Google рекомендует сделать карту сайта доступной автоматически через ваш сервер. Это лучший способ сообщить Google о вашем новом и обновленном контенте.

Используемые источники:

Best practices for health websites.
Новые свойства для виртуальных, отложенных и отмененных событий.
Подробнее

Машинное обучение и анализ данных для чайников


Читатели моего блога знают, что я люблю разного рода исследования.

Особый интерес вызвали два исследования по YMYL страницах сайтов медицинской тематики.

Это связано с тем, что в процессе исследования я использовал машинное обучение при помощи бесплатного инструмента BigML.

Из текста заданных мне вопросов и комментариев я понял, что многие читатели хотели бы самостоятельно провести своё исследование, используя машинное обучение, но им:
а) не хватает базовых знаний о процессе машинного обучения;
б) сложно разобраться в том, как использовать BigML для этого.

Поэтому, эта статья - это, по сути, машинное обучение для чайников или введение в машинное обучение.

Я постараюсь максимально просто объяснить на примере, что такое машинное обучение и анализ данных в среде BigML. Сразу скажу, вам не нужно будет ничего программировать.

Что такое машинное обучение?

Существует огромное количество определений термина машинное обучение. Мне больше всего нравится определение, сформулированное специалистами SAS:
Машинное обучение - это метод анализа данных, который автоматизирует построение аналитической модели. Это отрасль искусственного интеллекта, основанная на идее, что системы могут учиться на основе данных, выявлять закономерности и принимать решения с минимальным вмешательством человека.
Давайте вернёмся к азам.

Введение в машинное обучение

Первым шагом в любом проекте является определение вашей проблемы. Вы можете использовать самые мощные и блестящие алгоритмы, но результаты будут бессмысленными, если вы решите не ту проблему.

Хорошо подумайте о своей проблеме, прежде чем начать. Это, бесспорно, самый важный аспект применения машинного обучения.

Алгоритмы машинного обучения учатся на данных. Крайне важно, чтобы вы предоставили им правильные и корректные данные для проблемы, которую вы хотите решить. Даже если у вас есть хорошие данные, вы должны убедиться, что они имеют полезный масштаб, правильный формат, не содержат пропусков.

Процесс подготовки данных для алгоритма машинного обучения можно обобщить в три этапа:

Шаг 1 : Выбор и сбор данных.
Шаг 2 : Предварительная обработка данных.
Шаг 3 : Преобразование данных. Этот шаг не для чайников, потому я в этой статье описывать его не буду.

Вам нужно подумать, какие данные вам действительно нужны для решения вопроса или проблемы, над которой вы работаете. Всегда существует сильное желание включить все доступные данные, чтобы соблюдалось правило «чем больше, тем лучше». Это не всегда правильно.

После того как вы выбрали данные, вам нужно подумать, как вы собираетесь использовать данные. Этот шаг предварительной обработки заключается в получении выбранных данных в форму, с которой вы можете работать.

Три основных этапа предварительной обработки данных - это форматирование, очистка и выборка:

Форматирование : выбранные вами данные могут быть не в том формате, который вам подходит для работы. Установите нужный формат для соответствующих типов данных. Не используйте для числовых данных подобный формат представления 1,989,49. Многие программы будут распознавать такие данные, как текст. Если вы хотите, чтобы это была цифра, она в вашем наборе данных должна выглядеть так  1989,49. Некоторые программы для анализа данных распознают данные как текст, если вместо запятой после целой части числа используется точка вместо запятой. Рекомендую использовать именно запятую.

Очистка : Очистка данных - это удаление или исправление отсутствующих данных. Могут быть экземпляры данных, которые являются неполными и не содержат данных, которые, по вашему мнению, необходимы для решения проблемы. Эти строки или столбцы, возможно, должны быть удалены.

Выборка : может быть гораздо больше выбранных данных, чем нужно для работы. Большее количество данных может привести к гораздо более длительному времени работы алгоритмов и большим вычислительным ресурсам и требованиям к памяти. Вы можете взять меньшую репрезентативную выборку выбранных данных, которая может быть намного быстрее для изучения и создания прототипов решений, прежде чем рассматривать весь набор данных.

Промежуточный итог

Вы получили первое представление, что такое машинное обучение. Чётко для себя определите задачу и подумайте, как вы будете её решать. Обязательно отформатируйте ваши данные так, как это нужно. Нужно очистить набор данных от столбцов или строк, которые не содержат данные.

Машинное обучение — пример

Судя по данным Ahrefs и Serpstat, многие пользователи ищут информацию о машинном обучении по запросам "машинное обучение пример" и "машинное обучение с чего начать". Это перекликается с основной сутью полученных мной отзывов на предыдущие публикации.

Если вы не вебмастер, вы можете использовать любые другие доступные вам данные, например информацию из бухгалтерской программы 1С.

Например, я анализировал расчёты (платежи) трёх предприятий одной группы на предмет выявления аномалий (выбросов). Это позволило мне выявить нетиповые операции и сомнительных контрагентов.

Поскольку я занимаюсь веб-аналитикой и оптимизацией сайтов, в качестве источников информации я обычно использую данные:
* SEMrush;
* Serpstat ;
* Majestic;
* Ahrefs;
* Moz;
* Google Analytics;
* Google Search Console.

Собираю я эти и другие данные при помощи программ Netpeak Spider и Netpeak Checker (промокод на скидку в 10% - 869c893c), используя API указанных выше сервисов.

Вот что я использую для анализа данных:

AnswerMiner - позволяет быстро и удобно получить информацию о силе корреляции между показателями набора данных.
* Orange - бесплатный, удобный и быстрый интеллектуальный анализ данных.
* BigML - бесплатная платформа для машинного обучения.

Итак, начнём рассматривать пример машинного обучения и анализа данных.

Цель - классифицировать YMYL страницы по качеству, выявить наборы уникальных различий для каждого из кластеров.

Способ достижения результата - сбор ТОП 30 по 100 запросам медицинской тематики (использовался SEMrush), сбор данных по запросам - использовался Netpeak Checker, кластеризация YMYL страниц (использовался Orange), машинное обучение (построение модели, её обучение и оценка - использовался BigML).

То что я собирал запросы именно с помощью SEMrush, ещё не значит, что вы должны делать так же.

Нужные запросы вы можете собрать и при помощи Serpstat и там же сразу кластеризовать.

Открываете в Serpstat меню "Инструменты" и там выбираете инструмент "Кластеризация ключевых слов и анализ текста". Создаёте ваш проект, выставляете настройки кластеризации. Дальше инструмент всё сделает за вас.

Много об этом писать не буду, просто посмотрите это видео.

Что вам это даст? Результаты классификации можно использовать как дополнительные категории при анализе данных в процессе машинного обучения.

Допустим, все нужные запросы уже собраны. Запускаем Netpeak Checker (промокод на скидку в 10% - 869c893c). Открываем в нём инструмент "Парсер поисковых систем". Выставляем нужные настройки и вносим список ключевых слов для парсинга.
Сбор данных при помощи Netpeak Checker

Я таким образом по 100 запросам собрал результаты поисковой выдачи из ТОП30 Google.

Там же в Netpeak Checker я собрал показатели OnPage интернет-страниц, а также информацию по API из указанных выше источников данных. Например, показатели трафика я брал из Serpstat.

Дальше руками, хотя есть решения при помощи Python, я произвёл форматирование и очистку данных, как было описано выше.

Полученный набор данных я загрузил в Orange.
Data Mining в Orange

Используя Data Mining средствами Orange, я получил информацию о целевых кластерах, а также то, что самой значимой переменной для кластеризации является "Общий трафик". Все мои выводы были опубликованы в исследовании Как Google классифицирует YMYL сайты .

В другом моём исследовании Как использовать машинное обучение для анализа тем YMYL страниц я привёл довольно подробный пример машинного обучения в среде BigML, но для многих пользователей его интерфейс показался сложным и они попросили подробнее показать, как им пользоваться.

Регистрируетесь в BigML.

Загружаете ваш набор данных. Здесь я дам небольшой комментарий. В качестве источника данных вы можете дать ссылку или просто перетянуть файл с рабочего стола в BigML, но я предпочитаю обычную загрузку файла. Причём, самый лучший формат для набора данных - CSV.
Машинное обучение для чайников в BigML
Вот так изнутри выглядит ваш набор данных.
Анализ данных в BigML

В моём наборе три типа данных - числовые (123), текстовые (text), категории (ABC). Прежде чем производить дальнейшие действия, проверьте насколько BigML корректно распознал тип данных. Если вы увидели ошибку, нажмите на кнопку в виде бочёнка с шестерёнкой и внесите нужные исправления. Не забудьте сохранить изменения.

Затем переходим к созданию набора данных для машинного обучения в среде BigML. Нажмите на кнопку "1-Click Dataset".
BigML - создание набора данных

Вы должны исключить из дальнейшего процесса машинного обучения не значимые показатели. Например, я исключил показатель "Запрос". Как это сделать?


Напротив каждого показателя есть "Карандаш". Это кнопка для редактирования. По умолчанию показатели значимые (на картинке выше действие №1), кроме случаев, когда BigML сам определяет не значимые показатели. Вам нужно нажать на кнопку со знаком восклицания и затем сохранить изменения. После этого возле не значимого поля появится красный знак восклицания (на картинке выше действие №2).

Машинное обучение модели

Для целей оценки нам нужно обучить модель только частью данных (создать набор данных обучения), а затем проверить точность прогнозов на наборе данных, который мы не использовали для этапа обучения.

Давайте разделим данные на две части — набор данных для обучения и на тестовый набор данных.
Машинное обучение данных

По умолчанию BigML разделит ваши данные в пропорции 80 на 20, но вы можете выставить собственные значения, например, 70 на 30. Я оставил по умолчанию. В итоге будут созданы два дополнительных набора данных "НазваниеВашегоНабора80" и "НазваниеВашегоНабора20".

Вам нужно войти в набор данных для обучения "НазваниеВашегоНабора80" и создать модель. Для этого нажимаете на кнопку в виде облака с молнией и выбираете опцию "1-CLICK MODEL".

BigML построит дерево решений. Чем толще ветка дерева решений, тем вероятнее прогноз.
Машинное обучение - дерево решений

Но вы должны проанализировать и другие ветки. Обратите внимание на ветки, у которых конечный элемент имеет значение показателя уверенность (Confidence) больше 75 процентов. Таких веток может быть несколько. Советую отдавать предпочтение той ветке, у которой выше показатель уверенности и процент элементов в наборе данных. Для этого подведите курсор к конечному элементу ветки и вы увидите подсказку.

Оценка модели и прогноз

Следующий этап - это оценка точности модели. Очень важно, чтобы точность модели была не ниже 95 процентов.

В наборе данных для обучения "НазваниеВашегоНабора80" нужно выбрать функцию "Оценить" (Evaluate - на рисунке ниже действие №1). Затем, если вы захотите сделать прогноз, нужно нажать на кнопку "Прогнозировать" (Predict - на рисунке ниже действие №2).

Оценка модели в BigML

В моём случае, точность модели составила 98,97 процента. Дерева решений вполне достаточно для того, чтобы найти интересные данные, которые раньше были не очевидными.

Что касается прогноза, я советую вам поиграть со значениями и ползунками. Уверен, что там ничего сложного и вы с этим сами разберётесь.

Надеюсь, машинное обучение и анализ данных для чайников с помощью BigML теперь стал для вас понятнее и проще.

Если что-то непонятно, пишите ваши отзывы в комментариях к статье.

Если статья вам понравилась, не забудьте поставить лайк и поделится в социальных сетях.
Подробнее

Финансовое мошенничество в интернет в период пандемии коронавируса COVID-19

Мошенничество в интернет и пандемия коронавируса COVID-19


Всем добрый день!

Я веду SEO блог, но это будет публикация, связанная с общественно значимыми событиями. Я просто не могу оставаться в стороне.

Генеральный директор ВОЗ на брифинге для СМИ сообщил, что они наблюдают быструю эскалацию случаев COVID-19. В остальном мире зарегистрировано больше случаев и смертей, чем в Китае.

В России и в Украине несмотря на карантин растет число заболеваний и смертей.

Быстро растут социальные меры дистанцирования, такие как закрытие школ, отмена спортивных мероприятий, закрывают магазины, ограничивают движение общественного транспорта.

Работодатели, там где это возможно, переводят персонал на удаленную работу.

Вся эта информация льется потоком со всех СМИ и складываясь пазл за пазлом в наших умах в итоге приводит к тревоге и панике. И, в основном, из-за высокой смертности и отсутствия лечения от короновируса. По состоянию на 3 марта 2020 года во всем мире около 3,4% заболевших (зарегистрированных случаев COVID-19) умерли - и это один из поводов для паники.

Всегда есть люди, которые стараются любыми доступными (законными и не очень способами) заработать на панике.

Мошенничество в интернет в период пандемии коронавируса COVID-19

13 марта 2020 года Интерпол опубликовал официальное предупреждение о росте фактов финансового мошенничества, связанного с паникой во время пандемии коронавируса COVID-19.

Интерпол просит общественность проявлять осторожность при покупке медикаментов в Интернете во время пандемии Коронавируса COVID-19, потому что преступники извлекают выгоду из этой ситуации для проведения ряда финансовых мошенничеств.

Поскольку хирургические маски и другие медицинские принадлежности пользуются большим спросом, но их трудно найти в розничных магазинах в результате пандемии COVID-19, в Интернете появились поддельные магазины, веб-сайты, учетные записи в социальных сетях и адреса электронной почты, утверждающие, что они продают эти товары.

Но вместо получения обещанных масок и припасов ничего не подозревающие жертвы видели, как их деньги исчезают в руках преступников.

Схемы мошенничества COVID-19

Мошенничество, связанное с короновирусом, включает в себя:

* Мошенничество по телефону - преступники звонят жертвам, притворяясь сотрудниками клиники или больницы, которые утверждают, что родственник жертвы заболел вирусом, и требуют оплатить лечение;
* Фишинг - электронные письма, утверждающие, что они принадлежат национальным или глобальным органам здравоохранения, с целью заставить жертв предоставить личные учетные данные или платежные данные или открыть вложение, содержащее вредоносное ПО.

Обязательно прочитайте публикацию Google - Как избегать фишинговых атак и сообщать о них.

Во многих случаях мошенники выдавали себя за законные компании, используя похожие имена, веб-сайты и адреса электронной почты, пытаясь обмануть ничего не подозревающих людей, активно обращаясь через электронные письма и сообщения на платформах социальных сетей.

«Преступники используют страх и неуверенность, создаваемые COVID-19, чтобы охотиться на ни в чем не повинных граждан, которые стремятся защитить только свое здоровье и здоровье своих близких», - сказал генеральный секретарь Интерпола Юрген Сток.

«Любой, кто думает о покупке медикаментов в Интернете, должен уделить время и убедиться, что вы на самом деле имеете дело с законной, уважаемой компанией, в противном случае ваши деньги могут быть потеряны  и отправлены недобросовестным преступникам», - заключил руководитель Интерпола.

Признаки мошенничества

Если вы хотите купить медикаменты в Интернете или получать электронные письма или ссылки, предлагающие медицинскую поддержку, будьте внимательны к признакам потенциального мошенничества, чтобы защитить себя и свои деньги.

Нужно проверить компанию / частное лицо, предлагающее товары, прежде чем делать какие-либо покупки;

На поддельных веб-сайтах преступники часто используют веб-адрес, который выглядит почти идентично законному, например, «abc.org» вместо «abc.com»;

Перед покупкой проверьте онлайн-отзывы о компании - например, были ли жалобы на то, что другие клиенты не получили обещанные товары;

Будьте осторожны, если вас попросят произвести платеж на банковский счет, расположенный в другой стране, чем та, в которой находится компания;

Если вы считаете, что стали жертвой мошенничества, немедленно предупредите свой банк, чтобы платеж был заблокирован;

Не нажимайте на ссылки и не открывайте вложения, которые вы не ожидали получить или пришли от неизвестного отправителя;

Остерегайтесь нежелательных писем, предлагающих медицинское оборудование или запрашивающих вашу личную информацию для медицинских проверок - законные органы здравоохранения обычно не связываются с широкой общественностью таким образом.

Советы вебмастерам в период пандемии коронавируса COVID-19

Проверьте, историю домена и дату создания сайта, на котором вы хотите что-то купить онлайн.

Обратите внимание, использует сайт протокол https или нет. Большинство государственных, образовательных сайтов и международных организаций используют https.

Проверьте, нет ли на сайте, на котором вы хотите совершить покупку онлайн, признаков взлома, а также проверьте его на вирусы.

Проверьте содержание страницы "О нас" и страницы "Контакты" сайта, на котором хотите что-то купить. Если связь возможна только через специальную форму без указания номеров телефоров, адреса и e-mail, рекомендую воздержаться от покупок на таком сайте.

Если на сайте много рекламы - это тоже должно вас насторожить. Чем больше рекламы - тем меньше доверия.

Старайтесь меньше контактировать с другими людьми. Работайте удалённо.

Поддерживайте друг друга всем, чем можете и любыми доступными способами, но не забывайте о безопасности.

На всякий случай сделайте запас продовольствия и медикаментов.

Будьте здоровы и не болейте!
Подробнее

Как использовать машинное обучение для анализа тем YMYL страниц

Кто следит за моими статьями, знают, что я недавно опубликовал исследование "Как Google классифицирует YMYL сайты".

Исследование было основано на результатах поисковой выдачи Google по ста запросам медицинской тематики. Набор данных состоял из 2914 YMYL страниц.

Используя интеллектуальный анализ данных были выявлены основные кластеры YMYL страниц, которые соответствуют подходу, описанному в  патенте Google WO/2020/033805, для классификации сайтов по уровню качества.

Результаты исследования близки к реалиям в нише "Медицина" и, вероятно, на них можно ориентироваться при принятии определённых решений.

По уровню качества большинство YMYL страниц медицинских сайтов попали в кластер страниц (С2), оценка которых ниже первого порога качества. Страницы сайтов новостей, социальных сетей, ресурсы Яндекса, видео YouTube и страницы Википедии оцениваются лучше, чем медицинские сайты.

Собственно, именно такое положение дел вебмастера наблюдают на практике. По многим медицинским запросам "Комсомольская правда", "АиФ", "Вести" и тому подобное занимают весь ТОП.

При помощи машинного обучения на основе сформированного набора данных была построена модель, которая позволила выявить интересные результаты.

Одним из таких результатов было то, что в моем наборе данных заголовок Н1 YMYL страниц кластера "Новостников" (С3) не содержит слово «отзывы», а у "Медиков" (кластер С2), наоборот, во многих случаях содержит.

Это исследование получило широкий отклик, но некоторые вебмастера в своих комментариях написали, что наличие или отсутствие слова «отзывы» в заголовке Н1 не является однозначным критерием для классификации YMYL страниц.

Учитывая это, я при помощи машинного обучения провел дополнительный анализ текстовых полей моего набора данных.

Что такое анализ тем YMYL страниц?

В ваших текстовых данных скрыто множество ценных идей. Данные в виде простого текста могут быть очень полезны для рекомендаций по содержанию, задач поиска информации, сегментирования ваших данных или обучения прогнозным моделям.

Есть три ключевых слова, которые мы должны знать, когда пытаемся понять основы тематических моделей: документы, термины и темы .

Скрытое распределение Дирихле (LDA) - это метод обучения без присмотра, который обнаруживает различные темы, лежащие в основе набора документов, где каждый документ представляет собой набор слов или терминов. LDA предполагает, что любой документ является комбинацией одной или нескольких тем, и каждая тема связана с определенными терминами высокой вероятности.

Основной целью моделирования тем является поиск значимых тематически связанных терминов  ( «тем» ) в неструктурированных текстовых данных. В тематических моделях слова в ваших текстовых данных, которые часто встречаются вместе, группируются в разные «темы».

Полученный  список тем можно использовать в качестве конечного результата для задач поиска информации, совместной фильтрации или для оценки сходства документов среди других. Темы также могут быть очень полезны как дополнительные входные функции в вашем наборе данных для других задач моделирования (например, классификация, регрессия, кластеризация, обнаружение аномалий).

Для машинного обучения и построения тематических моделей я использую бесплатную подписку на сервис BigML.

Если вы этим заинтересуетесь, рекомендую сначала прочитать статью в блоге BigML.

Машинное обучение для анализа тем YMYL страниц

Я загрузил свой набор данных в BigML в качестве источника. Созданный в BigML был очищен от аномалий. Я обучил и оценил модель принятия решений.

Как вы помните из исследования "Как Google классифицирует YMYL сайты", для классификации сайтов по тематике Google извлекает контент интернет страницы и анализирует его при помощи соответствующих алгоритмов и нейронной сети.

Проанализировав извлечённый контент нейронная сеть присваивает интернет странице тематику. Затем из совокупности тематик, которые определены, присваивается основная тематика всему сайту. По этому медицинским сайтам может быть присвоена совершенно другая тематика, не связанная со здоровьем и лечением.

Учитывая это, я в BigML создал тематическую модель, основанную на текстовых полях моего набора данных - "Содержание Title", "Содержание Description", "Содержание Н1". Когда тематическая модель создана, можно отфильтровать и проверить ее, используя две визуализации, предоставляемые BigML.

В первом представлении вы сможете сразу увидеть все темы, представленные кружками, пропорционально значимости тем (чем больше диаметр кружка, тем выше значимость темы). Кроме того, темы отображаются в макете карты, который отображает отношения между ними, так что более близкие темы более тематически связаны.

Рис.1
Как использовать машинное обучение для анализа тем YMYL страниц
Карта тем YMYL страниц медицинской тематики. Самая значимая тема "Инструкции" имеет коммерческую направленность и относится к фармацевтике.
Как видно на первой визуализации по названием "Карта тем" (Рис.1) темы разделены на четыре кластера:
1. Инструкция (фармацевтика), цена, клиника.
2. Медицина, лечение, симптомы, коррекция.
3. Темы о косметологии и дерматологии.
4. Стоматология.

Самая значимая тема для набора данных - "Инструкции" (описание различных препаратов) в числе основных терминов содержит слово "купить". Сопутствующие ей темы - "Цена". А тема "Клиника" в числе основных терминов содержит слово "цена" и "отзыв".

Следовательно кластер тем №1 имеет ярко выраженную коммерческую тематику. Предполагаю, что нейронная сеть будет "рассуждать" следующим образом - страницы этого кластера созданы чтобы заработать, а не для того, чтобы полечить.

Кроме того, в теме "Клиника" мы видим связь терминов "отзыв" и "цена" - первое подтверждение того, что страницы с отзывами, скорее всего, не относятся к теме Здоровья как такового.

Однако лучший способ получить представление о ваших темах - взглянуть на вторую визуализацию BigML для тематических моделей: гистограмму.

Рис.2
BigML - тематическая модель


На этом графике вы можете просмотреть основные термины по темам. Каждый термин представлен полосой, длина которой обозначает важность термина в этой теме (т. е. вероятность термина).

Модель тем находит термины, которые с большей вероятностью встречаются вместе, и группирует их в разные темы. Этот вероятностный метод дает довольно точные группировки терминов, которые тесно связаны между собой.


Как видно на гистограмме (Рис.2), в моем наборе данных есть две темы об отзывах - "Отзывы фото" и "Отзывы пациентов". И как раз во второй теме есть третий по важности термин - "цена", а сама тема в модели расположена на гистограмме рядом с темами о цене. На мой взгляд, это еще одно подтверждение того, что слово "отзывы" может указывать нейронной сети на коммерческую (не направленную на здоровье и лечение) тематику таких страниц.

Я решил копнуть глубже и на основе тематической модели создал модель для темы "Отзывы пациентов".

Рис.3
BigML - построение модели


Используя машинное обучение я получил довольно интересный результат.

Многие YMYL страницы медицинской тематики занимают в поисковой выдаче позиции на галёрке (с двадцатой и ниже), если:
* Описание для поисковых систем содержит слово "пациентов";
* Title или заголовок Н1 содержит слово "отзывы".

Следовательно, основываясь исключительно на данных моей выборки (моего набора данных) и моего предыдущего исследования, рискну предположить:
* страницы об отзывах пациентов о медицинских товарах и услугах, скорее всего исключены нейронной сетью Google из тематики "Здоровье";
* страницы об отзывах пациентов могут попасть в результаты поисковой выдачи на позиции выше двадцатой только в двух случаях - контент на странице не содержит коммерческой составляющей (пользователю не предлагают что-то купить) и пользователь ищет именно отзывы.

Всё написанное выше исключительно моё мнение и может не совпадать с вашим.

Надеюсь на дальнейшее конструктивное обсуждение в комментариях к статье.

Если статья вам понравилась, не забудьте поделится ей с вашими друзьями и знакомыми.
Подробнее

Как Google классифицирует YMYL сайты

Классификация сайтов

Классификация YMYL сайтов

Из этой статьи вы узнаете, как Google классифицирует сайты, а также прочитаете результаты моего исследования, проведённого на основе ста запросов медицинской тематики. Вам станет понятно, почему у Google есть сайты-любимчики и почему они получают больше трафика независимо от занимаемой позиции.

YMYL – аббревиатура появившаяся в 2014 году в Руководстве Google для асессоров и расшифровывается как  «Ваши деньги или ваша жизнь». YMYL – типы страниц, которые могут потенциально повлиять на будущее счастье, здоровье, финансовую стабильность или безопасность человека.

К YMYL относятся сайты таких тематик: Новости и текущие события; Гражданское право, правительство и закон; Финансы; Покупки; Здоровье и безопасность; Группы людей; Прочие. Формально YMYL относятся страницы любой тематики, кроме тех случаев, когда это прямо указано в Рекомендациях для асессоров. Например, темы спорта, развлечений и повседневного образа жизни, как правило, не являются YMYL страницами.

Как Google классифицирует сайты?


Помните, в августе 2018 года было сильное обновление ядра алгоритма Google, которое получило название «Медицинский апдейт»? Почти в то же время, 10 августа 2018 года была подана заявка на патент «Вектор представительства веб-сайта для обучения результатов поиска и классификации сайта» (номер публикации патента WO/2020/033805). Думаете это совпадение? Однозначно Google опробовал эту технологию в августе 2018 года и одновременно начал процесс получения патента на неё.

В этом патенте сказано, что обученная нейронная сеть классифицирует сайты:
  • * По показателю качества;
  • * По тематике;
  • * По уровню экспертизы;
  • * По авторитету.

Как Google классифицирует сайты по тематике?

Как следует из патента, Google создал домены знаний или как мы привыкли говорить, - отрасли знаний. Эти домены знаний включают в себя поддомены знаний. Google бот сканирует сайт, передаёт данные другим алгоритмам, в том числе алгоритму BERT. Они оценивают качество контента и релевантность области знаний. Затем нейронная сеть используя эти данные, а также ярлыки, присвоенные асессорами этому сайту или сайтам аналогам, определяет к какому поддомену знаний относится сайт или его страница.
[0004]  Способ может включать в себя генерирование каждого из векторов признаков с использованием нейронной сети, которая принимает в качестве входных данных контент, включённый в соответствующий веб-сайта.
По этой причине медицинский сайт в зависимости от его основного контента может быть классифицирован не как медицинский сайт, а как отзывик или сайт другого типа.

Как Google классифицирует сайты по качеству и авторитету?

Как рассчитывается показатель в патенте не сказано. Но там сказано о двух порогах качества – «Первый порог» и «Второй порог». Причём «Второй порог» выше первого.  По порогу качества сайты разделены на две основные категории – «Первые» и «Вторые». Но также выделяют «Третьи» или «Прочие» сайты – это те, что нейронная система не может с высокой долей уверенности отнести в состав первых двух категорий.

Первые сайты (не очень качественные по мнению Google) – это сайты, которые не превышают первый порог качества.

Вторые сайты (авторитетные сайты) – сайты, превышающие второй порог качества.
[0005]  Алгоритм может обнаруживать веб-сайты, которые с большей вероятностью реагируют на запросы в области знаний, например, более вероятно, являются авторитетными для области знаний. [0004]  Вторые веб-сайты могут быть определены как набор авторитетных источников данных.
Возникает резонный вопрос, а что же находится между первым и вторым порогом? Логично предположить, что именно там находятся прочие сайты. Другими словами, это сайты, качество которых хорошее, но они ещё не являются доверенными сайтами для Google.

Нейронная сеть формирует общие признаки (наборы отличий) для «Первых» и «Вторых» сайтов. Получая составное представление (обобщённую информацию от других алгоритмов) о сайте нейронная сеть используя коэффициенты сходства оценивает сайт по качеству как «Первый» или «Второй». Если этого сделать нельзя, сайт оценивается как «Прочие».

Как Google классифицирует сайты по экспертизе?


Для классификации веб-сайтов нейронная сеть использует категории сайтов в области знаний по уровню экспертизы.

Наиболее наглядным примером будет цитата из этого патента:

[0013] Классификации веб-сайтов могут включать в себя первую категорию веб-сайтов, созданных экспертами в области знаний, например, врачи, вторую категорию веб-сайтов, созданных учениками в области знаний, например, студенты-медики, и третью категорию веб-сайтов, созданных специалистами или непрофессионалами в области знаний. Используя составное представление, основанное на существующих классификациях веб-сайтов, классификация веб-сайтов может использовать характеристики, извлечённые из существующих веб-сайтов.

Если по-простому, Google делит сайты медицинской тематики по уровню экспертизы на три категории:
  • * сайты врачей (клиник);
  • * сайты людей с достаточным уровнем знаний в медицине, но не врачей;
  • * разного рода блоги, форумы, где любой желающий может дать свой совет по заболеванию, а также сайты, которые нельзя по уровню экспертизы отнести в первые две категории.

Исследование: как Google классифицирует YMYL сайты


Методология:
  • * При помощи SEMrush для анализа я собрал сто запросов медицинской тематики.
  • * Используя Netpeak Checker по каждому из этих ста запросов собраны первые тридцать результатов поисковой выдачи по Google.ru.
  • * Источники данных: Netpeak Checker (показатели OnPage), API Moz (DA, PA), Serpstat (Трафик), Majestic (TF, CF).
  • * Подготовка данных – из набора данных удалены строки, к которых отсутствовали данные о размере контента.
  • * Традиционно для интеллектуального анализа данных был использован бесплатный фреймворк Orange.
  • * Кластеризация – все данные были кластеризованы при помощи алгоритма k-Means на четыре кластера, но об этом чуть позже.

 Процесс исследования классификации сайтов

В процессе сбора данных я получил от Serpstat показатели трафика по Украине и по России. Я добавил в набор данных дополнительный столбец под названием «Общий трафик».

Полученные данные были загружены в Orange. Используя виджет «Line Plot» стало понятно, что для самой лучшей визуализации кластеров нужно использовать показатель «Общий трафик».

Изначально я планировал кластеризовать данные на три кластера, но полученные результаты не отражали реальное положение дел. В настройках виджета «k-Means» Orange количество кластеров было изменено до четырёх. И именно такая настройка кластеризации данных, на мой взгляд, наиболее близка к тому, о чём идёт речь в патенте Google (см. Рис.1).

Рис.1
Как Google классифицирует YMYL сайты
Кластер С4 (оранжевый) - страницы Википеии и YouTube. Кластер С1 (голубой) - преимущественно Яндекс. Кластер С3 - новостники, отзывики и соцсети. Кластер С2 (красный) - сайты в качестве которых Google сомневается.

Как видно на Рис.1 больше всего трафика по данным Serpstat получают YMYL страницы из кластера С4, который почти на 100% состоит из страниц Wikipedia и YouTube. Думаю, это недалеко от истины, поскольку Wikipedia это давний доверенный ресурс для Google, а YouTube – это его сервис и один из самых посещаемых сайтов в мире.

Вторым по количеству трафика является кластер С1, состоящий преимущественно из страниц сервисов Яндекса.

Причём, страницы из кластеров С1 и С4 получают большинство трафика независимо от того, на какой странице выдачи они находятся.

Из этого можно сделать вывод, что сайты из кластеров С1 и С4, скорее всего, оценены нейронной сетью Google как авторитетные и отнесены в категорию «Вторые сайты» (превышают второй порог качества).

Кластер С2 (красный) – это сайты ниже первого порога качества. Другими словами, это те сайты, в качестве которых Google сомневается.

И есть кластер С3 (зелёный), который, как видно на Рис.1, выше первого порога качества, но ещё не дотягивает до второго. Вероятнее всего, по уровню качества нейронная сеть отнесёт их к «Прочим сайтам». Кластер С3 преимущественно состоит из страниц всеми любимой «Комсомольской правды», других известных новостников, facebook, Pinterest, ответов Mail.ru и тому подобное.

Рис.2
Корреляция Moz PA и качества сайтов
Корреляция Moz PA и качества сайтов.
На Рис.2 видно, что страницы с высоким показателем PA Moz получают больше трафика независимо от позиции.

Из своего опыта могу сказать, что сайты из кластера С2 (красный) часто грешат тем, что публикуют не точную, не полную, искаженную информацию, либо их контент создан не в профессиональном стиле.

Поэтому, на мой взгляд, Google чаще показывает на "Позиции ноль" (в выделенных описаниях) страницы сайтов, которым поисковик больше доверяет (кластеры С1, С4, С3).
Истинность информации по общественно значимым темам, в том числе касающейся гражданской сферы, медицины, науки и истории, должна быть широко признана в профессиональных кругах. Это правило действует только в отношении контента, который может появляться в выделенных описаниях. 
На этом рисунке также видно, что кластеры по уровню качества располагаются в зависимости от показателя PA Moz.

Учитывая это, показатели DA и PA Moz вебмастера могут использовать как ориентир уровня «Авторитета». Google традиционно отрицает, что он использует данные DA и PA Moz, но видимо у Google есть внутренние и очень близкие по методике расчёта метрики, в том числе Page Rank.

Еще примечательная особенность «Первых» сайтов (красный кластер С2) – на их страницах начиная с ТОП 20 очень много исходящих dofollow ссылок на другие сайты (Рис.3).

Рис.3
Количество исходящих dofollow в зависимости от позиции


Обратите внимание на то, что время ответа сервера для «Первых» сайтов (красный кластер С2) является важным фактором для определения качества, поскольку у них эти показатели во многих случаях значительно выше, чем у других кластеров (Рис.4).

Рис.4
Время ответа сервера в зависимости от позиции
У многих страниц из кластера С2 (красный) высокое время ответа сервера. Размер элементов - это время ответа сервера.



Выводы:

1. Google делит сайты по качеству на три категории. У Google есть перечень сайтов, которых он считает авторитетными и на основе данных которых обучал свою нейронную сеть.
2. Для оценки авторитета сайта или страницы лучше всего использовать метрики DA и PA Moz.
3. Страницы кластеров С1, С3, С4 имеют больше траста по Majestic, чем страницы «Первых» сайтов (кластер С2).
4. Для того чтобы прорваться из «Первых» (не очень качественных) сайтов в состав хотя бы «Прочих» сайтов нужно, чтобы страницы в основном соответствовали такому набору показателей:
  • * DA домена>77, PA страницы до 45, Trust Flow домена от 41 до 71;
  • * Хост не содержит www и Citation Flow домена до 41, внешних dofollow ссылок на странице не больше 16;
  • * URL не содержит «http», заголовок Н1 не содержит слово «отзывы».
На Рис.5 вы увидите набор отличий по кластеру С3 (Прочие сайты, кластер зеленого цвета).

Рис.5
Набор отличий по кластеру С3

В заключение, хочу привести цитату Дэвида Файнбера главы Google Health - "Я считаю, что Google уже является компанией здравоохранения".

Business Insider 18 сентября 2019 подтвердил, что Google завершил поглощение DeepMind через которое еще в 2016 году незаконно получил широкий доступ к данным 1,6 миллиона пациентов. Эти и другие медицинские базы данных легли в основу обучения нейронной сети для классификации сайтов и других алгоритмов Google.

Подписывайтесь на канал и добавляйте блог в закладки!
Подробнее

Февральское обновление алгоритма Google

Обновление алгоритма Google в феврале 2020г.

С 8 по 12 февраля 2020 года SEO-шники наблюдали повышенную волатильность результатов поисковой выдачи.

Google пока никак не комментирует сильное обновление алгоритма.

Ведущие SEO-эксперты гадают, что произошло, но нормальный анализ никто пока не опубликовал. Давайте попробуем найти какие-то закономерности.

Я проанализировал на существенность до и после апдейта изменения в органическом трафике сайтов, к статистике которых у меня есть доступ. Никакой закономерности выявить не удалось. Следовательно, всё очень индивидуально в этом случае.

Поэтому, я пошел традиционным для себя путем – спарсил данные SEMrush Sensor.

По данным SEMrush Sensor во время февральского апдейта Google были затронуты абсолютно все тематики, кроме "Книги и литература". SEMrush Sensor указывает на то, что больше всего в этом обновлении Google уделил внимание таким тематикам  – Недвижимость, Животные, Здоровье, Путешествие, Наука. Все эти тематики относятся к категории YMYL сайтов.

Причём, уже традиционно, результаты мобильной выдачи перетрясли сильнее, чем результаты десктопной.
Февральское обновление Google 2020.
Февральское обновление Google 2020. Волатильность результатов поисковой выдачи в зависимости от типа устройств.

Февральское обновление алгоритма  –  закономерности


Для поиска каких-то совпадений, закономерностей, статистически значимых различий я использовал:

  • Данные SEMrush Sensor (спарсил при помощи Import.io).
  • Данные API: Moz, Majestic, Google Page Speed.
  • Screamingfrog  –  для получения данных OnPage и информации по API указанных выше инструментов.
  • Данные Ahrefs (результаты инструмента Batch-analysis).
  • Orange  –  для интеллектуального анализа данных (Data Mining).

Как вы уже поняли, я собрал показатели по "Взлетам" (Winners) и "Падениям" (Losers) в один набор данных и проанализировал их в Orange.

Наверное не зря многие эксперты не поймут, что именно произошло, потому что статистически значимых отличий между этими двумя выборками сайтов очень мало, но они есть.

У сайтов, которые по данным SEMrush Sensor отнесены в группу Winners, длина Description больше, чем у тех, кто попал в группу Losers. И эта разница, к моему удивлению, статистически значима (не случайна). У "Победителей" длина Description в интервале от 39 до 271 символа.

Разница в размере страницы по "Взлетам" (Winners) и "Падениям" (Losers) тоже оказалась статистически значимой. Средний размер страницы в байтах (Size) у "Победителей" 119081, а у "Неудачников" – 195577 байт.

Количество внешних исходящих ссылок (External Outlinks) у "Победителей" и "Неудачников" имеет статистически значимое различие. У "Победителей" в среднем 18 исходящих (не внутренних) ссылок, а у "Неудачников" в среднем – 34 (почти в два раза больше).

Разница в показателе "Время ответа сервера" (Response Time) тоже статистически значима. Причем у "Неудачников" этот показатель лучше, чем у "Победителей".

Ещё обратил внимание на такие показатели как JavaScript Size и Total Page Size из Google Page Speed API. Несмотря на то, что разница в этих показателях между "Победителями" и "Неудачниками" не статистически значима, она очень близка к таковой.

У большой группы "Победителей" размер JavaScript и Total Page Size намного больше, чем у большинства "Неудачников".
Google отдает предпочтение сайтам, использующим JavaScript

Это только моё предположение, но, возможно, научившись читать JavaScript Google в февральском обновлении алгоритма улучшил показатели сайтов у которых JavaScript составляет большую часть объема сайта.


Ещё одно интересное наблюдение.
Структура ссылочного по данным Ahrefs
Структура ссылочного по данным Ahrefs

Если сравнить структуру ссылочного "Победителей" и "Неудачников" бросается в глаза такое отличие. У "Неудачников" есть значительное смещение в сторону бэклинков-редиректов.

Возможно в февральском обновлении Google забрал весь вес, который ранее получили акцепторы-неудачники от всякого рода склеек с дропами.

Хочу ещё раз подчеркнуть, что всё написанное – мои предположения и явных подтверждений тех или иных гипотез я не выявил.

Рекомендую прочитать:
Машинное обучение для анализа тем YMYL страниц
Как Google классифицирует YMYL сайты


P.S. В отношении январского обновления ядра Google я не делал подобный анализ, но Джон Мюллер подтвердил, что это обновление затронуло, как минимум, алгоритм Google Discover. Многие вебмастера заметили в январе 2020 года сильное снижение трафика по каналу Google Discover.
Подробнее