388x60 Ads

Майское обновление алгоритма Google 2020 года

Майское обновление алгоритма Google 2020 года

4 мая 2020 года в 21:00 Danny Sullivan в Твиттере сообщил о начале широкого обновления ядра алгоритма Google.

Он указал, что они называют это майским обновлением алгоритма Google 2020 года.

Через два часа после первого твита Danny Sullivan опубликовал одно уточнение:
Как обычно, для этих обновлений, для полного развертывания требуется около одной-двух недель.

Майское обновление алгоритма Google


По моим наблюдениям, развертывание широкого обновления ядра может закончится чуть раньше, через десять дней после его начала.

Обязательно прочитайте об особенностях широких обновлений ядра Google в моих публикациях. Там очень много интересного.

Традиционно, видимо чтобы мы с вами не задавали много вопросов, Danny Sullivan рекомендует нам в очередной раз перечитать официальную публикацию "Что вебмастера должны знать об основных обновлениях Google".

Хочу сказать, что в этой публикации действительно много полезной информации о широких обновлениях ядра Google.

Первые рекомендации для вебмастеров:


1) Следите за обсуждением в этих твитах. Как показывает практика, со временем Danny Sullivan опубликует там чуть больше ценных деталей.

2) Следите за позициями и трафиком на протяжении обновления. Определите список страниц, у которых больше всего в ту или иную сторону в период обновления менялись эти показатели.

3) Подождите минимум десять дней после официального завершения майского обновления алгоритма Google 2020 года и только тогда начинайте анализировать, что могло повлиять и на какие страницы повлияло. Для этого откройте Google Analytics, перейдите в "Источник/Канал", выбираем Google organic.

Можно сравнить десять дней до начала обновления и десять дней после окончания обновления. Дополнительный параметр - "Страница входа". В том случае, если у трафика есть сезонность (например в выходные всегда ниже), рекомендую выбрать более продолжительные, но сопоставимые по времени периоды до и после апдейта. Например, сравните две полные календарные недели до начала обновления ядра и две после него.

Перейдите в Google Search Console. Если вы видите падение CTR без соответствующего падения показов, проверьте последние изменения на сайте, особенно изменения, которые могут повлиять на то, что отображается в результатах поиска (включая ваши теги TITLE и описания META). Однако в этом случае разумно предположить, что вы наблюдаете общее падение спроса, например из-за глобальной пандемии коронавируса COVID-19.

Майское обновление алгоритма Google - первые особенности

По состоянию на 16 часов (по Киеву) 5 мая 2020 года я, как и Marie Haynes никаких особенностей в своей клиентской базе не выявил.

Единственный момент, на который я обратил внимание, что у некоторых клиентов наблюдаются аномальные изменения в трафике с мобильных устройств.

Интересное наблюдение я получил от зарубежных любителей "чёрной шляпы":
Еще одна вещь, которую я заметил, - почти все сайты, которые занимают 1-5 позиций по ключевым словам в этой нише, сейчас не содержат рекламы или очень мало рекламы. По сути, мой веб-сайт — единственный, на котором размещено больше рекламы, что немного беспокоит. В основном все другие сайты, которые имели много рекламы, полностью опустились из первой десятки ... Это обновление может относиться как к рекламе, так и к времени загрузки страницы, поскольку, очевидно, что рекламные материалы сильно влияют на время загрузки. 
Одновременно с обновлением алгоритма поиска произошло широкое обновление браузера Chrome, которое нацелено на блокирование тяжелой медийной рекламы, особенно той, которая связана с возможным майнингом и нагрузкой ресурсов компьютеров.

Подробнее об этом сообщили 14 мая в Блоге Chromium. Там же и указаны параметры рекламы, которая будет блокироваться.

Насколько я знаю, официальные публикации в таких блогах готовятся минимум неделю.
Вот и получается, что запуск обновления Chrome был частью всех этих майских обновлений.

Так что подозрения по поводу возможного понижения сайта в рейтинге из-за обилия или типа рекламы вполне оправданы.

Так же есть хоть и косвенное, но зато официальное подтверждение, что обновление алгоритма включает в себя изменения, связанные со скоростью загрузки сайтов.

В период майского обновления алгоритма в Google Search Console в разделе "Скорость загрузки" появилось сообщение:
В связи с предстоящими изменениями в отчете проверка заданий временно отключена.
В справке Google по этому поводу сказано:
Если отчет содержит сообщение о том, что проверка временно невозможна, значит мы обновляем критерии, относящиеся к некоторым проблемам в этом отчете.
С началом майского апдейта Google, а именно 5 мая 2020 года, в блоге Chromium была опубликована статья о запуске новой программы под названием Web Vitals, которая определяет важные показатели для здорового сайта.

Три основные индикатора:

LCP (Largest Contentful Paint)  измеряет воспринимаемую скорость загрузки и отмечает точку на временной шкале загрузки страницы, когда основное содержимое страницы, вероятно, загружено. Оптимизировать>>>
FID (First Input Delay)  измеряет скорость отклика и количественно определяет опыт, который испытывают пользователи, когда пытаются впервые взаимодействовать со страницей. Оптимизировать>>>
CLS (Cumulative Layout Shift)  измеряет визуальную стабильность и количественно определяет величину неожиданного сдвига шаблона видимого содержимого страницы. Оптимизировать>>>

Все эти метрики созданы для измерения качества пользовательского опыта.

Похоже, что майское обновление ядра Google затронуло трафик из Discover. На Справочном форуме Google появляется всё больше тем по этому поводу. Вот пример.

В официальной публикации Google, посвящённой апдейтам (см. выше), сказано:
Обновления ядра также могут повлиять на Google Discover.
То, что обновление затронуло Google Discover 6 мая 2020 года официально подтвердил Danny Sullivan.

Джон Мюллер в феврале 2020 года подтвердил , что в процессе выкатки январсокго обновления 2020 года так же был затронут трафик с Google Discover. Похоже, на то, что это регулярная практика при широком обновлении алгоритма.

11 мая 2020 года Михаил Шакин специально для этой статьи предоставил такой комментарий:
Я считаю, что выводы можно будет делать через 3-4 недели после начала апдейта, когда накопится необходимая информация. Бывает, что в некоторых тематиках обновления частично откатывают. На данный момент могу сказать по продвигаемым мной англоязычным сайтам, что в тематике домашних животных наблюдаю наибольшие изменения как в минус, так и в плюс. Транспорт, юридическая и музыкальная тематики, мода и красота, технологии  практически без изменений.
Маркус Тобер из Search Metrics прокомментировал ситацию с майским обновлением Google таким образом:
Это обновление кажется более широким, чем предыдущие обновления. Из моего анализа, проведенного всего за несколько часов, кажется, что Google снова работал над факторами контента в сочетании с факторами бренда (возможно, включая CTR / данные пользователя). 
Matt Smith заметил такую особенность, что многие форумы потеряли в видимости. Анализируя этот аспект Glenn Gabe подметил такую деталь — рейтинг потеряли темы форумов 2012 , 2011 годов и более раннее.

В случае с форумами причиной, скорее всего, является устаревание информации (потеря актуальности и интереса пользователей). Вот, что Google пишет по этому поводу:
В рамках наших постоянных усилий, направленных на то, чтобы Поиск работал лучше для вас, новое обновление алгоритма улучшает понимание нашими системами того, какая информация остается полезной с течением времени, а какая быстрее устаревает

Роль EAT и асессоров при обновлении алгоритма Google


В марте 2020 года Google отвечая на вопрос, является ли EAT фактором ранжирования, сказал:
Наши автоматизированные системы используют множество различных сигналов для ранжирования отличного контента в соответствии с критериями EAT.

Таким образом, ЕАТ  это не самостоятельный фактор ранжирования, а набор критериев, для оценки каждого из которых Google использует микро алгоритмы в рамках единой модели оценки.

Вы можете спросить, причём тут какие-то модели и обновление алгоритма Google.

6 мая 2020 года отвечая в Твиттере на один из вопросов о майском обновлении алгоритма Danny Sullivan сказал:
Основные вещи, которые мы ищем для оценки отличного контента, не меняются. Мы просто могли бы улучшить способы моделирования поиска этого контента.
Как известно, Google использует искусственный интеллект и определённую модель для оценки качества сайтов.

Я об этом писал в своём исследовании - "Как Google классифицирует YMYL сайты".

В той же таки публикации Google о специфике обновлений сказано:
...улучшения, которые мы вносим в Поиск, не совершенны. Вот почему мы продолжаем обновлять. Мы тестируем любое широкое обновление ядра, прежде чем его выпустить, включая сбор отзывов от вышеупомянутых оценщиков качества поиска, чтобы выяснить, насколько полезны наши взвешивания сигналов.
Как известно из патентов Google каждому сигналу ранжирования присвоен определённый весовой коэффициент. Судя по всему, поучив и проанализировав отчёты оценщиков, Google эти веса для модели искусственного интеллекта периодически пересматривает.

Как эти веса поменялись и в отношении каких сигналов определить невозможно, но после окончания апдейта попробуем выявить какие-то закономерности.

Анализ майского обновления Google

Традиционно для анализа обновлений алгоритма Google я использую данные SEMrush Sensor.

Судя по данным SEMrush Sensor пик обновления алгоритма Google был 6 мая 2020 года.

Рис.1
SEMrush Sensor - обновление алгоритма Google

Senior Marketing Manager SEMrush Евгений Середа, так прокомментировал эту ситуацию в  сообществе Сообщество Google для вебмастеров Facebook:
Как видно на графике, 6 мая было самое сильное потрясение. Судя по постам в Facebook за сегодня (8 мая 2020 - прим.авт.) и по сенсору, изменения ещё есть. Такие апдейты имеют очень высокое пиковое значение (как на фото), резкий спад в последующие дни и небольшую встряску после. Дело в том, что или сам алгоритм поднастраивается или его поднастраивают. 2 недели, о которых ты пишешь, возможно как раз попадают в этот отрезок времени
Сильно перетрясло все тематики сайтов. По этому победители и проигравшие есть во всех нишах.

Если говорить о первой пятёрке тематик, в которой сильно пострадали сайты, то к ним в этот раз относятся:
* Online Communities -5.8
* Games -5.2
* Internet & Telecom -4.9
* Pets & Animals -4.9
* Arts & Entertainment -4.3

Судя по этим тематикам, в этот раз фокус обновления алгоритма Google не нацелен преимущественно на YMYL - сайты.

Косвенно это подтверждают предварительные результаты исследования Лили Рэй, опубликованные 8 мая 2020 года:
Базовое обновление в мае 2020 года, по-видимому, оказало непропорциональное влияние на YMYL-сайты.
Она проанализировала 550 доменов по индексу видимости Sistrix U.S.

И если в предыдущих подобных обновлениях трясло в основном мобильную выдачу, то в этот раз изменения были одинаковыми для десктопной и мобильной выдачи.

8 мая 2020 года редактор блога SEMrush Melissa Fach опубликовала статью "Обновление Google от мая 2020 года".

С её слов, майское обноление алгоритма Google больее сильное, чем январское обновление 2020 года.
...наиболее подверженными влиянию категориями являются Путешествия, Недвижимость, Здоровье, Животные и животные, Люди и общество. Мы также заметили, что многие крупные домены сильно пострадали. Около половины значительных изменений рейтинга в США происходит на сайтах с трафиком, превышающим 1 миллион посетителей в месяц.
— Melissa Fach
Все эти категории так или иначе связаны с глобальной пандемией, карантином. Google неоднократно сообщал о небывалом росте популярности запроса "Covid-19" и, как следствие, повление огромного количества связанного с этой темой контента. Именно по этому, по данным SEMrush категория "Новости" в числе основных победителей.

Моя гипотеза состоит в том, что в майском обновлении алгоритма Google в какой-то степени происходит перераспределение объемов трафика, которые ранее получали сайты-миллионники, на мение популярные сайты.

Моя выборка по данным SEMrush Sensor на пиковую дату апдейта (6 мая 2020 года) изначально составляла 200 доменов (100 "Победителей" и 100 "Проигравших"). Я отбирал домены из мобильной версии по локации США.

Из них 3,5% (семь доменов) не отдавали ответ 200. Это на уровне статистической ошибки, но, на всякий случай, проверьте техническую сторону работы своих сайтов, особенно редиректы, настройку протоколов и метатегов.

После окончательной очистки и форматирования данных в моей выборке осталось 176 доменов (86 "Проигравших" и 90 "Победители").

Первое, что бросается в глаза – это два пиковых показателя: Total backlink Ahrefs (слева на Рис.2) и External Backlinks  –  Majestic (справа на Рис.2).

Рис.2Майское обновление Google - обновили Пингвин

Я специально на Рис.2 добавил увеличенное изображение этих показателей. Красная линия – это показатель "Победителей", а синяя – соответственно "Проигравших" сайтов.

Напоминаю значение этих показателей:
* Total backlink Ahrefs: это количество внешних обратных ссылок, найденных на ссылающихся страницах, которые ссылаются на цель.
* External Backlinks  –  Majestic: это количество внешних обратных ссылок на целевой URL (режим: Host) в соответствии с Majestic.

Мы видим, что оба показателя – это количество обратных ссылок и в обоих метриках значения показателя "Обратные ссылки" у "Проигравших" сайтов значительно превышает количество обратных ссылок у "Победителей".

В числе основных неудачников в этот раз попал сам LinkedIn. Как вы помните, Seroundtable 6 мая 2020 сообщил о том, что Google исключил из индекса LinkedIn.

Я сначала подумал, что аномальное значение беклинков LinkedIn могло исказить значения на указанном выше графике (Рис.2), но даже после временного исключения LinkedIn из набора данных, показатели пиковых значений остались прежними.

Поэтому, можно предположить, что майское обновление ядра алгоритма Google, в том числе, было нацелено на ссылочный спам. Возможно существенно обновили алгоритм Пингвин.

Обратные ссылки учитываются в расчёте одного из самых глаавных факторов ранжирования Google – Page Rank, который определяет важность страницы. В одном из интервью Джон Мюллер сказал, что с течением времени контент может устаревать и ссылки, которые в нём находятся теряют вес.

Следовательно, с уменьшением релевантности страницы-донора, уменьшается влияние обратных ссылок на ваши целевые страницы, что может привести к падению позиций, а затем и трафика.

Вот первая тройка показателей, по которым между «Победителями» и «Проигравшими» сайтами есть статистически значимые (не случайные) отличия. У сайтов-победителей из моей выборки значения этих показателей в полтора два раза ниже, чем у «Проигравших». Поэтому для ориентира привожу средние значения только для сайтов-победителей.

1. «Images – On-Page: URL» – количество изображений, найденных в тегах <img> на целевой странице. Среднее значение для «Победителей» – 28.
2. «Words – On-Page: URL» – количество слов в разделе <body> целевой страницы. Среднее значение для «Победителей» – 999.
3. «Content Size – On-Page: URL» – количество символов (включая пробелы) в разделе <body> документа, исключая теги HTML. Проще говоря, размер текста на странице, включая пробелы. Среднее значение для «Победителей» – 6171.

Еще статистически значимые отличия есть по параметру «Text/HTML Ratio – On-Page: URL» – это соотношение текстового содержимого (параметр «Размер содержимого») ко всему содержимому (параметр «Размер HTML») в целевом объекте.  У сайтов-победителей это значение в среднем 0,079, а для «Проигравших» соответственно – 0,10 При этом, в группе «Проигравших» большое количество сайтов с соотношением от 0,001 до 0,079.

Рис.3

Метрики влияния при обновлении Google

Как видно на Рис.3, показатели «External Backlinks  –  Majestic»,  «Images – On-Page: URL», «Words – On-Page: URL», «Text/HTML Ratio – On-Page: URL» притягивают к себе в основном сайты-неудачники. Возможно, эти показатели каким-то образом повлияли на определение рейтинга сайтов, которые потеряли позиции и трафик в течение майского обновления алгоритма Google.

По поводу количества слов (символов) на странице, есть такие мысли. Возможно, после запуска Google BERT стала ещё более важной суть написанного, а не количество слов или символов в тексте.

Наверное, хочется хоть в общих чертах понять общие признаки сайтов-победителей.

Используя машинное обучение на базе этого набора данных построим модель в виде дерева решений.

Во всех "ветках" дерева решений предиктором выступает параметр  «Words – On-Page: URL» (количество слов). Это позволяет предположить, что при обновлении одну из решающих ролей сыграли сигналы ранжирования, определяющее качество контента, а не его количество. За качество контента у Google отвечает алгоритм "Панда", а данные он скорее всего получает, в том числе, от Google Bert.

Рис.4
Google may update - Winners

С уровнем уверенности 83% можно сказать, что сайт-победитель имеет такие общие основные параметры:
* Количество слов на странице меньше 600.
* Количество изображений на странице меньше 23.
* Ahrefs Domain Rating больше 44,5.

Это возможно совпадение, но один из пользователей форума BHW поделился наблюдениями, соответствующими моим результатам:
На одном из моих веб-сайтов, который сильно пострадал, было много спамных ключевых слов, а количество контента длиной более 800 слов. Мой другой веб-сайт, контент на котором меньше 500 слов, получил небольшое увеличение, никакого снижения. У моих конкурентов в среднем около 500-600 слов, и они занимают первое место.
Напоминаю, что выборка не большая и содержит только демены, указанные в SEMrush Sensor по состоянию на 6 мая 2020 года, потому эти результаты могут отличаться от выводов других экспертов.

Основные выводы


1) Это обновление не нацелено на E-A-T.
2) Обновление ядра затронуло Google Discover. Похоже, это стало "доброй" традицией.
3) Google внедрил и протестировал новые метрики – LCP, FID и CLS. Как сказал мне по секрету один из инженеров, скоро это будет критически важно для многих сайтов. Возможно LCP, FID и CLS скоро станут очень важными сигналами ранжирования, если уже таковыми не стали.
4) Обновлены основные алгоритмы (Penguin, Panda, BERT).
5) Взвешивание сигналов ранжирования, скорее всего, было изменено в соответствии с новыми качественными данными оценщиков. Это приводит а автоматическому пересчёту рейтинга страниц и обратных ссылок.
6) Произошло широкое обновление браузера Chrome, направленное на блокирование определённого типа рекламы. Те сайты, на которых были подобные рекламные блоки, могли потерять в рейтинге.
7) В процессе анализа данных SEMrush, а так же тех сайтов, которые меня попросили проверить, было выявлено много технических огрехов. Некоторые сайты имели в индексе полные дубли, некоторые в период обновления меняли домен и не все правильно настроили, у некоторых сайтов был закрыт от индексации контент. Так что иногда основная причина не в обновлении алгоритма.

Обратите особое внимание на количество и качество обратных ссылок. Как показали результаты исследования, это является одной из основных причин снижения позиций и трафика.

Еще одна цель этого обновления – качество контента. Часть его устаревает (как в описанном выше случае с форумами), а это означает потерю релевантности.

Так что много пострадавших сайтов, вероятно, попали под воздействие алгоритма Пингвин или Панда.

Что нам нужно сделать?

1) Проверьте качество ваших обратных ссылок.
2) Обновите контент на страницах, которые затронуты.
3) Удалите тонкий контент или добавьте новый полезный контент на эти страницы.
4) Если вы видите падение CTR без соответствующего падения показа, просмотрите последние изменения на сайте, особенно те, которые могут повлиять на то, что отображается в результатах поиска (включая ваши теги TITLE и описания META). Однако в этом случае разумно предположить, что мы наблюдаем общее падение спроса.
5) Тщательно проверьте возможные технические проблемы вашего сайта.
6) Подумайте от какой рекламы вы можете отказаться.

Подробнее

Лучшие сериалы онлайн по мнению зрителей

Лучшие сериалы онлайн

Несколько лет назад я опубликовал рекомендации по раскрутке онлайн кинотеатра.

Я сам смотрю сериалы онлайн, в основном это британские сериалы, а так же американские. Предпочитаю такие жанры: детективный сериал, мистический сериал, комедийный сериал.

Мне стало интересно какие лучшие сериалы по мнению зрителей. Если вбить запрос "лучшие сериалы" или "топ сериалов" можно прочитать разные рейтинги фильмов за разные годы.

Но эта статья для вебмастеров и в ней я опубликую результаты исследования, основанного на реальных отзывах зрителей крупного онлайн кинотеатра с пиратским (незаконным) контентом.

Это поможет вам лучше понять, какие сериалы, какого жанра и из какой страны заливать на свой сайт в первую очередь.

Исследование: лучшие сериалы онлайн по мнению зрителей

Информация об онлайн кинотеатре, чьи данные я использовал в своем исследовании.

Суммарный  трафик этого кинотеатра по данным rank2traffic.com составляет 53,8 млн. сеансов в месяц (1,79 млн. сеансов в день или 19,6 млрд. сеансов в год). Этому домену почти 11 лет и он нормально себя чувствует несмотря на все обновления Google и проблемы с DMCA.

Вовлечение пользователей: продолжительность сеанса - 02:37 минут; 2,2 просмотра страниц за сеанс и показатель отказов - 49,5%.

Органический трафик - 26,6 процента посещений, в то время как 72,4% посещают напрямую, а 1,0% - по гиперссылке в Интернете (реферальный трафик).

Большинство сессий инициированы из Украины - 37,0% , Беларуси - 18,0%, Российской Федерации - 12,6%, Казахстана - 5,7%, Германии - 5,1%.

Сбор данных при помощи Netpeak Spider

Для анализа мне нужны были исключительно страницы с сериалами. Я изучил структуру этого кинотеатра и выяснил какой шаблон составления URL используется на страницах с сериалами.

Запускаем Netpeak Spider  (промокод на скидку в 10% - 869c893c) , открываем меню "Настройки", раздел "Правила". Ставим отметку напротив поля "Использовать правила сканирования" и вписываем что-то на подобии этого.


Затем в меню "Настройки" переходим раздел "Парсинг" и прописуете то, что намерены парсить.

Подробная инструкция как использовать Neatpeak для парсинга тут.

Совет №1: в параметрах оставьте только "Код ответа сервера" и в разделе параметров "Парсинг" - нужные вам данные. Это значительно упростит и ускорит парсинг данных.

Совет №2: если вы испытываете трудности с настройкой парсинга, напишите в Телеграмм Марку @mark_netpeaksoftware .

Итак, при помощи Netpeak Spider я спарсил только страницы сайта с самими сериалами. Их оказалось 24611.

Поскольку в процессе исследования я использовал машинное обучение (Machine Learning) и Data Mining я вынужден был провести предварительную обработку и очистку данных.

Я удалил строки, которые не содержали информации о режиссере. Удалил столбец "Рейтинг сериалов imdb" потому, что на сайте этого онлайн кинотеатра он не везде был указан.

Кроме этого, при помощи разных комбинаций с автозаменой в Excel в текстовых полях удалил все не нужное.

После очистки и форматирования данных моя выборка составила 18219 интернет страниц, содержащих информацию о сериалах или 74% от генеральной совокупности.

Проанализировав набор данных в AnswerMiner я выявил наличие умеренной корреляции (46%) между показателями трафика по данным Ahrefs и количеством комментариев.

Корреляция показателей набора данных

На графике это выглядит следующим образом.

Динамика трафика
При росте трафика по данным Ahrefs растёт и количество комментариев.

Корреляция это конечно не причинно-следственная связь, но в этом случае довольно сильный сигнал.

Учитывая это, я в качестве целевой переменной использовал "Количество комментариев", поскольку именно этот показатель при отсутствии доступа к реальной статике может указывать на интерес пользователей к сериалу.

Определяем интересные сериалы


Я загрузил полученный набор данных в свою любимую программу для интеллектуального анализа Orange и кластеризировал данные используя метод К-средних.

Распределение лучших сериалов по годам

Как видно на рисунке, по вертикали у нас количество комментариев, а по горизонтали - дата выхода сериала.

Список сериалов разделен на четыре кластера, но основные из них три:
С3 - мало популярные в наше время сериалы (период с 1914 по 1999 года).
С2 - сериалы со средней популярностью (период с 2000 по 2020 года).
С4 - это топ сериалов или лучшие сериалы последних лет.
Кластер С1 для нашего анализа особого интереса не представляет.

Как видно на графике, основной временной горизонт популярности - это период с 2000 по 2020 годы. 

Судя по нашим данным, пользователи мало интересуются сериалами, выпущенными до 2000 года.

При этом, самые популярные - это лучшие сериалы последних лет, выпущенные с 2012 по 2020 год.

Топ сериалов


Проанализировав топ сериалы моей выборки я был удивлён тем, что японские сериалы делят пальму первенства с сериалами США (по 7 топ сериалов из топ 20).

Японские популярные сериалы - это в основном аниме, фэнтези, приключения (популярные сериалы для подростков); американские сериалы - это детективы, ужасы, фэнтези; российские популярные сериалы из топ 20 последних лет - это в основном комедии.

ТОП20: лучшие сериалы последних лет - список

По данным моей выборки лучшие сериалы последних лет (топ 20 сериалов по количеству комментариев) это:

ТОП20: лучшие сериалы последних лет

Для удобства вывожу список топ 20 сериалов последних лет отсортированных в порядке убывания по количеству комментариев:

Сериал Наруто: Ураганные хроники/Naruto Shippuuden
Сериал Виолетта/Violetta
Сериал Блич/Bleach
Сериал Ван-Пис/One Piece
Сериал Универ. Новая общага  1 сезон
Сериал Сказка о хвосте феи/Fairy Tail  2 сезон
Сериал Сверхъестественное/Supernatural  9 сезон
Сериал Сказка о хвосте феи/Fairy Tail  1 сезон
Сериал Интерны  1 сезон
Сериал Игра престолов/Game of Thrones  6 сезон
Сериал Игра престолов/Game of Thrones  8 сезон
Сериал Дневники вампира/The Vampire Diaries  4 сезон
Сериал Игра престолов/Game of Thrones  3 сезон
Сериал Доктор Кто/Doctor Who  11 сезон
Сериал Гримм/Grimm  4 сезон
Сериал След
Сериал Наруто/Naruto
Сериал Тетрадь смерти /Death Note
Сериал Сверхъестественное/Supernatural  1 сезон
Сериал Воронины

Теперь давайте поговорим об отличительных деталях внутренней оптимизации страниц сериалов в зависимости от года выпуска. Так вот, количество символов в H1 для сериалов, выпущенных до 2000 года, меньше, чем для сериалов, выпущенных после 2000 года. В первом случае количество символов в среднем до 80, а во втором, соответственно, - 100.

Так что, заголовок Н1 у популярных сериалов - в пределах 100 символов. Как мы помним из разъяснений Google, заголовок Н1 существенно влияет на определение релевантности.



Вернемся к нашим кластерам и проверим при каких условиях сериал попадет в число популярных сериалов.

Ещё раз напомню, что нас интересуют в основном два кластера:
С2 - сериалы со средней популярностью (период с 2000 по 2020 года).
С4 - это топ сериалов или лучшие сериалы последних лет.

Я загрузил набор данных в бесплатный инструмент для машинного обучения BigML. Создал, обучил и оценил модель данных.  Точность модели 97,88% и это очень хороший результат.

С уровнем доверия 99,96% мы можем сказать, что для кластера С2 (средний уровень популярности) предиктором является длина описания к фильму. Согласно этому дереву решений, чтобы URL сериала попал в кластер С2, дата его выхода должна быть не ранее 2000 года и длина описания к фильму до 757 символов. Так что хорошее описание - это очень важный элемент оптимизации онлайн кинотеатра.

Что касается кластера С4 (лучшие сериалы последних лет по количеству комментариев), то с уровнем доверия 90,36% модель дает прогноз, что в этот список попадут URL страницы сериала с датой выхода позднее 1998 года и количеством символов к описанию фильма более 802.  Пишите подробные и интересные описания к фильмам, друзья мои.

Кроме того, используя BigML я провел анализ тем текстовых полей моего набора данных.


Как видим, самая вероятная тема "Отечественные" и основное условие, которое в её контексте употребляется - это слово "Россия" и различные русские имена.

Второй по вероятности является тема "Детективы", которая имеет производную тему "Криминальные". На рисунке вы видите основные условия для темы "Детективы".

И завершает тройку наиболее вероятных тем - тема "Приключения". Её основной контекст - это слова: "Приключения", "Комедия", "Анимационные", "Друзья".

Эти же данные можем представить в другом виде.

На этом рисунке вы можете просмотреть основные термины по темам. Каждый термин представлен полосой, длина которой обозначает важность термина в этой теме (т. е. вероятность термина).

Модель тем находит термины, которые с большей вероятностью встречаются вместе, и группирует их в разные темы, определяя контекст.

Почему так важен контекст, которому соответствует информация из Title, H1 и текстового контента на странице?

Потому что с запуском Google BERT естественность языка и контекст употребления слов на странице играют очень важную роль.

А теперь ещё несколько цитат от Google:
О релевантности информации в первую очередь говорит наличие на странице тех же ключевых слов, что и в поисковом запросе. Если они действительно есть, например в заголовках или основном тексте, значит информация с большей вероятностью соответствует введенному запросу. Чтобы повысить рейтинг своих страниц в рекомендациях [Google Discover - авт.], попробуйте не только публиковать на них интересные материалы, но и размещать изображения высокого качества (шириной как минимум 1200 пикселей). Мы уделяем особое внимание тому, важна ли пользователю актуальность контента. Если выполнить поиск по популярным на текущий момент ключевым словам, то наши специальные алгоритмы будут считать приоритетной актуальную информацию.
Это соотносится информацией об интересах пользователей, полученной в рамках этого исследования. Актуальной информацией для посетителя онлайн кинотеатра можно считать фильмы, дата выхода которых была не позднее восьми лет назад.

Актуальность контента онлайн кинотеатра


Другими словами, актуальность (свежесть) - это время жизни контента. Коридор актуальности для любителей сериалов - это 8 последних лет. Каждые 2 с половиной года уровень актуальности (интереса к сериалу) снижается примерно на 30 процентов.

И если провести анализ сериалов из кластера С4 в разрезе стран, то на США приходится 68% самых популярных сериалов, доля России в этом сегменте - 13%, Великобритания - 4% и прочие то же 4 процента.

Самые успешные режисеры сериалов кластера С4: Алан Тейлор, Дин Уайт, Дэвид Баррет, Дэвид Наттер, Дэвид Стрейтон, Марк Сендроуски, Маркос Сига, Норберто Барба, Тим Эндрю, Фёдор Торстенсен, Филип Сгриккиа, Эрнест Р. Дикерсон. Так что следите за их новыми работами.

Основные выводы

При создании онлайн кинотеатра или обновлении его контента рекомендую:
a) Количество символов в заголовке Н1 от ста;
b) Приоритет отдавайте сериалам максимум 8 летней давности из США, России и Великобритании, но не забывайте про Японию и набирающие популярность турецкие сериалы;
c) Минимальное количество  символов к описанию содержания популярного сериала - 802;
d) Размещайте изображения с высоким разрешением (шириной как минимум 1200 пикселей);
e) Обратите внимание на естественность языка и контекст использования слов между собой. Можно использовать для этого этот бесплатный инструмент.
Подробнее

Рекомендации Google для сайтов о здоровье в период коронавируса

Тема "Здоровье" — одна из самых высококонкурентных ниш для поискового продвижения сайтов.

Google несколько лет подряд проводил широкие обновления ядра своего алгоритма, которые, во многих случаях, негативно отразились на позициях и трафике сайтов медицинской тематики.

До марта 2020 года Google старался никак не комментировать такое отношение к сайтам о здоровье (медицинской тематики). В лучшем случае веб-мастер получал от сотрудников Google ответ — "это связано с релевантностью, читайте наши рекомендации для асессоров".

Недавно я провел' исследование "Как Google классифицирует YMYL сайты". Прочитайте его.
  

 Коронавирус — новости для веб-мастеров


Начиная со средины марта 2020 года Google начал прилагать усилия для улучшения отражения в результатах поиска информации о коронавирусе (COVID-19). Вот пример.

Google опубликовал несколько рекомендаций для веб-мастеров в период коронавируса.

Очень важно, Google организовал прямую поддержку национальных сайтов органов здравоохранения, который публикуют важную информацию о коронавирусе (COVID-19).

Если вы администрируете или занимаетесь поисковым продвижением таких сайтов, присоединяйтесь к группе технической поддержки Google.

Вы можете напрямую задать вопросы о своих сайтах и получить ответы. Заполните эту форму, чтобы запросить доступ к этой группе технической поддержки.

Рекомендации Google для сайтов о здоровье


Попробуйте выполнить поиск распространенных запросов о коронавирусе или любом другом заболевании в Google, чтобы увидеть, как отображается и ранжируется ваш сайт. Если сайт очень плохо ранжируется или Google не показывает его вообще, следуйте приведенным ниже советам, чтобы улучшить видимость в Поиске.

При этом нужно учитывать, что Google работает над раскрытием авторитетной информации и не может гарантировать рейтинг сайта в органических результатах поиска.

Убедитесь, что ваш сайт можно просматривать как в мобильных, так и в настольных (десктопных) устройствах: помните, что более половины всех поисковых запросов сегодня выполняются с мобильных устройств. Протестируйте страницы сайта с помощью инструмента «Мобильный тест».

Как вы ранжируетесь по запросам


Проверьте оценку самых популярных запросов в Google Trends. Посмотрите, какие другие связанные запросы показывают ваш сайт в Поиске, как сайт ранжируется по этим запросам и переходят ли пользователи на сайт:

1) Откройте отчет об эффективности в Google Search Console. Фильтр за последние 7 дней, чтобы сосредоточиться на темах, наиболее актуальных для последних поисков.
2) Если коронавирус (любое другое заболевание) является лишь небольшой частью вашего сайта, добавьте URL-фильтр, чтобы сосредоточиться на страницах, которые имеют отношение к этой теме.
3) Сортируйте таблицу по показам, чтобы определить релевантные запросы с высоким показом, но низким CTR. Попробуйте исправить эти страницы, чтобы иметь более точные заголовки, соответствующие их содержанию.
4) Поиск запросов с высоким рейтингом кликов, но низкой позицией: это важные страницы, которые ценят пользователи, но у Google могут возникнуть проблемы с сопоставлением пользовательских запросов. Попробуйте улучшить заголовки страниц и содержание, включив в них термины из общих пользовательских запросов.

Оптимизируйте контент заголовки и мета-теги


Добавьте соответствующий контент на свой сайт, который соответствует запросам пользователей, чтобы улучшить свой рейтинг. Если у вас уже есть этот контент, перепишите его, чтобы включить запросы пользователей в контент страницы, в заголовки страниц или заголовки разделов, чтобы помочь Google идентифицировать его.

Я бы для этих целей использовал текстовую аналитику Serpstat.
Кластеризация ключевых слов

У кого ещё нет подписки Serpstat, купите её нажав на баннер внизу.

Serpstat

Самое важное: при создании новой страницы нужно дать ей название, в котором четко кратко сформулировать её основную суть. Думайте о заголовке страницы как об итогах страницы. Это помогает как Google, так и пользователям интернет понять фокус страницы. Поместите видимый пользователем заголовок страницы в тег HTML <title>.

Убедитесь, что каждая страница на вашем сайте имеет мета-описание. Google будет использовать тег Description со страницы для создания сниппета, если думает, что Description дает пользователям более точное описание, чем из содержимого на странице.

Из этого следует, что мета-тег Description важен и заполнять его нужно для всех страниц сайта, но для формирования сниппета Google отдает приоритет контенту на странице.

Мета-тег Description должен, как правило, информировать и заинтересовать пользователей кратким релевантным описанием того, что представляет собой конкретная страница. Оно должно быть как информационный магнит, который убеждает пользователя, что страница именно то, что они ищут.

Нет ограничений на длину мета-описания, но сниппеты обрезаются по мере необходимости, как правило, для соответствия ширине устройства.

Дополнительно читайте:
Оптимизация заголовков и описаний


Найдите и изучите самые популярные запросы


Посетите Google Trends, чтобы узнать, какие термины, связанные с коронавирусом (любым другим заболеванием), ищут люди.

Найдите список стран и выберите свою, чтобы увидеть поисковые запросы, специфичные для вашей страны. Это позволит сосредоточиться на пользователях из вашего местоположения.

Измените выбор даты, чтобы изучить последние запросы за последнюю неделю или две.

Исследуйте связанные запросы, щелкнув соответствующие записи запросов или изменив условия поиска в верхней части страницы.
Если ввести название вируса с ошибкой (так как многие его слышат)  "Короновирус" с момента введения карантина в Украине в связи с пандемией вируса (COVID-19) видна четкая корреляция с поисковым запросом "Доставка".

Используйте разметку FAQ


Когда вы предоставляете структурированные данные на своем веб-сайте, Google может легче извлекать и представлять информацию в результатах поиска полезными способами. Правильно реализованные структурированные данные часто задаваемых вопросов (разметка FAQ) могут появляться в Google со специальным форматированием, чтобы помочь представить вашу информацию на видном месте.

После внесения изменений в разметку обязательно сообщите Google об изменениях.

Самый простой способ отправлять Google новые и измененные URL – в Search Console воспользуйтесь отчетом о файлах Sitemap: из него вы узнаете, какие файлы были обработаны и какие при этом возникли проблемы.

Google рекомендует сделать карту сайта доступной автоматически через ваш сервер. Это лучший способ сообщить Google о вашем новом и обновленном контенте.

Используемые источники:

Best practices for health websites.
Новые свойства для виртуальных, отложенных и отмененных событий.
Подробнее

Машинное обучение и анализ данных для чайников


Читатели моего блога знают, что я люблю разного рода исследования.

Особый интерес вызвали два исследования по YMYL страницах сайтов медицинской тематики.

Это связано с тем, что в процессе исследования я использовал машинное обучение при помощи бесплатного инструмента BigML.

Из текста заданных мне вопросов и комментариев я понял, что многие читатели хотели бы самостоятельно провести своё исследование, используя машинное обучение, но им:
а) не хватает базовых знаний о процессе машинного обучения;
б) сложно разобраться в том, как использовать BigML для этого.

Поэтому, эта статья - это, по сути, машинное обучение для чайников или введение в машинное обучение.

Я постараюсь максимально просто объяснить на примере, что такое машинное обучение и анализ данных в среде BigML. Сразу скажу, вам не нужно будет ничего программировать.

Что такое машинное обучение?

Существует огромное количество определений термина машинное обучение. Мне больше всего нравится определение, сформулированное специалистами SAS:
Машинное обучение - это метод анализа данных, который автоматизирует построение аналитической модели. Это отрасль искусственного интеллекта, основанная на идее, что системы могут учиться на основе данных, выявлять закономерности и принимать решения с минимальным вмешательством человека.
Давайте вернёмся к азам.

Введение в машинное обучение

Первым шагом в любом проекте является определение вашей проблемы. Вы можете использовать самые мощные и блестящие алгоритмы, но результаты будут бессмысленными, если вы решите не ту проблему.

Хорошо подумайте о своей проблеме, прежде чем начать. Это, бесспорно, самый важный аспект применения машинного обучения.

Алгоритмы машинного обучения учатся на данных. Крайне важно, чтобы вы предоставили им правильные и корректные данные для проблемы, которую вы хотите решить. Даже если у вас есть хорошие данные, вы должны убедиться, что они имеют полезный масштаб, правильный формат, не содержат пропусков.

Процесс подготовки данных для алгоритма машинного обучения можно обобщить в три этапа:

Шаг 1 : Выбор и сбор данных.
Шаг 2 : Предварительная обработка данных.
Шаг 3 : Преобразование данных. Этот шаг не для чайников, потому я в этой статье описывать его не буду.

Вам нужно подумать, какие данные вам действительно нужны для решения вопроса или проблемы, над которой вы работаете. Всегда существует сильное желание включить все доступные данные, чтобы соблюдалось правило «чем больше, тем лучше». Это не всегда правильно.

После того как вы выбрали данные, вам нужно подумать, как вы собираетесь использовать данные. Этот шаг предварительной обработки заключается в получении выбранных данных в форму, с которой вы можете работать.

Три основных этапа предварительной обработки данных - это форматирование, очистка и выборка:

Форматирование : выбранные вами данные могут быть не в том формате, который вам подходит для работы. Установите нужный формат для соответствующих типов данных. Не используйте для числовых данных подобный формат представления 1,989,49. Многие программы будут распознавать такие данные, как текст. Если вы хотите, чтобы это была цифра, она в вашем наборе данных должна выглядеть так  1989,49. Некоторые программы для анализа данных распознают данные как текст, если вместо запятой после целой части числа используется точка вместо запятой. Рекомендую использовать именно запятую.

Очистка : Очистка данных - это удаление или исправление отсутствующих данных. Могут быть экземпляры данных, которые являются неполными и не содержат данных, которые, по вашему мнению, необходимы для решения проблемы. Эти строки или столбцы, возможно, должны быть удалены.

Выборка : может быть гораздо больше выбранных данных, чем нужно для работы. Большее количество данных может привести к гораздо более длительному времени работы алгоритмов и большим вычислительным ресурсам и требованиям к памяти. Вы можете взять меньшую репрезентативную выборку выбранных данных, которая может быть намного быстрее для изучения и создания прототипов решений, прежде чем рассматривать весь набор данных.

Промежуточный итог

Вы получили первое представление, что такое машинное обучение. Чётко для себя определите задачу и подумайте, как вы будете её решать. Обязательно отформатируйте ваши данные так, как это нужно. Нужно очистить набор данных от столбцов или строк, которые не содержат данные.

Машинное обучение — пример

Судя по данным Ahrefs и Serpstat, многие пользователи ищут информацию о машинном обучении по запросам "машинное обучение пример" и "машинное обучение с чего начать". Это перекликается с основной сутью полученных мной отзывов на предыдущие публикации.

Если вы не вебмастер, вы можете использовать любые другие доступные вам данные, например информацию из бухгалтерской программы 1С.

Например, я анализировал расчёты (платежи) трёх предприятий одной группы на предмет выявления аномалий (выбросов). Это позволило мне выявить нетиповые операции и сомнительных контрагентов.

Поскольку я занимаюсь веб-аналитикой и оптимизацией сайтов, в качестве источников информации я обычно использую данные:
* SEMrush;
* Serpstat ;
* Majestic;
* Ahrefs;
* Moz;
* Google Analytics;
* Google Search Console.

Собираю я эти и другие данные при помощи программ Netpeak Spider и Netpeak Checker (промокод на скидку в 10% - 869c893c), используя API указанных выше сервисов.

Вот что я использую для анализа данных:

AnswerMiner - позволяет быстро и удобно получить информацию о силе корреляции между показателями набора данных.
* Orange - бесплатный, удобный и быстрый интеллектуальный анализ данных.
* BigML - бесплатная платформа для машинного обучения.

Итак, начнём рассматривать пример машинного обучения и анализа данных.

Цель - классифицировать YMYL страницы по качеству, выявить наборы уникальных различий для каждого из кластеров.

Способ достижения результата - сбор ТОП 30 по 100 запросам медицинской тематики (использовался SEMrush), сбор данных по запросам - использовался Netpeak Checker, кластеризация YMYL страниц (использовался Orange), машинное обучение (построение модели, её обучение и оценка - использовался BigML).

То что я собирал запросы именно с помощью SEMrush, ещё не значит, что вы должны делать так же.

Нужные запросы вы можете собрать и при помощи Serpstat и там же сразу кластеризовать.

Открываете в Serpstat меню "Инструменты" и там выбираете инструмент "Кластеризация ключевых слов и анализ текста". Создаёте ваш проект, выставляете настройки кластеризации. Дальше инструмент всё сделает за вас.

Много об этом писать не буду, просто посмотрите это видео.

Что вам это даст? Результаты классификации можно использовать как дополнительные категории при анализе данных в процессе машинного обучения.

Допустим, все нужные запросы уже собраны. Запускаем Netpeak Checker (промокод на скидку в 10% - 869c893c). Открываем в нём инструмент "Парсер поисковых систем". Выставляем нужные настройки и вносим список ключевых слов для парсинга.
Сбор данных при помощи Netpeak Checker

Я таким образом по 100 запросам собрал результаты поисковой выдачи из ТОП30 Google.

Там же в Netpeak Checker я собрал показатели OnPage интернет-страниц, а также информацию по API из указанных выше источников данных. Например, показатели трафика я брал из Serpstat.

Дальше руками, хотя есть решения при помощи Python, я произвёл форматирование и очистку данных, как было описано выше.

Полученный набор данных я загрузил в Orange.
Data Mining в Orange

Используя Data Mining средствами Orange, я получил информацию о целевых кластерах, а также то, что самой значимой переменной для кластеризации является "Общий трафик". Все мои выводы были опубликованы в исследовании Как Google классифицирует YMYL сайты .

В другом моём исследовании Как использовать машинное обучение для анализа тем YMYL страниц я привёл довольно подробный пример машинного обучения в среде BigML, но для многих пользователей его интерфейс показался сложным и они попросили подробнее показать, как им пользоваться.

Регистрируетесь в BigML.

Загружаете ваш набор данных. Здесь я дам небольшой комментарий. В качестве источника данных вы можете дать ссылку или просто перетянуть файл с рабочего стола в BigML, но я предпочитаю обычную загрузку файла. Причём, самый лучший формат для набора данных - CSV.
Машинное обучение для чайников в BigML
Вот так изнутри выглядит ваш набор данных.
Анализ данных в BigML

В моём наборе три типа данных - числовые (123), текстовые (text), категории (ABC). Прежде чем производить дальнейшие действия, проверьте насколько BigML корректно распознал тип данных. Если вы увидели ошибку, нажмите на кнопку в виде бочёнка с шестерёнкой и внесите нужные исправления. Не забудьте сохранить изменения.

Затем переходим к созданию набора данных для машинного обучения в среде BigML. Нажмите на кнопку "1-Click Dataset".
BigML - создание набора данных

Вы должны исключить из дальнейшего процесса машинного обучения не значимые показатели. Например, я исключил показатель "Запрос". Как это сделать?


Напротив каждого показателя есть "Карандаш". Это кнопка для редактирования. По умолчанию показатели значимые (на картинке выше действие №1), кроме случаев, когда BigML сам определяет не значимые показатели. Вам нужно нажать на кнопку со знаком восклицания и затем сохранить изменения. После этого возле не значимого поля появится красный знак восклицания (на картинке выше действие №2).

Машинное обучение модели

Для целей оценки нам нужно обучить модель только частью данных (создать набор данных обучения), а затем проверить точность прогнозов на наборе данных, который мы не использовали для этапа обучения.

Давайте разделим данные на две части — набор данных для обучения и на тестовый набор данных.
Машинное обучение данных

По умолчанию BigML разделит ваши данные в пропорции 80 на 20, но вы можете выставить собственные значения, например, 70 на 30. Я оставил по умолчанию. В итоге будут созданы два дополнительных набора данных "НазваниеВашегоНабора80" и "НазваниеВашегоНабора20".

Вам нужно войти в набор данных для обучения "НазваниеВашегоНабора80" и создать модель. Для этого нажимаете на кнопку в виде облака с молнией и выбираете опцию "1-CLICK MODEL".

BigML построит дерево решений. Чем толще ветка дерева решений, тем вероятнее прогноз.
Машинное обучение - дерево решений

Но вы должны проанализировать и другие ветки. Обратите внимание на ветки, у которых конечный элемент имеет значение показателя уверенность (Confidence) больше 75 процентов. Таких веток может быть несколько. Советую отдавать предпочтение той ветке, у которой выше показатель уверенности и процент элементов в наборе данных. Для этого подведите курсор к конечному элементу ветки и вы увидите подсказку.

Оценка модели и прогноз

Следующий этап - это оценка точности модели. Очень важно, чтобы точность модели была не ниже 95 процентов.

В наборе данных для обучения "НазваниеВашегоНабора80" нужно выбрать функцию "Оценить" (Evaluate - на рисунке ниже действие №1). Затем, если вы захотите сделать прогноз, нужно нажать на кнопку "Прогнозировать" (Predict - на рисунке ниже действие №2).

Оценка модели в BigML

В моём случае, точность модели составила 98,97 процента. Дерева решений вполне достаточно для того, чтобы найти интересные данные, которые раньше были не очевидными.

Что касается прогноза, я советую вам поиграть со значениями и ползунками. Уверен, что там ничего сложного и вы с этим сами разберётесь.

Надеюсь, машинное обучение и анализ данных для чайников с помощью BigML теперь стал для вас понятнее и проще.

Если что-то непонятно, пишите ваши отзывы в комментариях к статье.

Если статья вам понравилась, не забудьте поставить лайк и поделится в социальных сетях.
Подробнее

Финансовое мошенничество в интернет в период пандемии коронавируса COVID-19

Мошенничество в интернет и пандемия коронавируса COVID-19


Всем добрый день!

Я веду SEO блог, но это будет публикация, связанная с общественно значимыми событиями. Я просто не могу оставаться в стороне.

Генеральный директор ВОЗ на брифинге для СМИ сообщил, что они наблюдают быструю эскалацию случаев COVID-19. В остальном мире зарегистрировано больше случаев и смертей, чем в Китае.

В России и в Украине несмотря на карантин растет число заболеваний и смертей.

Быстро растут социальные меры дистанцирования, такие как закрытие школ, отмена спортивных мероприятий, закрывают магазины, ограничивают движение общественного транспорта.

Работодатели, там где это возможно, переводят персонал на удаленную работу.

Вся эта информация льется потоком со всех СМИ и складываясь пазл за пазлом в наших умах в итоге приводит к тревоге и панике. И, в основном, из-за высокой смертности и отсутствия лечения от короновируса. По состоянию на 3 марта 2020 года во всем мире около 3,4% заболевших (зарегистрированных случаев COVID-19) умерли - и это один из поводов для паники.

Всегда есть люди, которые стараются любыми доступными (законными и не очень способами) заработать на панике.

Мошенничество в интернет в период пандемии коронавируса COVID-19

13 марта 2020 года Интерпол опубликовал официальное предупреждение о росте фактов финансового мошенничества, связанного с паникой во время пандемии коронавируса COVID-19.

Интерпол просит общественность проявлять осторожность при покупке медикаментов в Интернете во время пандемии Коронавируса COVID-19, потому что преступники извлекают выгоду из этой ситуации для проведения ряда финансовых мошенничеств.

Поскольку хирургические маски и другие медицинские принадлежности пользуются большим спросом, но их трудно найти в розничных магазинах в результате пандемии COVID-19, в Интернете появились поддельные магазины, веб-сайты, учетные записи в социальных сетях и адреса электронной почты, утверждающие, что они продают эти товары.

Но вместо получения обещанных масок и припасов ничего не подозревающие жертвы видели, как их деньги исчезают в руках преступников.

Схемы мошенничества COVID-19

Мошенничество, связанное с короновирусом, включает в себя:

* Мошенничество по телефону - преступники звонят жертвам, притворяясь сотрудниками клиники или больницы, которые утверждают, что родственник жертвы заболел вирусом, и требуют оплатить лечение;
* Фишинг - электронные письма, утверждающие, что они принадлежат национальным или глобальным органам здравоохранения, с целью заставить жертв предоставить личные учетные данные или платежные данные или открыть вложение, содержащее вредоносное ПО.

Обязательно прочитайте публикацию Google - Как избегать фишинговых атак и сообщать о них.

Во многих случаях мошенники выдавали себя за законные компании, используя похожие имена, веб-сайты и адреса электронной почты, пытаясь обмануть ничего не подозревающих людей, активно обращаясь через электронные письма и сообщения на платформах социальных сетей.

«Преступники используют страх и неуверенность, создаваемые COVID-19, чтобы охотиться на ни в чем не повинных граждан, которые стремятся защитить только свое здоровье и здоровье своих близких», - сказал генеральный секретарь Интерпола Юрген Сток.

«Любой, кто думает о покупке медикаментов в Интернете, должен уделить время и убедиться, что вы на самом деле имеете дело с законной, уважаемой компанией, в противном случае ваши деньги могут быть потеряны  и отправлены недобросовестным преступникам», - заключил руководитель Интерпола.

Признаки мошенничества

Если вы хотите купить медикаменты в Интернете или получать электронные письма или ссылки, предлагающие медицинскую поддержку, будьте внимательны к признакам потенциального мошенничества, чтобы защитить себя и свои деньги.

Нужно проверить компанию / частное лицо, предлагающее товары, прежде чем делать какие-либо покупки;

На поддельных веб-сайтах преступники часто используют веб-адрес, который выглядит почти идентично законному, например, «abc.org» вместо «abc.com»;

Перед покупкой проверьте онлайн-отзывы о компании - например, были ли жалобы на то, что другие клиенты не получили обещанные товары;

Будьте осторожны, если вас попросят произвести платеж на банковский счет, расположенный в другой стране, чем та, в которой находится компания;

Если вы считаете, что стали жертвой мошенничества, немедленно предупредите свой банк, чтобы платеж был заблокирован;

Не нажимайте на ссылки и не открывайте вложения, которые вы не ожидали получить или пришли от неизвестного отправителя;

Остерегайтесь нежелательных писем, предлагающих медицинское оборудование или запрашивающих вашу личную информацию для медицинских проверок - законные органы здравоохранения обычно не связываются с широкой общественностью таким образом.

Советы вебмастерам в период пандемии коронавируса COVID-19

Проверьте, историю домена и дату создания сайта, на котором вы хотите что-то купить онлайн.

Обратите внимание, использует сайт протокол https или нет. Большинство государственных, образовательных сайтов и международных организаций используют https.

Проверьте, нет ли на сайте, на котором вы хотите совершить покупку онлайн, признаков взлома, а также проверьте его на вирусы.

Проверьте содержание страницы "О нас" и страницы "Контакты" сайта, на котором хотите что-то купить. Если связь возможна только через специальную форму без указания номеров телефоров, адреса и e-mail, рекомендую воздержаться от покупок на таком сайте.

Если на сайте много рекламы - это тоже должно вас насторожить. Чем больше рекламы - тем меньше доверия.

Старайтесь меньше контактировать с другими людьми. Работайте удалённо.

Поддерживайте друг друга всем, чем можете и любыми доступными способами, но не забывайте о безопасности.

На всякий случай сделайте запас продовольствия и медикаментов.

Будьте здоровы и не болейте!
Подробнее

Как использовать машинное обучение для анализа тем YMYL страниц

Кто следит за моими статьями, знают, что я недавно опубликовал исследование "Как Google классифицирует YMYL сайты".

Исследование было основано на результатах поисковой выдачи Google по ста запросам медицинской тематики. Набор данных состоял из 2914 YMYL страниц.

Используя интеллектуальный анализ данных были выявлены основные кластеры YMYL страниц, которые соответствуют подходу, описанному в  патенте Google WO/2020/033805, для классификации сайтов по уровню качества.

Результаты исследования близки к реалиям в нише "Медицина" и, вероятно, на них можно ориентироваться при принятии определённых решений.

По уровню качества большинство YMYL страниц медицинских сайтов попали в кластер страниц (С2), оценка которых ниже первого порога качества. Страницы сайтов новостей, социальных сетей, ресурсы Яндекса, видео YouTube и страницы Википедии оцениваются лучше, чем медицинские сайты.

Собственно, именно такое положение дел вебмастера наблюдают на практике. По многим медицинским запросам "Комсомольская правда", "АиФ", "Вести" и тому подобное занимают весь ТОП.

При помощи машинного обучения на основе сформированного набора данных была построена модель, которая позволила выявить интересные результаты.

Одним из таких результатов было то, что в моем наборе данных заголовок Н1 YMYL страниц кластера "Новостников" (С3) не содержит слово «отзывы», а у "Медиков" (кластер С2), наоборот, во многих случаях содержит.

Это исследование получило широкий отклик, но некоторые вебмастера в своих комментариях написали, что наличие или отсутствие слова «отзывы» в заголовке Н1 не является однозначным критерием для классификации YMYL страниц.

Учитывая это, я при помощи машинного обучения провел дополнительный анализ текстовых полей моего набора данных.

Что такое анализ тем YMYL страниц?

В ваших текстовых данных скрыто множество ценных идей. Данные в виде простого текста могут быть очень полезны для рекомендаций по содержанию, задач поиска информации, сегментирования ваших данных или обучения прогнозным моделям.

Есть три ключевых слова, которые мы должны знать, когда пытаемся понять основы тематических моделей: документы, термины и темы .

Скрытое распределение Дирихле (LDA) - это метод обучения без присмотра, который обнаруживает различные темы, лежащие в основе набора документов, где каждый документ представляет собой набор слов или терминов. LDA предполагает, что любой документ является комбинацией одной или нескольких тем, и каждая тема связана с определенными терминами высокой вероятности.

Основной целью моделирования тем является поиск значимых тематически связанных терминов  ( «тем» ) в неструктурированных текстовых данных. В тематических моделях слова в ваших текстовых данных, которые часто встречаются вместе, группируются в разные «темы».

Полученный  список тем можно использовать в качестве конечного результата для задач поиска информации, совместной фильтрации или для оценки сходства документов среди других. Темы также могут быть очень полезны как дополнительные входные функции в вашем наборе данных для других задач моделирования (например, классификация, регрессия, кластеризация, обнаружение аномалий).

Для машинного обучения и построения тематических моделей я использую бесплатную подписку на сервис BigML.

Если вы этим заинтересуетесь, рекомендую сначала прочитать статью в блоге BigML.

Машинное обучение для анализа тем YMYL страниц

Я загрузил свой набор данных в BigML в качестве источника. Созданный в BigML был очищен от аномалий. Я обучил и оценил модель принятия решений.

Как вы помните из исследования "Как Google классифицирует YMYL сайты", для классификации сайтов по тематике Google извлекает контент интернет страницы и анализирует его при помощи соответствующих алгоритмов и нейронной сети.

Проанализировав извлечённый контент нейронная сеть присваивает интернет странице тематику. Затем из совокупности тематик, которые определены, присваивается основная тематика всему сайту. По этому медицинским сайтам может быть присвоена совершенно другая тематика, не связанная со здоровьем и лечением.

Учитывая это, я в BigML создал тематическую модель, основанную на текстовых полях моего набора данных - "Содержание Title", "Содержание Description", "Содержание Н1". Когда тематическая модель создана, можно отфильтровать и проверить ее, используя две визуализации, предоставляемые BigML.

В первом представлении вы сможете сразу увидеть все темы, представленные кружками, пропорционально значимости тем (чем больше диаметр кружка, тем выше значимость темы). Кроме того, темы отображаются в макете карты, который отображает отношения между ними, так что более близкие темы более тематически связаны.

Рис.1
Как использовать машинное обучение для анализа тем YMYL страниц
Карта тем YMYL страниц медицинской тематики. Самая значимая тема "Инструкции" имеет коммерческую направленность и относится к фармацевтике.
Как видно на первой визуализации по названием "Карта тем" (Рис.1) темы разделены на четыре кластера:
1. Инструкция (фармацевтика), цена, клиника.
2. Медицина, лечение, симптомы, коррекция.
3. Темы о косметологии и дерматологии.
4. Стоматология.

Самая значимая тема для набора данных - "Инструкции" (описание различных препаратов) в числе основных терминов содержит слово "купить". Сопутствующие ей темы - "Цена". А тема "Клиника" в числе основных терминов содержит слово "цена" и "отзыв".

Следовательно кластер тем №1 имеет ярко выраженную коммерческую тематику. Предполагаю, что нейронная сеть будет "рассуждать" следующим образом - страницы этого кластера созданы чтобы заработать, а не для того, чтобы полечить.

Кроме того, в теме "Клиника" мы видим связь терминов "отзыв" и "цена" - первое подтверждение того, что страницы с отзывами, скорее всего, не относятся к теме Здоровья как такового.

Однако лучший способ получить представление о ваших темах - взглянуть на вторую визуализацию BigML для тематических моделей: гистограмму.

Рис.2
BigML - тематическая модель


На этом графике вы можете просмотреть основные термины по темам. Каждый термин представлен полосой, длина которой обозначает важность термина в этой теме (т. е. вероятность термина).

Модель тем находит термины, которые с большей вероятностью встречаются вместе, и группирует их в разные темы. Этот вероятностный метод дает довольно точные группировки терминов, которые тесно связаны между собой.


Как видно на гистограмме (Рис.2), в моем наборе данных есть две темы об отзывах - "Отзывы фото" и "Отзывы пациентов". И как раз во второй теме есть третий по важности термин - "цена", а сама тема в модели расположена на гистограмме рядом с темами о цене. На мой взгляд, это еще одно подтверждение того, что слово "отзывы" может указывать нейронной сети на коммерческую (не направленную на здоровье и лечение) тематику таких страниц.

Я решил копнуть глубже и на основе тематической модели создал модель для темы "Отзывы пациентов".

Рис.3
BigML - построение модели


Используя машинное обучение я получил довольно интересный результат.

Многие YMYL страницы медицинской тематики занимают в поисковой выдаче позиции на галёрке (с двадцатой и ниже), если:
* Описание для поисковых систем содержит слово "пациентов";
* Title или заголовок Н1 содержит слово "отзывы".

Следовательно, основываясь исключительно на данных моей выборки (моего набора данных) и моего предыдущего исследования, рискну предположить:
* страницы об отзывах пациентов о медицинских товарах и услугах, скорее всего исключены нейронной сетью Google из тематики "Здоровье";
* страницы об отзывах пациентов могут попасть в результаты поисковой выдачи на позиции выше двадцатой только в двух случаях - контент на странице не содержит коммерческой составляющей (пользователю не предлагают что-то купить) и пользователь ищет именно отзывы.

Всё написанное выше исключительно моё мнение и может не совпадать с вашим.

Надеюсь на дальнейшее конструктивное обсуждение в комментариях к статье.

Если статья вам понравилась, не забудьте поделится ей с вашими друзьями и знакомыми.
Подробнее