388x60 Ads

Text Mining - интеллектуальный анализ твитов

Недавно я опубликовал статью "Интеллектуальный анализ данных — используем Orange" и пообещал привести пример использования этого программного обеспечения для целей поисковой оптимизации.

Сегодня мы рассмотрим, как использовать Orange для целей text mining (интеллектуального анализа текста).

Text mining — это особый случай интеллектуального анализа данных.

Чем это может быть полезно для вебмастера и интернет-маркетолога?
Вы можете проанализировать текст из любого источника (социальные сети, SERP, проекты статей и т.п.) по разным критериям.

Например, вы можете спаристь результаты поисковой выдачи по нужному запросу и при помощи сформированного "Облака слов" понять о чём в основном пишут в Title и Description. Это будет полезно для оптимизации существующего и создания нового контента.

Интеллектуальный анализ текстов 

Сегодня мы проведём интеллектуальный анализ текстов твитов.

Условия:
Информационный повод: 28 июня 2019 г. в Осаке встречались президенты России и США — Путин и Трамп.

Сопоставим аудиторию по языковому принципу, содержанию и эмоциональному наполнению.

Для каждой из двух газет будет проанализировано по 100 твитов.

Text-mining твитов Washington Post и New York Times 

Давайте посмотрим, как в Twitter обсуждали публикации Washington Post и New York Times, посвящённые этому событию.

Аудитория, которая в Twitter обсуждала New York Times, в основном писала о Трампе.

Text Mining показывает, что в отличие от New York Times, аудитория Washington Post писала в Twitter о трёх президентах — Трампе, Путине и, что неожиданно, об Обаме. Другими словами, аудитории New York Times президент России вовсе не интересен (Рис.1).

Рис.1
Text Mining - создание облака слов
Интеллектуальный анализ текста твитов показал, что аудитории газет Washington Post и New York Times имеют разный интерес к одному и тому же событию.

Основная аудитория Washington Post в Twitter англоязычная (в незначительной доле присутствует Хинди).

Новости New York Times в твитере тоже комментируют, в основном, на английском языке, но тут также значительную долю имеет испанский язык, а также индонезийский и португальский.

Маркетологам New York Times нужно периодической изучать свою аудиторию в Twitter, чтобы понять нужно ли им создавать для своей аудитории больше контента на испанском, индонезийском и португальском языках (Рис.2).

Если есть люди, говорящие на этих языках и интересующиеся новостями New York Times, маркетологи тоже должны заинтересоваться этой аудиторией.

Рис.2
Text Mining - распределение аудитории по языку

При помощи Text Mining можно провести эмоциональный анализ сообщений в Твиттер (Рис.3).

Видно, что аудитория Washington Post публикует больше твитов, связанных со страхом и удивлением, чем аудитория New York Times.

Рис.3

Вы тоже можете проанализировать аудиторию и контент в вашем твитер аккаунте и сравнить их с результатами конкурентов.

Text Mining с помощью Orange

Откройте Orange. Перейдите в раздел Options главного меню, раздел Add-on и инсталлируете Add-on под названием Text. Перегрузите программу.

Создайте новый шаблон (File — New) для интеллектуального анализа текста.

Перетащите на рабочую поверхность виджеты:
*Twitter — источник данных. Нужно ввести Twitter API key, ввести список ключевых слов и указать количество твитов.
*Preprocess Text — этот виджет позволит вам избавится от стоп-слов.
*Bag of Words  — создает корпус с количеством слов для каждого экземпляра данных (документа) и может использоваться для прогнозного моделирования. Количество может быть абсолютным, двоичным (содержит или не содержит) или сублинейным (логарифм частоты термина).
*Word Cloud — визуализация данных. Виджет показывает "Облако слов" в зависимости от их частоты в корпусе слов.

Соедините эти виджеты между собой так, как показано на Рис.4.

Рис.4
Text Mining - интеллектуальный анализ твитов

Интеллектуальный анализ текста, на мой взгляд, одно из самых перспективных направлений в поисковой оптимизации и интернет-маркетинге.

Если вы уже пользуетесь Orange или другими программами для Text Mining, напишите об этом в комментариях к статье.
Подробнее

Июньский апдейт Google 2019 - исследование


Июньский апдейт Google 2019



Google в очередной раз обновил свой поисковый алгоритм (широкое обновление ядра). По охвату это было такое же обновление, как Медицинский апдейт 2018 года.

Дата начала обновления — 3 июня 2019 года.
Дата завершения обновления — 8 июня 2019 года.

Цель исследования — выявить  зависимости в показателях "сайтов-победителей" и "сайтов-неудачников".

Методология исследования

По сообщению сотрудника Google Джона Мюллера — Mobile-first indexing будет включен по умолчанию для всех новых, ранее неизвестных Google Search, веб-сайтов начиная с 1 июля 2019 года.

Предположение — обновились все ключевые алгоритмы Google, в том числе Панда и Пингвин. Обновление Mobile-first indexing, на самом деле, более масштабное, чем об этом упомянул Джон Мюллер.

Учитывая это, при сравнении списка доменов основное внимание в исследовании направлено именно на показатели мобильной выдачи. Поскольку традиционно все новшества, в основном, выкатывают в США, — регион для сбора данных — США.

Размер выборки — 200 сайтов.

Используемые источники данных:

SEMrush Sensor — информация о степени влияния апдейта Google на сайты в зависимости от их тематики. Показатели роста и падения позиций и ключевых слов по ТОП100 "сайтов-победителей" (Winner) и "сайтов-неудачников" (Looser).
Majestic — набор данных (Dataset) из инструмента Bulk backlink checker.
Ahrefs — набор данных (Dataset) из инструмента Batch analysis.
Google PageSpeed Insights — значения Mobile Score, Mobile First Contentful Paint, Mobile First Meaningful Paint для мобильной версии сайта.

Используемое программное обеспечение (Software):

Netpeak Checker 3.2.0.0 — парсинг данных Google PageSpeed Insights по сайтам из выборки.
Orange — интеллектуальный анализ собранных данных (Data mining).
AnswerMiner — построение матрицы корреляции показателей из набора данных, а также построение дерева прогноза.

Подготовка данных

Все не числовые значения переведены в числовые.
Знак разделитель запятая (для дробных значений) заменен на точку. Иначе Orange не воспринимает такие данные, как числовые.
Целевая переменная (target) — Status, значения — Winner, Looser.

Июньский апдейт Google — результаты исследования

Тематики (ниши), которых больше всего затронуло обновление Google, по степени воздействия можно разделить на две группы:
1) Новости (9,10), Спорт (7,90), Еда и напитки (6,90), Игры (6,60), Онлайн-сообщества (6,60), Искусство и развлечения (6,10);
2) Интернет и телефония (5,80), Животные (5,70), Здоровье (5,50), Финансы (5,30), Красота и фитнес (5,20), Люди и общество (5,20).

Из них в первой категории к YMYL сайтам относятся Новости, а во второй все тематики, кроме первых двух.

При помощи Orange сайты из нашей выборки были кластеризованы на основе их показателей из набора данных.

Большая часть "сайтов-неудачников" (Looser) находятся в одном кластере С5 (закрашен жёлтом цветом, см. Рис.1).

Рис.1
Июньский апдейт Google

"Сайты-победители" (Winner) менее однородны и их большая часть размещена в двух кластерах — С3 и С6 (закрашены соответственно зелёным и фиолетовым цветами).

По данным AnswerMiner, наибольшую корреляцию с целевой переменной Status имеют:
Новые ключевые слова (New keywords) — 79% — очень сильная корреляция (Рис.2).

Рис.2
Июньский апдейт Google - новые ключевые слова


На Рис.2 видно, что у "сайтов-победителей" больше новых ключевых слов, по которым они ранжируются в Google.

Mobile Score Google PageSpeed Insights — 36% (сильная корреляция).

Умеренную корреляцию с целевой переменной Status имеют показатели:
- OutLinksExternal — 15%, показатель Majestic — количество исходящих ссылок для этого домена;
- NonUniqueLinkTypeHTTPS — 15%, показатель Majestic — количество неуникальных ссылок, которые используют HTTPS в качестве протокола;
-Trust Flow — 14%, показатель Majestic — траст сайта;
-Ref domains Dofollow — 13%, показатель Ahrefs;
-Total Keywords — 13%, показатель Ahrefs;
-Total Traffic — 11%, показатель Ahrefs.

Рис.3
Июньское обновление алгоритма Google

Mobile Score имеет сильную корреляцию с "Динамикой позиций" и "Новые ключевые слова".

Вероятность того, что сайт будет отнесен в категорию Looser составляет 87%, если в наборе данных показатель "Новые ключевые слова" имеет значение ноль.

Если Trust Flow меньше 40 и при этом NonUniqueLinkTypeHTTPS меньше 44 вероятность того, что домен попадет в категорию Looser почти 70 процентов.

Многие "Сайты-победители" (Winner), имеющие показатель Trust Flow от 35 до 75, не блещут показателями Mobile Score. Но... разница в значениях по показателю Mobile Score между Победителями и Неудачниками не статистически значима, т.е. если и есть, то скорее случайна.

Рис.4
Влияние скорости загрузки сайта

Можно предположить, что если трастовый сайт публикует много полезного уникального контента и число ключевых слов, по которым он ранжируется, растет, то Google "закрывает глаза" на низкое значение Mobile Score.

Статистически значимые различия

Если говорить просто, то статистически значимое различие — это когда разница не является случайной.

Как показывает наше исследование, "сайты-победители" (Winner) являются более трастовыми (имеют лучшие показатели Trust Flow), чем "сайты-неудачники" (Looser)  и разница эта не случайна.

Рис.5
Trust Flow - разница при апдейте Гугл

Разница в значениях показателя Total Backlinks по Ahrefs между этими двумя группами сайтов тоже статистически значима.

Рис.6
Влияние ссылок - июньский апдейт Гугл

Даже если сравнить значения медиан показателя Total Backlinks между "сайтами-победителями" и "сайтами-неудачниками", то у неудачников это значение более, чем в два раза ниже, чем у победителей.

Июньский апдейт Google 2019 — результаты

Основываясь исключительно на данных выборки из SEMrush и на показателях метрик указанных выше инструментов, без учета качества контента и юзабилити, можно сделать такие выводы.

Обновление Google Mobile-first indexing если и было, то затронуло оно только сайты-неудачники.

Если покупаете (размещаете) ссылки, старайтесь, чтобы они вели со страниц, которые используют https протокол.

У сайтов-неудачников, пострадавших в результате обновления алгоритма Google, меньше траста и ссылок, мало или отсутствуют новые ключевые слова, по которым они ранжируются.

Проблема с новыми ключевыми может быть связана с блокировкой (прекращения обновления) файла sitemap в Google Searh Console и это, скорее всего, не баг, а способ наказания.

В это же время (с 4 по 6 июня 2019 года) Google выкатил ещё одно техническое обновление, которое, явлется самостоятельным апдейтом и совпало по времени с широким обновлением ядра ("Июньский апдейт").

Danny Sullivan в Twitter сообщил, что Google теперь в большинстве случаев не будет показывать по одному запросу более двух результатов по одному домену.

Ясно, что те сайты, у которых было в SERP больше двух результатов по одному запросу, могут существенно потерять в трафике.

Проверьте свое ссылочное в Google Search Console. Замечено, что у сайтов, которые потеряли трафик в июньский апдейт, много ссылок с доменов  .cf, .ga, .gq, .ml и .tk. Не грех проверить за одно и ссылающиеся домены .info. Скорее всего — это спам. Отклоните их.

P.S. Если вам понравилась эта статья, оставьте отзыв и не забудьте поделиться ей с друзьями.
Подробнее

Netpeak Checker теперь интегрирован с SimilarWeb

13 июня 2019 года вышло новое обновление популярного среди SEO-специалистов и интернет маркетологов софта — Netpeak Checker.

Очередной релиз нового Netpeak Checker это не фиксинг багов, а новые интересные "плюшки".

Netpeak Checker теперь интегрирован с SimilarWeb, несколькими сервисами Google, Linkpad. Кроме того, реализован парсинг телефонных номеров.

Для получения данных из сервисов Google нужно подключить API.

Для тех, кто еще не пользуется Netpeak Checker  — скидка 10 процентов.
Netpeak Checker -10%

Примеры использования Netpeak Checker


Кроме того, Netpeak Checker незаменим для сбора данных для Data Mining и его разновидности Text Mining.

Используя Netpeak Checker я собрал данные для тренировки (разработки) модели по предсказанию возможности попадания страницы сайта в ТОП Google.

Пока это выглядит так:
Используем Netpeak Checker для Data Mining

Если, кому-то это интересно, рекомендую для разработки моделей и интеллектуального анализа данных использовать бесплатный софт Orange.
Подробнее

Интеллектуальный анализ данных — используем Orange


Orange — это инструмент для визуализации и анализа данных с открытым исходным кодом. Orange разрабатывается в лаборатории биоинформатики на факультете компьютерных и информационных наук Университета Любляны, Словения, вместе с сообществом открытого исходного кода.

Orange — это библиотека Python. Интеллектуальный анализ данных (Data mining) осуществляется с помощью визуального программирования или сценариев Python. Сценарии Python могут выполняться в окне терминала, интегрированных средах, таких как PyCharm и PythonWin, или оболочках, таких как iPython.

Категория —  Data Mining Software.

Лицензия  —  Open Source.

Стоимость — бесплатно.

Преимущества Orange для машинного обучения и анализа данных


• Для всех — начинающих и профессионалов.
• Выполнить простой и сложный анализ данных.
• Создавайте красивую и интересную графику.
• Использование в лекции анализа данных.
• Доступ к внешним функциям для расширенного анализа.

Лучшая и отличительная черта Orange — это замечательные визуальные эффекты.

Этот инструмент содержит компоненты для машинного обучения, дополнения для биоинформатики и интеллектуального анализа текста, а также множество функций для анализа данных.  Orange состоит из интерфейса Canvas, на который пользователь помещает виджеты и создает рабочий процесс анализа данных.

Виджеты предлагают базовые функции, такие как чтение данных, отображение таблицы данных, выбор функций, предикторы обучения, сравнение алгоритмов обучения, визуализация элементов данных и т. д. Пользователь может интерактивно исследовать визуализации или передавать выбранное подмножество в другие виджеты.

В Orange процесс анализа данных (Data mining) может быть разработан с помощью визуального программирования.

Orange запоминает выбор, предлагает часто используемые комбинации. Orange имеет функции для различных визуализаций, таких как диаграммы рассеяния, гистограммы, деревья, дендрограммы, сети и тепловые карты.

Комбинируя виджеты, создайте структуру аналитики данных. Существует более 100 виджетов с охватом большинства стандартных и специализированных задач анализа данных для биоинформатики.

Orange читает файлы в собственном и других форматах данных.

Классификация использует два типа объектов: ученики и классификаторы. Учащиеся рассматривают данные, помеченные классом, и возвращают классификатор.

Методы регрессии в Orange очень похожи на классификацию. Они предназначены для интеллектуального анализа данных (Data mining), помеченных классом.

Обучение базовых наборов обучающих данных включает прогнозы отдельных моделей, чтобы достичь максимальной точности.

Модели могут быть получены из разных выборок обучающих данных или могут использовать разных учеников в одних и тех же наборах данных.

Учащиеся также могут быть разнообразны, изменяя свои наборы параметров.

Чем Orange поможет SEO-специалисту:
• Анализ и визуализация данных при аудите своего сайта или сайтов конкурентов;
• Анализ ссылочного, выявление связей в группе сайтов;
• Интеллектуальный анализ текстового контента (text-mining).
• Кластеризация данных.

Настройка системы Orange для анализа данных

Orange поставляется со встроенным инструментом Anaconda, если вы его предварительно установили. Если нет, выполните следующие действия для загрузки Orange.

Шаг 1: Перейдите на https://orange.biolab.si и нажмите «Скачать».

Шаг 2: Установите платформу и установите рабочий каталог, в котором Orange будет хранить свои файлы.

Прежде чем углубимся в работу Orange, давайте определим ключевые термины, которые помогут в дальнейшем понимании:

Виджет — основная точка обработки любых действий с данными. Виджет выполняет действия в зависимости от того, что вы выберете в селекторе виджетов в левой части экрана.

Рабочий процесс — это последовательность шагов или действий, которые вы выполняете на платформе для решения задачи.

Перейдите к разделу «Примеры рабочих процессов» на начальном экране, чтобы изучить варианты дополнительных рабочих процессов и используемых моделей.

Создание первого рабочего процесса

Нажмите «New» и создайте первый рабочий процесс.

Это первый шаг на пути к решению любой задачи. Обдумайте, какие шаги необходимо предпринять для достижения конечной цели — алгоритм построения процесса.
Orange для анализа данных

Импорт данных в Orange

Шаг 1: Нажмите на вкладку «Data» в меню выбора виджетов и перетащите виджет «File» в пустой рабочий процесс.

Шаг 2: Дважды щёлкните виджет «File» и выберите файл с данными, который вы хотите загрузить в рабочий процесс.

Шаг 3: Как только вы сможете увидеть структуру набора данных с помощью виджета, вернитесь, закрыв это меню.

Шаг 4: Поскольку нам нужна таблица данных, чтобы лучше визуализировать наши результаты, мы нажимаем на виджет «Data Table».

Шаг 5. Теперь дважды щёлкните виджет, чтобы визуализировать таблицу.
Импорт данных в Orange

Визуализация данных при помощи Orange

Виджет Scatter Plot один из самых популярных в среде Orange. Нажмите на полукруг перед виджетом «File», перетащите его в пустое место в рабочем процессе и выберите виджет «Scatter Plot».

Как только создадите виджет Scatter Plot, дважды щёлкните по нему и изучите данные. Вы можете выбрать оси X и Y, цвета, формы, размеры и другие настройки.
Визуализация данных при помощи Orange

Экспериментируйте, добавляя или меняя виджеты в вашем рабочем процессе.

Это только первая (вводная) статья об интеллектуальном анализе данных (Data mining) с использованием Orange. В следующей статье рассмотрим пример использования Orange для поисковой оптимизации сайтов.
Подробнее

Как на сайте найти дубли страниц?

Отсутствие дублированного контента — один из критериев оценки качества сайта. Продуктовые эксперты справочного форума для вебмастеров Google Евгений Кобзарь и Вячеслав Вареня расскажут, как при помощи программ Netpeak Spider и Checker найти дубли страниц сайта в индексе.
Как на сайте найти дубли страниц?

Существует достаточно вариантов поиска дублей страниц на сайте, которые, в основном, предполагают сканирование и поиск одинаковых данных в заголовке h1 и мета-данных.

В этой статье мы предложим свой вариант поиска дублей по URL в случаях, когда проставлены ссылки с utm-меткам, когда в URL используются знаки вопросов, а также когда сайт генерирует не понятные URL рандомно.

Основной используемый софт — Netpeak Checker.

В Netpeak Checker есть встроенный инструмент «Парсер поисковых систем». Его мы и будем использовать.

Используя Netpeak Checker и оператор site:, вы можете получить информацию по дублям страниц сайта, которые находятся в индексе. К тому же, информация будет получена быстро и в виде таблицы для удобной дальнейшей работы с дублями.

Итак, нам понадобится:
Софт — Netpeak Spider и Netpeak Checker.
Прокси — чем больше, тем лучше.
Таблица Google Sheets.

Для каких сайтов подходит данный метод поиска дублей?

Данный метод поиска дублей подходит для небольших (до 3 000 страниц) интернет-магазинов, блогов, сайтов компаний.

Процедура поиска дублей следующая:
1. Чтобы начать искать дубли страниц, нам нужен список самих страниц. Запускаем Netpeak Spider.
2. Переходим во вкладку «Список URL» → «Загрузить из Sitemap» вставляем Sitemap сайта, который будем проверять, и вытягиваем все URL.


Netpeak Spider - sitemap

3. Вы, как владелец сайта, или человек, который взялся за данную процедуру, должны знать, сколько примерно у вас URL на сайте должно индексироваться. Открываем поиск Google, вбиваем запрос site:domain.com → смотрим, сколько примерно страниц в индексе.

Проверка количества страниц в индексе

4. Считаем количество URL. В нашем примере их 500.
Если страниц менее 500 на порядок → значит не все URL проиндексированы.
Если страниц +- 500 → отлично.
Если страниц больше 500 → значит есть URL, которых не должно быть в индексе.

5. Открываем таблицу Google Sheets, в первой ячейке первого столбца прописываем site:, во второй столбец вставляем URL  сайта, которые мы вытянули с помощью Netpeak Spider, в третьем столбце пишем формулу “=сцепить($A$1;B1)”. Формулу растягиваем по всем 500 ячейкам, согласно URL сайта.
Удаляем протокол https:// через замену (сочетание клавиш Ctrl+H).

Шаблон таблицы Google находится по ссылке, можете скопировать себе документ и использовать.

6. Копируем данные третьего столбца.

Формула сцепить

7. Запускаем Netpeak Checker и в нём открываем инструмент «Парсер ПС». Переходим к настройкам, добавляем прокси. Затем вставляем скопированные запросы, запускаем парсер — ждём, когда парсер соберёт нужные данные.

Netpeak Checker - как найти дубли страниц

Примечание
Если у вас древовидная структура сайта (всё по папкам), то при запросах категорий вы будете получать и URL, вложенные в эту категорию, и эти же URL при запросе главной и самих URL непосредственно — это побочный эффект, просто подчистите данные.

Иногда CMS строит страницы сайтов и из блоков, и блокам дает URL (сайты на Drupal). В результате URL этих блоков попадают в индекс. Этих URL в Sitemap не будет. Вы о них не будете знать, но именно данный метод покажет, что есть и то, чего не должно быть в индексе.


Плюс метода → из Netpeak Checker вы можете выгрузить результаты в MS Excel, что очень удобно для дальней обработки и анализа данных.

Для удаления дублей можно использовать инструмент удаление URL, а именно скрываем на 90 дней. Нужно отметить, что сотрудники Google в отношении наличия дублей страниц в индексе считают, что с этим особо не стоит заморачиваться.
Подробнее

Медицинское обновление алгоритма Google 1 августа 2018 года

Медицинское обновление алгоритма Google 1 августа 2018 года

Широкое обновление алгоритма Google 

1 августа 2018 года произошёл сильный апдейт Гугла. Об это в твиттере сообщил Danny Sullivan:
На этой неделе мы выпустили широкомасштабное обновление алгоритма, как это делаем несколько раз в год.
Анализируя мартовский апдейт Гугла, я предполагал, что следующее обновление ядра алгоритма Google должно было произойти в сентябре этого года. Но Google видно спешил что-то оперативно внедрить и запустил обновление ядра на месяц раньше.

Медицинское обновление алгоритма Google


Итак... Что нам известно об этом обновлении основного алгоритма Google? Это был глобальный апдейт ядра. Начался он 1 августа 2018 года. Пик пришелся на третье августа.
Глобальный апдейт ядра алгоритма Google

Danny Sullivan в твиттере писал:
...к середине следующей недели, [обновления — прим. авт.] должны быть полностью развернуты.
‏Официально всё закончилось раньше — 8 августа.

Многие эксперты утверждают, что недавний апдейт алгоритма Google затронул в основном сайты медицинской и финансовой тематики  — YMYL сайты.

Danny Sullivan официально опроверг эту гипотезу. Я тоже считаю, что обновление алгоритма затронуло все тематики.

Примечательно, что в том же твиттере 18 августа другой сотрудник Google косвенно подтвердил существование медицинского апдейта:
Если вы все еще изучаете обновление Google Update от 1 августа. Проверьте это @Moz Podcast по рекомендациям по качеству, опубликованным в январе 2018 года http://mozpod.libsyn.com/seo-and-the-quality-rater-guidelines ... и @Marie_Haynes сказала, что здравоохранение, юриспруденция, финансы будут затронуты, и это на самом деле произошло.
Все мы только предполагаем, что именно могло в основном повлиять в этом апдейте.

Как известно, факторов ранжирования больше двухсот. Вполне вероятно, что в связи с запуском mobile-index были пересмотрены веса старых факторов и добавлены новые, о которых мы не знаем.

Тем не менее мы точно знаем, что этот апдейт Гугла не связан со скоростью или безопасностью сайтов.
Мы говорим о многом, что нужно делать. Улучшить скорость сайта. Подумать о безопасности. Но это не то, с чем было связано это обновление...
— Danny Sullivan
Я решил проверить это на сайтах, к статистике которых у меня есть доступ.

Влияние скорости загрузки сайта при апдейте Гугла

Как видно по данным в таблице, скорость абсолютно разная как для сайтов, которые существенно затронуло обновление Гугла, так и у сайтов, которых апдейт не затронул. Затронуты сайты разных тематик.

Что еще интересно, так это то, что мобильную выдачу трясло сильнее, чем десктопную.
Обновление алгоритма Google разница в мобильной и десктопной выдачах
Еще интересное совпадение — именно в дни начала обновления алгоритма Google в новой версии Search Console появился инструмент "Удобство просмотра на мобильных устройствах". Очень возможно, что мобильный UX явлется одной из причин, которая могла существенно повлиять во время этого апдейта.
UX является критичным, поскольку, если пользователи не могут взаимодействовать с вашим контентом – они не могут его рекомендовать, они не собираются конвертироваться – тогда вся техническая работа по SEO, которой вы занимаетесь, будет бесполезной.
Поэтому в данном случае я бы определённо принимал во внимание обе эти стороны – и техническую оптимизацию, и удобство для пользователей – чтобы учесть все вторичные эффекты, играющие роль.
 — John Mueller,Google
Я решил провести еще один эксперимент. Используя SEMrush Sensor проанализировал "Влеты и падения" (по 100 сайтов) на дату окончания апдейта — 8 августа 2018 года.


Для сбора критериев я использовал:
*Ahrefs;
*Screaming frog.

Таблицу с данными загрузил в AnswerMiner.

В первую очередь меня интересовала корреляция других показателей с изменением количества позиций по сайтам из выборки "Взлеты и падения".
Корреляция значений в AnswerMiner

Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют.

В моем случае по восьми показателям корреляция есть, но слабая. В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи.

Итак, у меня есть две выборки — "Взлеты" и "Падения". В каждой из них по сто сайтов. Я сравнил значения показателей Response Time, Domain Rating, Total Backlinks, Word Count, External Outlinks, Linked Domains, Title 1 Length, H2-1 length сайтов в двух этих выборках.

Первое что меня интересовало, насколько статистически значима разница между выборками по этим критериям. Вывод — разница между ними не статистически значима, т.е. носит скорее случайный характер.

На этом можно было бы остановится, но я решил сравнить, насколько отличаются средние значения между выборками по каждому из критериев.

Длина H2 у упавших сайтов в среднем на 32% меньше, чем поднявшихся.

Разница в длине Title, похоже, никак не повлияла.

Количество доменов-акцепторов (Linked Domains) у сайтов, которые упали, на 44% больше, чем у сайтов, которые поднялись.

При этом у упавших сайтов количество исходящих ссылок (External Outlinks) больше в два раза, чем у сайтов, которые поднялись.

Показатель Total Backlinks у упавших сайтов в среднем на 79% меньше, чем у поднявшихся.

Видимо апдейт Гугла 1 августа 2018 года был в значительной степени нацелен на ссылочное (количество, качество, продажа ссылок).

Показатель Word Count (все слова в теге body) у упавших и поднявшихся сайтов в моих выборках мало чем отличается.

Средний Domain Rating по Ahrefs в обеих выборках почти одинаковый.

Что интересно, Response Time (время загрузки URL в секундах) в среднем на 32 процента у упавших сайтов меньше.

Примечательно, что многие после этого апдейта кинулись изучать Руководство Google для асессоров. И правильно сделали. Это тот документ, в котором хоть в качестве намеков содержится информация о том, как на уровне алгоритма могут быть оценены сайты.
Асессоры в основном оценивают специфические вещи, касающиеся работы наших алгоритмов. Асессоры обычно специально не оценивают репутацию сайтов, и это не то, что мы используем напрямую. Но мы используем оценку человека для проверки различных идей, имеющих отношение к алгоритмам, которые мы хотим опробовать. И, теоретически, эти оценки могут содержать что-то вроде репутации сайта в целом. Но прямой связи между мнением асессоров о том, что у ресурса плохая репутация, и его позициями в поиске нет.
John Muller, Google 

Обращаю ваше внимание на то, что Google стал лучше понимать содержание и качество текстового контента.

Danny Sullivan написал, что в 2018 году Google запустил новую систему "Нейронные соответствия", которая использует систему искусственного интеллекта Google. Основное предназначение "Нейронных соответствий" — понять, как слова, связанные с понятиями. Это система супер-синонимов.

Через пять месяцев после августовского апдейта Google 2018 года мы провели исследование влияния E-A-T на динамику трафика до и после 1 августа 2018 года.

Веб-мастера часто не видят "бревна в глазу", считая свой сайт идеальным. Многие "медицинские сайты" содержат в основном унылый рерайт инструкции по применению препаратов или наборы симптомов.

Товарищи "медики", настала новая объективная реальность, Google не только понимает, что вы написали, но и насколько это полезно (качественно).

Выводы и рекомендации по результатам апдейта

1. Медицинские консультации на качественных E-A-T сайтах должны быть :
*написаны или подготовлены в профессиональном стиле людьми или организациями с соответствующим медицинским опытом или образованием;
* проверены редактором;
* регулярно пересматриваться и обновляться;
* представлять собой устоявшийся научный консенсус по вопросам, где такой консенсус существует.

Рекомендация: нужно создать страницы-профили авторов-врачей с их краткой биографией и контактными данными; создать страницу "О нас", в которой указать состав редакции, ее адрес и контакты. Медицинский контент не должен устаревать. Его нужно периодически обновлять добавляя новую информацию о симптомах, способах лечения и т.п.

Пример, если статья содержит научный консенсус, не предусматривающий определенную диету, а вы эту диету навязываете, такая статья скорее всего не получит высокую оценку алгоритмом Гугла или через время будет понижена в SERP.

2. Данное обновление алгоритма Google, скорее всего, не связано со скоростью загрузки и безопасностью сайта.

3. На основе полученной в результате экспериментов информации, можно предположить, что на изменение в рейтинге сайта могли повлиять мобильный UX, качество ссылочного профиля и, возможно, изменение весов сигналов ранжирования.

4. Основываясь на пояснениях John Mueller могу предположить, что намеки типа "это связано с релевантностью", указывают на внедрение в 2018 году системы "Нейронные соответствия". Результатом обновленного "понимания" Google содержания текстового контента является обновление алгоритма "Panda". Так что, одна из вероятных причин падения трафика после 1 августа 2018 года — низкое качество контента ("Panda").

Если у вас есть, свои наблюдения на счет медицинского обновления алгоритма Google (1 августа 2018 года), поделитесь в комментариях к статье.
Подробнее