388x60 Ads

Вся правда об обновлении Google BERT

BERT — это метод нейронной сети, цель которого — предварительная подготовка языковых представлений для задач обработки естественного языка (NLP). BERT — это модель «понимания языка», обученная на большом текстовом корпусе (Википедии и корпусе книг).

BERT — это двунаправленный трансформер, который включает в себя два отдельных механизма -— кодер, читающий ввод текста, и декодер, выдающий прогноз для задачи.
Модели обрабатывают слова по отношению ко всем другим словам в предложении, а не по порядку. Таким образом, модели BERT могут учитывать полный контекст слова, рассматривая слова, которые идут до и после него, что особенно полезно для понимания цели поисковых запросов.
— Pandu Nayak, Google Fellow and Vice President, Search

История создания метода BERT

Информация о первоначальном выпуске BERT размещена на GitHub 31 октября 2018 года.
Google очень серьёзно относится к разработке программного обеспечения такого масштаба, поэтому прежде, чем выложить модель BERT в свободный доступ прошли годы разработки и тестирования.

Это просто моя гипотеза, но я думаю, что модель BERT тестировалась в рамках нескольких медицинских апдейтов Google 2018 года, а возможно и ранее — в 2017 году, когда появилась информация о некоем алгоритме "Fred" и о медицинском апдейте в рунете (сентябрь 2017 года).

В процессе обучения BERT с 31 мая 2019 года начали использовать "Модель маскировки всего слова" (Whole Word Masking). Я не буду усложнять описание техническими терминами типа токены и так далее, кому интересно, почитает по ссылкам на GitHub.
Обновление Google BERT
В процессе обучения BERT с 31 мая 2019 года начали использовать "Модель маскировки всего слова" (Whole Word Masking).

Буквально через месяц после внедрения в BERT модели Whole Word Masking, в июне 2019 года Google провёл широкое обновление ядра алгоритма (так называемое июньское обновление 2019 года). Весьма вероятно, что частью этого обновления был эксперимент по тестированию того, насколько точно BERT может анализировать текст, логику его изложения, естественность языка и взаимосвязи между словами.

Косвенно мою гипотезу подтверждает Pandu Nayak, Google:
Чтобы запустить эти улучшения, мы провели много тестов, чтобы убедиться, что изменения на самом деле более полезны. 
И лишь 25 октября 2019 года Google официально сообщил о начале использования BERT в поиске.

Я думаю, что через две недели (с 6 - 7 ноября 2019 года) после завершения этого обновления многие вебмастера заметили значительные изменения в трафике. По моим наблюдения, это, в основном, коснулось информационных сайтов (тематики "Новости", "Медицина", "Эссе").

На 19 ноября 2019 года был запланирован запуск нового Центра для издателей Google News, но что-то пошло не так и это обновление появилось в начале декабря 2019 года.

Вот что известно об этом обновлении Google News:
Google будет использовать программный подход для идентификации издателей новостей. Аналогично тому, как Google определяет и оценивает другие типы контента в Поиске, издателям не нужно будет «подавать заявку на включение», чтобы они рассматривались в Новостях Google.

Предполагаю, что одной из задач BERT является распознавание сути написанного и классификация текста по категориям, например, "Новости", "Прогнозы", "Советы" и так далее.

Google — это в первую очередь коммерческая компания и все новшества имеют конечную цель — максимально увеличить прибыль, в том числе путём снижения расходов. Те из вас, которые подавали заявки в Google News знают, что качество сайтов проверяли так называемые ревьюверы. Это сотрудники сторонних агентств, чьи услуги стояли для Google очень дорого. Внедрение BERT поможет Google полностью или частично отказаться от этих услуг.

Как повлияет Google BERT на SEO?

Думаю, именно это в первую очередь интересует вебмастеров и интернет-маркетологов.

BERT даст возможность Google лучше понимать смысл текста. При этом акцент делается на естественность языка.
Джон Мюллер об алгоритме BERT

Внедрение BERT повлияет на оценку релевантности, ранжирование, трафик, отображение сниппетов и на показ страниц сайта в Google News, Google Discover.

По логике вещей, если с помощью BERT Google будет лучше понимать смысл написанного (контекст), то это значит, что Google Panda будет получать более точную информацию.

BERT также учится моделировать отношения между предложениями, выполняя предварительную подготовку по очень простой задаче, которая может быть сгенерирована из любого текстового корпуса: если даны два предложения A и B , является ли B фактическим следующим предложением, которое следует после A в корпусе, или просто случайное предложение.- Jacob Devlin and Ming-Wei Chang, Research Scientists, Google AI Language

Рассмотрим простой пример. Открываем страницу сайта, на которой основной текст — информация о жизни Достоевского, а внизу традиционный "постовой" — "...смотрите что-то там онлайн..."

BERT даст сигнал Google Panda и, возможно, алгоритму Пингвин, и, в итоге, пострадают оба сайта.

SEO рекомендации в условиях применения BERT


Текст должен быть написан максимально просто, кратко, грамотно и естественно. Этого требуют Федеральные руководящие принципы простого языка. Это закон США и Google его беспрекословно выполняет и учитывает в работе своих алгоритмов, особенно это касается текстов на английском языке.

Избегайте жаргона, минимизируйте сокращения и определения. Используйте одни и те же термины последовательно. Будьте лаконичны.

Текст должен быть оригинальным, слова и фразы в нём должны логически дополнять друг друга и нести полезную смысловую нагрузку.

Для того чтобы BERT лучше понимал вашу логику изложения (контекст) и не воспринял какие-то предложения как случайные, используйте слова - соединители: "Как сказано выше", "Поэтому" и так далее. Вы должны показать, что каждое следующее предложение логически уместно.

Откажитесь от устаревшей практики размещения "постовых" (внизу статьи) в нетематических по содержанию текстах.

Если вы занимаетесь покупкой (размещением) ссылок, старайтесь размещать их внутри текстов, которые релевантны вашей ссылке и в которых ваша ссылка выглядит логично и естественно.

В завершение, если вы хотите протестировать, как работает "Модель маскировки всего слова", попробуйте бесплатный инструмент Института Аллена (The Allen Institute for Artificial Intelligence). Инструмент поддерживает только английский язык.

P.S. Если вам понравилась эта статья, оставьте отзыв и не забудьте поделиться ей с друзьями.
Подробнее

Искусственный интеллект – примеры использования для SEO

Термин «искусственный интеллект» (AI, ИИ) отражает широкую практику систем, которые имитируют человеческий интеллект для принятия обоснованных бизнес-решений на основе данных вашей компании.

Искусственный интеллект (Artificial Intelligence) активно внедряется в различных сферах, в том числе в поиске.

За последние несколько лет Google внедрил как минимум три очень важных алгоритма, основанных на AI – RankBrain (2016), BERT (2019), Нейронные соответствия (2018).
Как искусственный интеллект влияет на SEO
Использование искусственного интеллекта – это уже непросто тренд для SEO и интернет-маркетинга  –  это необходимость.

Искусственный интеллект – основы


В основе человеческого интеллекта лежит способность к обучению, а это означает, что ИИ должен включать в себя овладение и демократизацию машинного обучения. Если вы и ваша команда использовали прогнозную аналитику для оптимизации рабочих процессов вашего бизнеса, вы можете быть ближе к ИИ, чем все остальные.

У ведущих маркетинговых агентств и SEO студий уже давно есть аналитики, анализирующие исторические данные в поисках тенденций, используя статистические принципы, которые полезны для отчётов и экспериментов.

Использование искусственного интеллекта – это уже непросто тренд для SEO и интернет-маркетинга  –  это необходимость. Иначе, вебмастера и маркетологи безнадёжно отстанут от развития поисковых технологий. А ведь уже сейчас специалисты Google заявляют, что мы не можем оптимизировать сайты для BERT, но так ли это?

В 2019 году я начал активно искать компьютерные программы и приложения, основанные на ИИ и которые можно использовать для поискового продвижения сайтов. Некоторыми из них я поделюсь с вами в этой статье. Так что, дочитайте до конца.

Data Mining и ИИ на службе SEO


Основные задачи, которые я пытался решить, используя Data Mining, – глубокий интеллектуальный анализ данных Google Search Console и Google Analytics, построение системы массовой предварительной оценки качества сайтов (на основе данных Ahrefs).  Искусственный интеллект я использовал для автоматизированного создания контента и оптимизации существующего контента.

Если машинное обучение – это язык, стоящий за ИИ, статистика – это грамматика этого языка.

Поэтому, без знаний основ статистики вам будет сложно использовать AI и Data Mining.

Для начала вам нужно определить задачу, которую вы будете решать, затем соберите данные. Для обработки данных вашего датасэта их нужно подготовить – удалить строки и столбцы, которые либо не содержат значений, либо содержат не нужную информацию. Затем нужно привести данные к нужным форматам (текст, значения) и определить целевую категорию.

Вот несколько статей, в которых я использовал Data Mining:
Оптимизация заголовков и описаний
Июньский апдейт Google 2019

Искусственный интеллект примеры использования для SEO


Вы уже наверно заждались, когда уже будут соответствующие ссылки на программное обеспечение или онлайн-инструмент с элементами искусственного интеллекта. Минутку, вот они.

Первое, что я использовал для интеллектуального анализа данных – это пакет бесплатного программного обеспечения Orange.

Если кому-то будет сложно освоить Orange, существует его бесплатный аналог – KNIME.

Наверно многие уже читали, что разработчики OpenAI создали алгоритм на основе искусственного интеллекта GPT-2, который может создавать тексты близкие по качеству к текстам, написанным человеком. Пока что система искусственного интеллекта GPT-2 поддерживает только английский язык.

Как использовать алгоритм GPT-2?


Допустим, вы продвигаете свой сайт, как это принято говорить, под буржунет. Продвигать сайт можно по-разному. Например, вам нужны тексты на английском языке.

Переходим на сайт talktotransformer.com , на котором размещена рабочая модель GPT-2. Найдите источник нужного вам текста. Скопируйте небольшой (два - три предложения) ключевой фрагмент текста и вставьте в окно формы трансформера и нажмите кнопку "Complete Text". GPT-2 создаст от трёх до пяти абзацев текста. Если результат, созданный с помощью искусственного интеллекта, вас не устроил, снова нажмите на кнопку "Complete Text".

Если сгенерированный текст соответствует вашим ожиданиям, скопируйте его. Затем вставьте последний, написанный GPT-2, абзац в форму транформера и снова нажмите на кнопку "Complete Text". И GPT-2 напишет вам продолжение статьи. Надеюсь, технология в целом понятна.

Но что делать с текстом первоисточника? Ведь иногда так хочется его как-то заимствовать. Встречайте бесплатный AI бот, который сделает рерайт довольно хорошего уровня. Далее, просто добавьте рерайт в нужные места текста, созданного при помощи GPT-2.

Пример текста, созданного при помощи искусственного интеллекта. Сразу скажу, это тестовый блог, поэтому он практически никак не оптимизировался, так что не пинайте меня :)

AI инструменты для SEO


Ну, что продолжаем? Компания IBM создала бесплатный инструмент (демо) под названием Natural Language Understanding. Думаю, название говорит само за себя. Инструмент создан для анализа текстового контента. Вы можете ввести в инструмент текст или добавить для анализа нужный URL. Вы получите результаты: анализ сантиментов и эмоций, ключевых слов и их релевантности, список сущностей, тематику текста и много другое.

Стоит сказать, что Google давно использует в поиске сущности, в том числе для оценки релевантности.

Вот два API от Google с которыми следует ознакомиться и которые нужно использовать для SEO:
Google NLP API
Google Vision

Как это использовать? На мой взгляд, лучшая статья по этому поводу написана маркетологом Majectic – Dixon Jones.

Ещё одна фича. Если вы хотите создать для своего набора данных бесплатный классификатор,  это можно сделать тут. Сам пока не пробовал, но собираюсь.

Уже слышны крики ещё, ещё :)

Есть прекрасный бесплатный редактор для писателей, созданный на основе AI, который называется INK. Установите INK на свой компьютер и добавьте плагин INK в свой блог на WordPress. Попробуйте, думаю, что многим понравится.

Ещё одно очень хорошее решение для создания контента на основе ИИ – Frase. Это платный инструмент, но выделяются определённые лимиты для ознакомления с функционалом.

Если вы знаете подобные инструменты, укажите их, пожалуйста, в комментариях и напишите, как вы их используете.
Подробнее

Электронный сейф для повышения информационной безопасности


Как  безопасно хранить конфиденциальные данные

С развитием интернет-технологий проблема безопасности информации с каждым годом становится всё более актуальной. Практически каждый из нас, кто работает с конфиденциальными данными, будь то личные или  коммерческие сведения, в любом случае подвергается рискам потери секретности. При этом большинство таких данных нужно хранить достаточно долго. Но как это сделать, когда с одной стороны хакерские группировки, специализирующиеся, в том числе, на коммерческом шпионаже, а с другой государственные органы желающие все знать, контролировать и иметь ко всему доступ?

Электронный сейф Pvtbox

Самое удивительное в сложившейся ситуации заключается в том, что даже опытные юзеры, которые уже теряли важные данные и репутацию из-за действий злоумышленников, продолжают доверять таким типичным хранилищам как Яндекс.Диск, Гугл Диск и  другим публичным облачным сервисам.

Сколько же раз надо наступить на грабли, чтобы понять простую истину – только узкоспециализированные продукты могут помочь защитить важные файлы.  Действительно, не записывать же всё на флешку и относить её в банковскую ячейку?  Но даже если это сделать – как вы получите быстрый доступ к столь тщательно сохраняемой информации, находясь, например, в другом городе?

Электронный сейф Pvtbox – красивое решение информационной безопасности.


Давайте для начала поставим задачу по пунктам.

Электронный сейф для информационной безопасности

ДАНО: Большой объём информации,  предназначенной для хранения в надёжном хранилище, к которому владелец должен всегда иметь доступ, желательно и в удалённом режиме.

ТРЕБУЕТСЯ: Подыскать надёжный виртуальный склад, который отвечал бы следующим критериям:

не доверял бы передаваемые и сохраняемые файлы посторонним серверам;
был удобен в обращении;
позволял бы пользоваться сведениями в удалённом режиме

Что же предлагает нам электронный сейф, на базе частного облака от Pvtbox ? Давайте рассмотрим возможности этого сервиса на конкретном примере.

Многие из нас помнят  видео, демонстрирующее происходившее под Центральным офисом крупнейшего в Украине интернет-магазина Rozetka.UA: никого не впускают, конкретных объяснений не дают, съемку сторонним наблюдателям запрещают вести люди в штатском.

Такая ситуация характерна не только для Украины, но и для России, Казахстана и других республик СНГ. К сожалению. Мягко говоря, неприятная ситуация для бизнеса. Возникает вопрос, если государственные органы относятся к бизнесу с таким "уважением" то что стоит ожидать от них, когда дело касается информации, принадлежащей бизнесу? Будут ли ее надежно охранять и защищать?  Оставим вопрос без ответа, ответ я думаю очевиден.

Допустим вы владелец небольшого интернет-магазина, который торгует с оплатой  электронными деньгами и платежными картами. Естественно, появляется необходимость хранения определенной коммерческой информации. Будь то статистические данные о результатах торговли и рекламных акций для комплексного мониторинга собственного бизнеса либо любая другая информация. И, наконец, существует необходимость совместной работы со своими коллегами/поставщиками над таблицами, файлами и т.п.

Электронный сейф Pvtbox https://e-safe.pro предлагает настройку всей  инфраструктуры под ключ и решить все эти задачи с помощью следующих простых операций:

1. Аренда выделенного сервера, работающего в надёжном ДАТА-центре за рубежом.

2. После этого на сервере, компьютере и смартфоне устанавливается клиентское приложение Pvtbox.

3. Затем приложение настраивается под конкретные задачи и требования с созданием папок по категориям для хранения различных файлов.

4. Далее осуществляется синхронизация компьютера (смартфона, планшета) через
программу Pvtbox, позволяющая напрямую обмениваться файлами с арендованным частным сервером. Обмен файлов происходит по защищенному  каналу (технология p2p) без участия посреднических станций или облачных серверов. Разумеется с оконечным шифрованием, таким образом, что ключи дешифровки хранятся только на устройствах пользователя. Так что гарантия защиты от перехвата в этом случае стопроцентная.

5. Пользователь электронного сейфа может совершать широкий набор различных операций – например, настроить опционал для совместной работы над файлами с коллегами или сотрудниками с разграничением доступа. При желании можно за несколько секунд стереть всю информацию во всех папках, а легко настраиваемое резервное копирование защитит от потери данных.

Возможность добавление в электронный сейф любого количества стационарных и переносных устройств – ещё один безусловный плюс такого хранилища.

Можно интегрировать сейф в криптораздел на сервере, чтобы все хранилось в
оперативной памяти, Тогда в случае тревоги криптораздел моментально закрывается и
никто, кроме владельца (арендатора сервера), не сможет его открыть. При этом все данные надежно хранятся в закрытом криптоконтейнере.  Это очень изящное решения для хранения  данных.

Использование приложения стоит как аренда банковской ячейки в банке. Но по защищённости и возможностям электронный сейф Pvtbox на порядок превосходит все архаичные методы. И в этом случае даже судебное решение, открывающее доступ к физическим или виртуальным хранилищам, не позволит заинтересованным лицам познакомиться с вашей секретной информацией.
Подробнее

SEO для сайта: оптимизация заголовков и описаний

Поисковая оптимизация сайта для продвижения под поисковую систему Google обязательно включает в себя On-page оптимизацию страниц. Я не сторонник теорий и больше предпочитаю SEO - эксперименты и исследования.

В этой статье я поделюсь с вами результатами одного из последних исследований о влиянии длины Title, Description, H1 на позиции и трафик.

Налейте чашечку чаю или кофе и читайте внимательно!

Недавно прочитал интересное исследование авторов:  Даниэля Маркса, Билла Уламмандаха и Сунгвана Джо.

Их выводы представлены ниже в качестве трёх гипотез.

Гипотеза №1. Более короткие теги Title привели к большему количеству посещений.
Гипотеза №2. Изменения в мета-описании (Description) страницы могут привести к статистически значимым изменениям посещений. Оказалось, что более длинные и описательные Description работали лучше, а наоборот, более короткие, краткие метаописания — хуже.
Гипотеза №3. Изменение H1 может оказывать статистически значимое влияние на органический поисковый трафик.

Выводы первой гипотезы в своих твитах подтверждает известный SEO эксперт Сайрус Шепард:
Удаление менее релевантных ключевых слов в конце длинного тега Title может повлиять на трафик.
Результат: увеличение трафика на 12% по сравнению с предыдущим периодом.
- Cyrus Shepard
Ключевое слово в ответе Сайруса Шепарда - "менее релевантных" ключевых слов.

Другими словами, он тоже говорит, что более короткие заголовки лучше работают. Но так ли это? Я решил для себя это перепроверить.

На Справочном форуме для веб-мастеров и из Google Trends я отобрал для исследования абсолютно разные по типам 10 запросов:
→ биотатуаж бровей хной
→ тяжелая голова
→ купить лего дупло
→ проститутки Новосибирска
→ китайские смартфоны купить в украине
→ скачать майнкрафт с модами
→ выборы в раду 2019
→ война на донбассе сегодня
→ сериалы 2019
→ купить билет на поезд

По каждому из запросов я собрал страницы из ТОП 100 поисковой выдачи Google. Обращаю ваше внимание, что далее приводятся значения из полученной мной выборки и они могут не совпадать с результатами других исследований. Полученные диапазоны отличаются от того, что отображается в SERP, но не отображается и не учитывается – не одно и тоже.

Используя API Moz, Ahrefs, Majestic при помощи Netpeak Checker я собрал датасет с такими показателями:
→ Позиция
→ URL
→ Длина Title  –  On-Page  :  URL
→ Длина Description  –  On-Page  :  URL
→ Длина H1  –  On-Page  :  URL
→ Page Authority  –  Moz  :  URL
→ Trust Flow  –  Majestic  :  Host
→ Citation Flow  –  Majestic  :  Host
→ Trust Flow  –  Majestic  :  URL
→ Citation Flow  –  Majestic  :  URL
→ External Backlinks  –  Majestic  :  URL
→ Referring Domains  –  Majestic  :  URL
→ Mobile Score  –  Google PageSpeed Insights  :  URL
→ Search query
→ Domain Rating
→ Ahrefs Rank
→ Ref domains Dofollow
→ Total Keywords
→ Total Traffic

Информация из этого набора данных была проанализирована в Orange

Самыми важными в этом наборе данных Orange определил такие показатели:
→ Позиция
→ Total Traffic
→ Total Keywords
→ Page Authority  –  Moz  :  URL
→ Citation Flow  –  Majestic  :  URL
→ Ref domains Dofollow
→ Citation Flow  –  Majestic  :  Host.

SEO для сайта: оптимизация длины Title

Итак, давайте посмотрим, есть ли существенная разница в длине Title между страницами из ТОП 10 и страницами, которые не попали в ТОП 10.

Разница в длине Title между эти двумя группами интернет-страниц не статистически значима. Красным цветом на рисунках закрашены страницы из ТОП 10 (целевая переменная → Is_TOP10). Если страница находится в ТОП 10, целевая переменная имеет значение "Yes".

Рис.1
SEO для сайта: оптимизация заголовков

Диапазон длины Title страниц из ТОП 10 составляет от 29 до 117 символов без пробелов.  Как видно на Рис.1 в группе сайтов примерно от 40 позиции и ниже достаточно много страниц Title которых меньше 29 символов или больше 117 символов. Я бы советовал следовать за лидерами.

Наложив длину Title на показатели трафика (Ahrefs), я не смог получить подтверждение, что длина Title как-то существенно влияет на трафик. Несмотря на это, я бы советовал вам перепроверить этот результат проведя A/B тестирование.

Оптимизация длины Description

Разница в длине Description между страницами из ТОП 10 и страницами, которые туда не входят, тоже не статистически значима.

Исходя из данных моей выборки, длина Description страниц из ТОП 10 варьируется в диапазоне от 17 до 276 символов без пробелов.

Рис.2
Оптимальная длина тега Description

На Рис.2 я специально вывел сетку, чтобы вы наглядно увидели сколько интернет-страниц за пределами ТОП 10 с незаполненным Description. Учитывая это, думаю, можно согласится с Гипотезой №2 о том, что более длинные и описательные Description работают лучше.

Не заполнять Description и надеяться на то, что Google сам всё подставит, я бы не советовал.

Придерживайтесь диапазона длины Description для страниц из ТОП 10 и делайте описания сайта максимально релевантными. 

Поисковая оптимизация H1

Заголовок H1 в паре с Title в значительной мере передают роботу поисковой системы информацию о релевантности контента поисковому запросу.

Вы, по желанию, можете не использовать другие заголовки H2-H6, но H1 должен бить заполнен.

Рис.3
Поисковая оптимизация заголовка H1

На Рис.3 видно, что начиная с двадцатой позиции и ниже увеличивается количество интернет-страниц, у которых длина H1 выше 69 символов без пробелов. Учитывая это, можно согласиться с Гипотезой №3 о том, что длина тега H1 может оказывать статистически значимое влияние на органический поисковый трафик.

Оптимальная длина тега H1 (по данным моей выборки) от 9 до 69 символов без пробелов.

Дополнительные данные для оптимизации

Кроме анализа оптимальной длины Title, Description, H1 по данным выборки можно получить дополнительную полезную информацию для оптимизации сайтов.

Подтвердился вывод из исследования по июньскому обновлению алгоритма Google о том, что поисковик более благосклонно относится топовым сайтам и не наказывает за низкие значения Mobile Score  –  Google PageSpeed Insights.

Рис.4
Mobile Score  –  Google PageSpeed Insights

У основной группы топовых сайтов максимальный показатель Mobile Score составляет 59 процентов. И разница эта по сравнению с другими страницам статистически значима (не случайна).

Для тех, кто любит анализировать будет интересно, по каким показателям есть статистически значимая разница между группой страниц из ТОП 10 и остальными страницами.


По результатам моей выборки, статистически значимые отличия есть по таким показателям:
→ Citation Flow  –  Majestic  :  URL
→ Citation Flow  –  Majestic  :  Host
→ Page Authority  –  Moz  :  URL
→ Ahrefs Rank
→ Mobile Score  –  Google PageSpeed Insights

Надеюсь это исследование о поисковой оптимизация заголовков H1, Title и Description будет полезно вам для продвижения сайтов. Высоких вам позиций и хорошего трафика.

P.S. Если вам понравилась эта статья, оставьте отзыв и не забудьте поделиться ей с друзьями.
Подробнее

Text Mining - интеллектуальный анализ твитов

Недавно я опубликовал статью "Интеллектуальный анализ данных — используем Orange" и пообещал привести пример использования этого программного обеспечения для целей поисковой оптимизации.

Сегодня мы рассмотрим, как использовать Orange для целей text mining (интеллектуального анализа текста).

Text mining — это особый случай интеллектуального анализа данных.

Чем это может быть полезно для вебмастера и интернет-маркетолога?
Вы можете проанализировать текст из любого источника (социальные сети, SERP, проекты статей и т.п.) по разным критериям.

Например, вы можете спаристь результаты поисковой выдачи по нужному запросу и при помощи сформированного "Облака слов" понять о чём в основном пишут в Title и Description. Это будет полезно для оптимизации существующего и создания нового контента.

Интеллектуальный анализ текстов 

Сегодня мы проведём интеллектуальный анализ текстов твитов.

Условия:
Информационный повод: 28 июня 2019 г. в Осаке встречались президенты России и США — Путин и Трамп.

Сопоставим аудиторию по языковому принципу, содержанию и эмоциональному наполнению.

Для каждой из двух газет будет проанализировано по 100 твитов.

Text-mining твитов Washington Post и New York Times 

Давайте посмотрим, как в Twitter обсуждали публикации Washington Post и New York Times, посвящённые этому событию.

Аудитория, которая в Twitter обсуждала New York Times, в основном писала о Трампе.

Text Mining показывает, что в отличие от New York Times, аудитория Washington Post писала в Twitter о трёх президентах — Трампе, Путине и, что неожиданно, об Обаме. Другими словами, аудитории New York Times президент России вовсе не интересен (Рис.1).

Рис.1
Text Mining - создание облака слов
Интеллектуальный анализ текста твитов показал, что аудитории газет Washington Post и New York Times имеют разный интерес к одному и тому же событию.

Основная аудитория Washington Post в Twitter англоязычная (в незначительной доле присутствует Хинди).

Новости New York Times в твитере тоже комментируют, в основном, на английском языке, но тут также значительную долю имеет испанский язык, а также индонезийский и португальский.

Маркетологам New York Times нужно периодической изучать свою аудиторию в Twitter, чтобы понять нужно ли им создавать для своей аудитории больше контента на испанском, индонезийском и португальском языках (Рис.2).

Если есть люди, говорящие на этих языках и интересующиеся новостями New York Times, маркетологи тоже должны заинтересоваться этой аудиторией.

Рис.2
Text Mining - распределение аудитории по языку

При помощи Text Mining можно провести эмоциональный анализ сообщений в Твиттер (Рис.3).

Видно, что аудитория Washington Post публикует больше твитов, связанных со страхом и удивлением, чем аудитория New York Times.

Рис.3

Вы тоже можете проанализировать аудиторию и контент в вашем твитер аккаунте и сравнить их с результатами конкурентов.

Text Mining с помощью Orange

Откройте Orange. Перейдите в раздел Options главного меню, раздел Add-on и инсталлируете Add-on под названием Text. Перегрузите программу.

Создайте новый шаблон (File — New) для интеллектуального анализа текста.

Перетащите на рабочую поверхность виджеты:
*Twitter — источник данных. Нужно ввести Twitter API key, ввести список ключевых слов и указать количество твитов.
*Preprocess Text — этот виджет позволит вам избавится от стоп-слов.
*Bag of Words  — создает корпус с количеством слов для каждого экземпляра данных (документа) и может использоваться для прогнозного моделирования. Количество может быть абсолютным, двоичным (содержит или не содержит) или сублинейным (логарифм частоты термина).
*Word Cloud — визуализация данных. Виджет показывает "Облако слов" в зависимости от их частоты в корпусе слов.


Соедините эти виджеты между собой так, как показано на Рис.4.

Рис.4
Text Mining - интеллектуальный анализ твитов

Интеллектуальный анализ текста, на мой взгляд, одно из самых перспективных направлений в поисковой оптимизации и интернет-маркетинге.

Если вы уже пользуетесь Orange или другими программами для Text Mining, напишите об этом в комментариях к статье.
Подробнее

Июньский апдейт Google 2019 - исследование


Июньский апдейт Google 2019



Google в очередной раз обновил свой поисковый алгоритм (широкое обновление ядра). По охвату это было такое же обновление, как Медицинский апдейт 2018 года.

Дата начала обновления — 3 июня 2019 года.
Дата завершения обновления — 8 июня 2019 года.

Многие эксперты утверждают, что недавний апдейт алгоритма Google затронул в основном сайты медицинской и финансовой тематики (например, агрегаторы типа apec2015.ph) — YMYL сайты.

Цель исследования — выявить  зависимости в показателях "сайтов-победителей" и "сайтов-неудачников".

Методология исследования

По сообщению сотрудника Google Джона Мюллера — Mobile-first indexing будет включен по умолчанию для всех новых, ранее неизвестных Google Search, веб-сайтов начиная с 1 июля 2019 года.

Предположение — обновились все ключевые алгоритмы Google, в том числе Панда и Пингвин. Обновление Mobile-first indexing, на самом деле, более масштабное, чем об этом упомянул Джон Мюллер.

Учитывая это, при сравнении списка доменов основное внимание в исследовании направлено именно на показатели мобильной выдачи. Поскольку традиционно все новшества, в основном, выкатывают в США, — регион для сбора данных — США.

Размер выборки — 200 сайтов.

Используемые источники данных:

SEMrush Sensor — информация о степени влияния апдейта Google на сайты в зависимости от их тематики. Показатели роста и падения позиций и ключевых слов по ТОП100 "сайтов-победителей" (Winner) и "сайтов-неудачников" (Loser).
Majestic — набор данных (Dataset) из инструмента Bulk backlink checker.
Ahrefs — набор данных (Dataset) из инструмента Batch analysis.
Google PageSpeed Insights — значения Mobile Score, Mobile First Contentful Paint, Mobile First Meaningful Paint для мобильной версии сайта.

Используемое программное обеспечение (Software):

Netpeak Checker 3.2.0.0 — парсинг данных Google PageSpeed Insights по сайтам из выборки.
Orange — интеллектуальный анализ собранных данных (Data mining).
AnswerMiner — построение матрицы корреляции показателей из набора данных, а также построение дерева прогноза.

Подготовка данных

Все не числовые значения переведены в числовые.
Знак разделитель запятая (для дробных значений) заменен на точку. Иначе Orange не воспринимает такие данные, как числовые.
Целевая переменная (target) — Status, значения — Winner, Loser.

Июньский апдейт Google — результаты исследования

Тематики (ниши), которых больше всего затронуло обновление Google, по степени воздействия можно разделить на две группы:
1) Новости (9,10), Спорт (7,90), Еда и напитки (6,90), Игры (6,60), Онлайн-сообщества (6,60), Искусство и развлечения (6,10);
2) Интернет и телефония (5,80), Животные (5,70), Здоровье (5,50), Финансы (5,30), Красота и фитнес (5,20), Люди и общество (5,20).

Из них в первой категории к YMYL сайтам относятся Новости, а во второй все тематики, кроме первых двух.

При помощи Orange сайты из нашей выборки были кластеризованы на основе их показателей из набора данных.

Большая часть "сайтов-неудачников" (Loser) находятся в одном кластере С5 (закрашен жёлтом цветом, см. Рис.1).

Рис.1
Июньский апдейт Google

"Сайты-победители" (Winner) менее однородны и их большая часть размещена в двух кластерах — С3 и С6 (закрашены соответственно зелёным и фиолетовым цветами).

По данным AnswerMiner, наибольшую корреляцию с целевой переменной Status имеют:
Новые ключевые слова (New keywords) — 79% — очень сильная корреляция (Рис.2).

Рис.2
Июньский апдейт Google - новые ключевые слова


На Рис.2 видно, что у "сайтов-победителей" больше новых ключевых слов, по которым они ранжируются в Google.

Mobile Score Google PageSpeed Insights — 36% (сильная корреляция).

Умеренную корреляцию с целевой переменной Status имеют показатели:
- OutLinksExternal — 15%, показатель Majestic — количество исходящих ссылок для этого домена;
- NonUniqueLinkTypeHTTPS — 15%, показатель Majestic — количество неуникальных ссылок, которые используют HTTPS в качестве протокола;
-Trust Flow — 14%, показатель Majestic — траст сайта;
-Ref domains Dofollow — 13%, показатель Ahrefs;
-Total Keywords — 13%, показатель Ahrefs;
-Total Traffic — 11%, показатель Ahrefs.

Рис.3
Июньское обновление алгоритма Google

Mobile Score имеет сильную корреляцию с "Динамикой позиций" и "Новые ключевые слова".

Вероятность того, что сайт будет отнесен в категорию Loser составляет 87%, если в наборе данных показатель "Новые ключевые слова" имеет значение ноль.

Если Trust Flow меньше 40 и при этом NonUniqueLinkTypeHTTPS меньше 44 вероятность того, что домен попадет в категорию Loser почти 70 процентов.

Многие "Сайты-победители" (Winner), имеющие показатель Trust Flow от 35 до 75, не блещут показателями Mobile Score. Но... разница в значениях по показателю Mobile Score между Победителями и Неудачниками не статистически значима, т.е. если и есть, то скорее случайна.

Рис.4
Влияние скорости загрузки сайта

Можно предположить, что если трастовый сайт публикует много полезного уникального контента и число ключевых слов, по которым он ранжируется, растет, то Google "закрывает глаза" на низкое значение Mobile Score.

Статистически значимые различия

Если говорить просто, то статистически значимое различие — это когда разница не является случайной.

Как показывает наше исследование, "сайты-победители" (Winner) являются более трастовыми (имеют лучшие показатели Trust Flow), чем "сайты-неудачники" (Loser)  и разница эта не случайна.

Рис.5
Trust Flow - разница при апдейте Гугл

Разница в значениях показателя Total Backlinks по Ahrefs между этими двумя группами сайтов тоже статистически значима.

Рис.6
Влияние ссылок - июньский апдейт Гугл

Даже если сравнить значения медиан показателя Total Backlinks между "сайтами-победителями" и "сайтами-неудачниками", то у неудачников это значение более, чем в два раза ниже, чем у победителей.

Июньский апдейт Google 2019 — результаты

Основываясь исключительно на данных выборки из SEMrush и на показателях метрик указанных выше инструментов, без учета качества контента и юзабилити, можно сделать такие выводы.

Обновление Google Mobile-first indexing если и было, то затронуло оно только сайты-неудачники.

Если покупаете (размещаете) ссылки, старайтесь, чтобы они вели со страниц, которые используют https протокол.

У сайтов-неудачников, пострадавших в результате обновления алгоритма Google, меньше траста и ссылок, мало или отсутствуют новые ключевые слова, по которым они ранжируются.

Проблема с новыми ключевыми может быть связана с блокировкой (прекращения обновления) файла sitemap в Google Searh Console и это, скорее всего, не баг, а способ наказания.

В это же время (с 4 по 6 июня 2019 года) Google выкатил ещё одно техническое обновление, которое, явлется самостоятельным апдейтом и совпало по времени с широким обновлением ядра ("Июньский апдейт").

Danny Sullivan в Twitter сообщил, что Google теперь в большинстве случаев не будет показывать по одному запросу более двух результатов по одному домену.

Ясно, что те сайты, у которых было в SERP больше двух результатов по одному запросу, могут существенно потерять в трафике.


Проверьте свое ссылочное в Google Search Console. Замечено, что у сайтов, которые потеряли трафик в июньский апдейт, много ссылок с доменов  .cf, .ga, .gq, .ml и .tk. Не грех проверить за одно и ссылающиеся домены .info. Скорее всего — это спам. Отклоните их.

P.S. Если вам понравилась эта статья, оставьте отзыв и не забудьте поделиться ей с друзьями.
Подробнее