Text Mining - интеллектуальный анализ

Недавно я опубликовал статью «Интеллектуальный анализ данных — используем Orange» и пообещал привести пример использования этого программного обеспечения для целей поисковой оптимизации.

Сегодня мы рассмотрим, как использовать Orange для целей text mining (интеллектуального анализа текста).

Text mining — это особый случай интеллектуального анализа данных.

Чем это может быть полезно для вебмастера и интернет-маркетолога?
Вы можете проанализировать текст из любого источника (социальные сети, SERP, проекты статей и т.п.) по разным критериям.

Например, вы можете спаристь результаты поисковой выдачи по нужному запросу и при помощи сформированного «Облака слов» понять о чём в основном пишут в Title и Description. Это будет полезно для оптимизации существующего и создания нового контента.

Интеллектуальный анализ текстов

Сегодня мы проведём интеллектуальный анализ текстов твитов.

Условия:
Информационный повод: 28 июня 2019 г. в Осаке встречались президенты России и США — Путин и Трамп.

Сопоставим аудиторию по языковому принципу, содержанию и эмоциональному наполнению.

Для каждой из двух газет будет проанализировано по 100 твитов.

Text-mining твитов Washington Post и New York Times

Давайте посмотрим, как в Twitter обсуждали публикации Washington Post и New York Times, посвящённые этому событию.

Аудитория, которая в Twitter обсуждала New York Times, в основном писала о Трампе.

Text Mining показывает, что в отличие от New York Times, аудитория Washington Post писала в Twitter о трёх президентах — Трампе, Путине и, что неожиданно, об Обаме. Другими словами, аудитории New York Times президент России вовсе не интересен (Рис.1).

Рис.1

Text Mining - создание облака слов

Интеллектуальный анализ текста твитов показал, что аудитории газет Washington Post и New York Times имеют разный интерес к одному и тому же событию.

Основная аудитория Washington Post в Twitter англоязычная (в незначительной доле присутствует Хинди).

Новости New York Times в твитере тоже комментируют, в основном, на английском языке, но тут также значительную долю имеет испанский язык, а также индонезийский и португальский.

Маркетологам New York Times нужно периодической изучать свою аудиторию в Twitter, чтобы понять нужно ли им создавать для своей аудитории больше контента на испанском, индонезийском и португальском языках (Рис.2).

Если есть люди, говорящие на этих языках и интересующиеся новостями New York Times, маркетологи тоже должны заинтересоваться этой аудиторией.

Рис.2

Text Mining - распределение аудитории по языку

При помощи Text Mining можно провести эмоциональный анализ сообщений в Твиттер (Рис.3).

Видно, что аудитория Washington Post публикует больше твитов, связанных со страхом и удивлением, чем аудитория New York Times.

Рис.3

Вы тоже можете проанализировать аудиторию и контент в вашем твитер аккаунте и сравнить их с результатами конкурентов.

Text Mining с помощью Orange

Откройте Orange. Перейдите в раздел Options главного меню, раздел Add-on и инсталлируете Add-on под названием Text. Перегрузите программу.

Создайте новый шаблон (File — New) для интеллектуального анализа текста.

Перетащите на рабочую поверхность виджеты:
*Twitter — источник данных. Нужно ввести Twitter API key, ввести список ключевых слов и указать количество твитов.
*Preprocess Text — этот виджет позволит вам избавится от стоп-слов.
*Bag of Words  — создает корпус с количеством слов для каждого экземпляра данных (документа) и может использоваться для прогнозного моделирования. Количество может быть абсолютным, двоичным (содержит или не содержит) или сублинейным (логарифм частоты термина).
*Word Cloud — визуализация данных. Виджет показывает «Облако слов» в зависимости от их частоты в корпусе слов.

Соедините эти виджеты между собой так, как показано на Рис.4.

Рис.4

Text Mining - интеллектуальный анализ твитов

Интеллектуальный анализ текста, на мой взгляд, одно из самых перспективных направлений в поисковой оптимизации и интернет-маркетинге.

Если вы уже пользуетесь Orange или другими программами для Text Mining, напишите об этом в комментариях к статье.

Один комментарий к “Text Mining — интеллектуальный анализ твитов”
  1. Очень интересный инструмент! Жаль, что такой не простой, с ходу не разобраться в теме…

    По Вашему примеру…

    Для анализа данных надо еще учитывать, что выборка по одному источнику не будет релевантной теме исследования в целом, т.к. ход мыслей, точнее набор вариантов их направления очень сильно определяется стартовым сообщением.

    Даже подбор слов для стартового поста влияет на то, что именно всплывёт в обсуждении, и какая эмоциональная окраска получится у обсуждения в целом. Так и происходит влияние на мнения толпы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *