388x60 Ads

Лучшие сериалы онлайн по мнению зрителей

Лучшие сериалы онлайн

Несколько лет назад я опубликовал рекомендации по раскрутке онлайн кинотеатра.

Я сам смотрю сериалы онлайн, в основном это британские сериалы, а так же американские. Предпочитаю такие жанры: детективный сериал, мистический сериал, комедийный сериал.

Мне стало интересно какие лучшие сериалы по мнению зрителей. Если вбить запрос "лучшие сериалы" или "топ сериалов" можно прочитать разные рейтинги фильмов за разные годы.

Но эта статья для вебмастеров и в ней я опубликую результаты исследования, основанного на реальных отзывах зрителей крупного онлайн кинотеатра с пиратским (незаконным) контентом.

Это поможет вам лучше понять, какие сериалы, какого жанра и из какой страны заливать на свой сайт в первую очередь.

Исследование: лучшие сериалы онлайн по мнению зрителей

Информация об онлайн кинотеатре, чьи данные я использовал в своем исследовании.

Суммарный  трафик этого кинотеатра по данным rank2traffic.com составляет 53,8 млн. сеансов в месяц (1,79 млн. сеансов в день или 19,6 млрд. сеансов в год). Этому домену почти 11 лет и он нормально себя чувствует несмотря на все обновления Google и проблемы с DMCA.

Вовлечение пользователей: продолжительность сеанса - 02:37 минут; 2,2 просмотра страниц за сеанс и показатель отказов - 49,5%.

Органический трафик - 26,6 процента посещений, в то время как 72,4% посещают напрямую, а 1,0% - по гиперссылке в Интернете (реферальный трафик).

Большинство сессий инициированы из Украины - 37,0% , Беларуси - 18,0%, Российской Федерации - 12,6%, Казахстана - 5,7%, Германии - 5,1%.

Сбор данных при помощи Netpeak Spider

Для анализа мне нужны были исключительно страницы с сериалами. Я изучил структуру этого кинотеатра и выяснил какой шаблон составления URL используется на страницах с сериалами.

Запускаем Netpeak Spider  (промокод на скидку в 10% - 869c893c) , открываем меню "Настройки", раздел "Правила". Ставим отметку напротив поля "Использовать правила сканирования" и вписываем что-то на подобии этого.


Затем в меню "Настройки" переходим раздел "Парсинг" и прописуете то, что намерены парсить.

Подробная инструкция как использовать Neatpeak для парсинга тут.

Совет №1: в параметрах оставьте только "Код ответа сервера" и в разделе параметров "Парсинг" - нужные вам данные. Это значительно упростит и ускорит парсинг данных.

Совет №2: если вы испытываете трудности с настройкой парсинга, напишите в Телеграмм Марку @mark_netpeaksoftware .

Итак, при помощи Netpeak Spider я спарсил только страницы сайта с самими сериалами. Их оказалось 24611.

Поскольку в процессе исследования я использовал машинное обучение (Machine Learning) и Data Mining я вынужден был провести предварительную обработку и очистку данных.

Я удалил строки, которые не содержали информации о режиссере. Удалил столбец "Рейтинг сериалов imdb" потому, что на сайте этого онлайн кинотеатра он не везде был указан.

Кроме этого, при помощи разных комбинаций с автозаменой в Excel в текстовых полях удалил все не нужное.

После очистки и форматирования данных моя выборка составила 18219 интернет страниц, содержащих информацию о сериалах или 74% от генеральной совокупности.

Проанализировав набор данных в AnswerMiner я выявил наличие умеренной корреляции (46%) между показателями трафика по данным Ahrefs и количеством комментариев.

Корреляция показателей набора данных

На графике это выглядит следующим образом.

Динамика трафика
При росте трафика по данным Ahrefs растёт и количество комментариев.

Корреляция это конечно не причинно-следственная связь, но в этом случае довольно сильный сигнал.

Учитывая это, я в качестве целевой переменной использовал "Количество комментариев", поскольку именно этот показатель при отсутствии доступа к реальной статике может указывать на интерес пользователей к сериалу.

Определяем интересные сериалы


Я загрузил полученный набор данных в свою любимую программу для интеллектуального анализа Orange и кластеризировал данные используя метод К-средних.

Распределение лучших сериалов по годам

Как видно на рисунке, по вертикали у нас количество комментариев, а по горизонтали - дата выхода сериала.

Список сериалов разделен на четыре кластера, но основные из них три:
С3 - мало популярные в наше время сериалы (период с 1914 по 1999 года).
С2 - сериалы со средней популярностью (период с 2000 по 2020 года).
С4 - это топ сериалов или лучшие сериалы последних лет.
Кластер С1 для нашего анализа особого интереса не представляет.

Как видно на графике, основной временной горизонт популярности - это период с 2000 по 2020 годы. 

Судя по нашим данным, пользователи мало интересуются сериалами, выпущенными до 2000 года.

При этом, самые популярные - это лучшие сериалы последних лет, выпущенные с 2012 по 2020 год.

Топ сериалов


Проанализировав топ сериалы моей выборки я был удивлён тем, что японские сериалы делят пальму первенства с сериалами США (по 7 топ сериалов из топ 20).

Японские популярные сериалы - это в основном аниме, фэнтези, приключения (популярные сериалы для подростков); американские сериалы - это детективы, ужасы, фэнтези; российские популярные сериалы из топ 20 последних лет - это в основном комедии.

ТОП20: лучшие сериалы последних лет - список

По данным моей выборки лучшие сериалы последних лет (топ 20 сериалов по количеству комментариев) это:

ТОП20: лучшие сериалы последних лет

Для удобства вывожу список топ 20 сериалов последних лет отсортированных в порядке убывания по количеству комментариев:

Сериал Наруто: Ураганные хроники/Naruto Shippuuden
Сериал Виолетта/Violetta
Сериал Блич/Bleach
Сериал Ван-Пис/One Piece
Сериал Универ. Новая общага  1 сезон
Сериал Сказка о хвосте феи/Fairy Tail  2 сезон
Сериал Сверхъестественное/Supernatural  9 сезон
Сериал Сказка о хвосте феи/Fairy Tail  1 сезон
Сериал Интерны  1 сезон
Сериал Игра престолов/Game of Thrones  6 сезон
Сериал Игра престолов/Game of Thrones  8 сезон
Сериал Дневники вампира/The Vampire Diaries  4 сезон
Сериал Игра престолов/Game of Thrones  3 сезон
Сериал Доктор Кто/Doctor Who  11 сезон
Сериал Гримм/Grimm  4 сезон
Сериал След
Сериал Наруто/Naruto
Сериал Тетрадь смерти /Death Note
Сериал Сверхъестественное/Supernatural  1 сезон
Сериал Воронины

Теперь давайте поговорим об отличительных деталях внутренней оптимизации страниц сериалов в зависимости от года выпуска. Так вот, количество символов в H1 для сериалов, выпущенных до 2000 года, меньше, чем для сериалов, выпущенных после 2000 года. В первом случае количество символов в среднем до 80, а во втором, соответственно, - 100.

Так что, заголовок Н1 у популярных сериалов - в пределах 100 символов. Как мы помним из разъяснений Google, заголовок Н1 существенно влияет на определение релевантности.



Вернемся к нашим кластерам и проверим при каких условиях сериал попадет в число популярных сериалов.

Ещё раз напомню, что нас интересуют в основном два кластера:
С2 - сериалы со средней популярностью (период с 2000 по 2020 года).
С4 - это топ сериалов или лучшие сериалы последних лет.

Я загрузил набор данных в бесплатный инструмент для машинного обучения BigML. Создал, обучил и оценил модель данных.  Точность модели 97,88% и это очень хороший результат.

С уровнем доверия 99,96% мы можем сказать, что для кластера С2 (средний уровень популярности) предиктором является длина описания к фильму. Согласно этому дереву решений, чтобы URL сериала попал в кластер С2, дата его выхода должна быть не ранее 2000 года и длина описания к фильму до 757 символов. Так что хорошее описание - это очень важный элемент оптимизации онлайн кинотеатра.

Что касается кластера С4 (лучшие сериалы последних лет по количеству комментариев), то с уровнем доверия 90,36% модель дает прогноз, что в этот список попадут URL страницы сериала с датой выхода позднее 1998 года и количеством символов к описанию фильма более 802.  Пишите подробные и интересные описания к фильмам, друзья мои.

Кроме того, используя BigML я провел анализ тем текстовых полей моего набора данных.


Как видим, самая вероятная тема "Отечественные" и основное условие, которое в её контексте употребляется - это слово "Россия" и различные русские имена.

Второй по вероятности является тема "Детективы", которая имеет производную тему "Криминальные". На рисунке вы видите основные условия для темы "Детективы".

И завершает тройку наиболее вероятных тем - тема "Приключения". Её основной контекст - это слова: "Приключения", "Комедия", "Анимационные", "Друзья".

Эти же данные можем представить в другом виде.

На этом рисунке вы можете просмотреть основные термины по темам. Каждый термин представлен полосой, длина которой обозначает важность термина в этой теме (т. е. вероятность термина).

Модель тем находит термины, которые с большей вероятностью встречаются вместе, и группирует их в разные темы, определяя контекст.

Почему так важен контекст, которому соответствует информация из Title, H1 и текстового контента на странице?

Потому что с запуском Google BERT естественность языка и контекст употребления слов на странице играют очень важную роль.

А теперь ещё несколько цитат от Google:
О релевантности информации в первую очередь говорит наличие на странице тех же ключевых слов, что и в поисковом запросе. Если они действительно есть, например в заголовках или основном тексте, значит информация с большей вероятностью соответствует введенному запросу. Чтобы повысить рейтинг своих страниц в рекомендациях [Google Discover - авт.], попробуйте не только публиковать на них интересные материалы, но и размещать изображения высокого качества (шириной как минимум 1200 пикселей). Мы уделяем особое внимание тому, важна ли пользователю актуальность контента. Если выполнить поиск по популярным на текущий момент ключевым словам, то наши специальные алгоритмы будут считать приоритетной актуальную информацию.
Это соотносится информацией об интересах пользователей, полученной в рамках этого исследования. Актуальной информацией для посетителя онлайн кинотеатра можно считать фильмы, дата выхода которых была не позднее восьми лет назад.

Актуальность контента онлайн кинотеатра


Другими словами, актуальность (свежесть) - это время жизни контента. Коридор актуальности для любителей сериалов - это 8 последних лет. Каждые 2 с половиной года уровень актуальности (интереса к сериалу) снижается примерно на 30 процентов.

И если провести анализ сериалов из кластера С4 в разрезе стран, то на США приходится 68% самых популярных сериалов, доля России в этом сегменте - 13%, Великобритания - 4% и прочие то же 4 процента.

Самые успешные режисеры сериалов кластера С4: Алан Тейлор, Дин Уайт, Дэвид Баррет, Дэвид Наттер, Дэвид Стрейтон, Марк Сендроуски, Маркос Сига, Норберто Барба, Тим Эндрю, Фёдор Торстенсен, Филип Сгриккиа, Эрнест Р. Дикерсон. Так что следите за их новыми работами.

Основные выводы

При создании онлайн кинотеатра или обновлении его контента рекомендую:
a) Количество символов в заголовке Н1 от ста;
b) Приоритет отдавайте сериалам максимум 8 летней давности из США, России и Великобритании, но не забывайте про Японию и набирающие популярность турецкие сериалы;
c) Минимальное количество  символов к описанию содержания популярного сериала - 802;
d) Размещайте изображения с высоким разрешением (шириной как минимум 1200 пикселей);
e) Обратите внимание на естественность языка и контекст использования слов между собой. Можно использовать для этого этот бесплатный инструмент.


Вячеслав Вареня
Вячеслав Вареня
Статус: seo-специалист | Контакты |


2 коммент.:

Денис Барвинок комментирует... [Ответить]

Хоть кинотеатра у меня нет, но почитать было интересно)

Viacheslav Varenia комментирует... [Ответить]

@Денис Барвинок

Спасибо, Денис, за хороший комментарий.

Отправка комментария