388x60 Ads

Машинное обучение и анализ данных о позициях сайта

Машинное обучение или Machine Learning — разновидность искусственного интеллекта в основанного на изучении компьютерных алгоритмов, которые автоматически улучшаются по мере накопления опыта.

В этой статье вы узнаете, как можно использовать машинное обучение и анализ данных для прогнозирования позиции сайта в результатах поисковой выдачи.

Прежде я хотел бы объяснить для чего это может понадобиться вебмастеру или интернет-маркетологу.

Многие из вебмастеров просто мониторят позиции сайта в поисковой выдачи и если эти позиции их не устраивают, начинается поиск причин. Я же вам предлагаю при помощи машинного обучения прогнозировать позиции сайта и оптимизировать страницы так, чтобы в итоге они достигли прогнозных значений.

Машинное обучение и анализ данных для SEO

Всё знают, что поисковики активно используют машинное обучение, но почему-то вебмастера, на мой взгляд, не спешат использовать Machine Learning для целей поисковой оптимизации сайтов. По крайней мере, в сети очень мало достойных внимания статей о машинном обучении, которые сфокусированы именно на SEO.

Я написал несколько статей о машинном обучении для SEO:
Машинное обучение и анализ данных для чайников
Как использовать машинное обучение для анализа тем YMYL страниц
Как Google классифицирует YMYL сайты

Итак, давайте рассмотрим пример, как спрогнозировать позицию страницы своего сайта или сайта конкурента.

Сбор и анализ данных для прогнозирования

Если вы вводите в окно поиска поисковый запрос, поисковик подсвечивает слова из запроса жирным шрифтом, если такие слова упоминаются в Title и Description. То, что использование слов из поискового запроса в Title, Description и Н1 влияют на релевантность страницы известно давно.

Мне было интересно, можно ли при помощи машинного обучения и анализа данных понять как именно "вхождения" ключевых слов влияют на релевантность и влияют ли они на прогноз позиций сайта.

Для анализа данных нужно их для начала собрать. Были собраны данные информационных сайтов. Для сбора данных я использовал SEMrush и Netpeak Spider. 

Откройте SEMrush, введите интересующие вас домен и базу поиска, например RU. Перейдите в раздел "Анализ поисковой выдачи". Если это необходимо, можете настроить необходимые фильтры по позициям, Search Volume и другим показателям. Затем экспортируйте данные.

Из SEMrush в своем наборе данных я использовал такие показатели: Keyword, Position, Previous position, Search Volume, Keyword Difficulty, CPC, URL, Competition.

Далее, я взял из отчёта SEMrush список URL и добавил их в Netpeak Spider. Тут остановлюсь чуть подробнее. Откройте Netpeak Spider. Создайте новый проект.

Netpeak Spider и анализ данных

В меню "Список URL" можно выбрать "Внести вручную" и вставить список URL. Именно так я и сделал.

В параметрах я выбрал: Время ответа сервера, Title, Длина title, Description, Длина description, Содержимое H1, Длина H1,Размер контента, Соотношение Text/HTML, Количество слов, Content-Length.


Я объединил данные из SEMrush и Netpeak Spider в один набор данных, который содержал информацию о 9751 URL.

При помощи самописной программы я получил коэффициент релевантности. Ну, это я для себя так назвал этот показатель, вы можете назвать по другому. Суть его в том, что скрипт по каждому запросу брал каждое слово из него и проверял, упоминается оно в Title, Description и Н1 или нет. Например, если запрос состоит из трех слов, а в Title упоминается только два из них, тогда коэффициент для Title составляет 0,66.

Машинное обучение и анализ данных

Набор данных, дополненный рассчитанными коэффициентами, я загрузил в бесплатный онлайн-инструмент для Machine Learning, который называется BigML. Об этом инструменте я подробно писал в указных выше публикациях.

Я построил модель в виде дерева решений точность которой составляет 77,9 процентов (довольно точная модель).

Машинное обучение и анализ данных

Как видно на этом изображении, предиктором является "Объем поиска". Другими словами, многое зависит от того, это низкочастотный поисковый запрос или нет.

Построенная мной модель с точностью почти 85% показывает, что коэффициенты вхождения ключевого слова из запроса важны, только в случае, если это средне частотный или высокочастотный запрос, а сама страница имеет высокий показатель ответа сервера. Если, при этом, коэффициенты вхождения в Description и Н1 меньше 0,92 (не все слова из запроса упоминаются в Description и Н1), тогда страница не попадёт в ТОП 20 Google.

Прогнозирование и анализ данных о позициях сайта

Используя машинное обучение я решил спрогнозировать вероятность позиции в выдаче Google и как на этот прогноз повлияет изменения коэффициента вхождения ключевого слова в Title, Description и Н1.

Я собрал из SEMrush и Netpeak Spider данные выбранного наугад информационного сайта по указанному выше принципу и шаблону.

Затем, используя машинное обучение я получил прогнозные данные о вероятной позиции в выдаче Google. Сразу скажу, что при достаточно низкой ошибке модели, прогнозные позиции были как в лучшую, так и в худшую сторону, по сравнению с фактической.

Вот расширение для Google таблиц, которое вы можете использовать для повторения моего эксперимента.

Ухудшенная оценка может указывать на то, что страница держится в ТОПе за счет других более важных факторов.

Улучшенная оценка может указывать на то, что при оптимизации используемых в модели параметров можно достичь более высоких результатов.


Предсказание позиций сайта

Для эксперимента я в некоторых строках обнулил значения коэффициентов вхождения ключевых слов в Title, Description и Н1.

В результате в этой выборке у 22% URL ухудшился прогноз возможной позиции в Google.


Предварительные выводы

Этот эксперимент показал следующее:

a) Время ответа сервера более критически важный показатель для страниц, релевантных средне частотным и высокочастотным запросам, чем для страниц, релевантных низкочастотным запросам. В этом есть своя логика. Если много людей что-то ищут, поисковик хочет максимально быстро им предоставить нужную информацию.

b) Упоминание слов из запроса в Title, Description и Н1 является важным для медленных страниц, релевантных средне частотным и высокочастотным запросам.

c) Упоминание слов из запроса в Title, Description и Н1 влияет на уровень релевантности страницы. Поэтому желательно заполнять Description, не надеясь на волю Господа, и/или  упоминать слова из запроса (их синонимы или семантические аналоги) в Title, Description и Н1.

d) Машинное обучение можно применять для различных SEO-задач. Я планирую и дальше писать статьи на эту тему, так что следите за моими публикациями.

Все выводы основанны исключительно на моем наборе данных для проверки информационных сайтов и ваши результаты могут не совпадать с моими.

Кому интересна эта статья, делитесь ею и подписывайтесь на мой Телеграм канал https://t.me/seo_inside
Подробнее

Кейс: восстановление трафика после майского апдейта Google

Кейс: восстановление трафика после майского апдейта 

Ко мне часто обращаются вебмастера и я помогаю восстанавливать трафик после апдейтов и просадок.

Ведь при каждом обновлении поискового алгоритма Google обязательно кто-то теряет трафик.

Вот и в этот раз ко мне обратился заказчик с просьбой найти причины падения органического трафика Google после майского обновления алгоритма и помочь восстановить его.

Все вы помните мою статью о Майском апдейте Google.

Хочу сказать, что мои выводы и рекомендации из этой статьи подтвердились на практике, а именно позволили восстановить органический трафик Google новостному сайту.

Вот что я рекомендовал сделать всем, у кого упал во время майского апдейта органический трафик Google, а именно:
1) Проверьте качество ваших обратных ссылок.
2) Обновите контент на страницах, которые затронуты.
3) Удалите тонкий контент или добавьте новый полезный контент на эти страницы.
4) Если вы видите падение CTR без соответствующего падения показа, просмотрите последние изменения на сайте, особенно те, которые могут повлиять на то, что отображается в результатах поиска (включая ваши теги TITLE и описания META). Однако в этом случае разумно предположить, что мы наблюдаем общее падение спроса.
5) Тщательно проверьте возможные технические проблемы вашего сайта.
6) Подумайте от какой рекламы вы можете отказаться.  


Итак, рассмотрим конкретный случай.

Новостной сайт. Органический трафик Google до майского апдейта колебался в диапазоне 5-10 тыс. пользователей в день. После апдейта трафик снизился до 2 тыс. посетителей в день, а временами и до 1,5 тыс. посетителей в день.

Что было сделано для восстановления трафика

1) Проведен анализ динамики, количества и качества обратных ссылок. Было выявлено, что за несколько недель до апдейта Google резко выросло количество обратных ссылок низкого качества.

Эти ссылки были отклонены.

Как отбирались домены для отклонения? Для оценки качества ссылочного профиля я традиционно использую Majestic Trust Ratio. Почему Majestic, а не, скажем, Ahrefs? Потому, что, на мой взгляд, метрики Majestic сложнее накрутить.

В общем, я использую такой коэффициент CF/TF > 3. Так же выборочно проверяю домены с CF/TF меньше трех, но болше 2.

2) Сайт использует технологию AMP. При проверке AMP страниц выявлено, что первое, что видит пользователь на таких страницах – большие рекламные объявления. При этом рекламный контент иногда по площади превышал саму новость.

Рекламные блоки на AMP страницах впоследствии были удалены.

3) Как вы помните, в процессе майского апдейта Google анонсировал появление нового сигнала ранжирования «Опыт восприятия страницы».

Он включает новые метрики, а так же ряд старых сигналов, в том числе https. По моему убеждению, роль https, как сигнала ранжирования, в связи с этим была усилена.

Как оказалось, у большинства сайтов, которые я анализировал и которые потеряли трафик из Google после майского апдейта, рейтинг SSL был «В», а требуется «А» или «А+».

На Cloudflare были сделаны соответствующие настройки и рейтинг SSl стал «А+».

SSL Checker

Установите минимальную версию TLS на 1.2. Обратите внимание на то, что не все версии браузера поддерживают TLS 1.2 и выше.

Поэтому, внимательно прочитайте документацию Cloudflare прежде, чем что-то менять. 

В то же время, по состоянию на июнь 2018 года TLS 1.2 является версией, требуемой Советом по стандартам безопасности индустрии платежных карт (PCI). Cloudflare рекомендует перейти на TLS 1.2 для соответствия требованиям PCI.


Результаты

Восстановление после майского апдейта Google

На графике видно, что примерно через сутки трафик резко вырос до 10 тыс. пользователей в сутки и сейчас он колеблется в диапазоне 5-10 тыс. пользователей в сутки.

Другими словами, это позволило вернуть органический трафик Google на уровень, который был до Майского обновления ядра.

P.S. Возможно это совпадение, но результат есть. Всем рекомендую попробовать такую комбинацию действий.

Основной фокус внимания: ссылки, скорость, избыточная (агрессивная) реклама.
Подробнее

Молодой сайт и Песочница Google

Молодой сайт и Песочница Google

На просторах Рунета гуляет старый SEO-миф о существовании у Google алгоритма под названием «Песочница».

Если молодой сайт плохо или не стабильно ранжируется, многие говорят, – «сайт попал в Песочницу». Услышав такой ответ, веб-мастера начинают лихорадочно искать пути выхода из несуществующего "фильтра".

Лет пять назад в Справочном центре для вебмастеров Google была страница FAQ.

Там была такая фраза:
Позиции сайта не присваиваются ему раз и навсегда. В первое время страницы нового сайта могут ранжироваться без учета некоторых факторов, которые для этого сайта еще не выяснены.
Вопрос в том, «первое время» – это сколько? Месяц, три месяца, год?

Я, учитывая аналогию со сроками переезда на новый домен, всегда считал, что период нестабильного ранжирования нового сайта составляет от трех до шести месяцев (180 дней).

Поэтому я немного удивился, когда John Mueller на встрече с вебмастерами 12 июня 2020 года заявил, что период нестабильного ранжирования нового сайта составляет до одного года.
Я думаю, что, если вашему веб-сайту всего пара месяцев, может быть, восемь месяцев, может, год, он ещё слишком молод по сравнению с другими сайтами интернета.
Это как раз то время, когда наши алгоритмы все еще пытаются выяснить, как и где мы должны показывать ваш сайт в результатах поиска в целом. Так что в это время нормально видеть какие-то колебания при ранжировании сайта в поиске. Иногда такой сайт ранжируется выше. Иногда ниже. А потом я бы сказал, что в течение года все стабилизируется.
- John Mueller, Google
Другими словами – в течение первого года любой сайт для Google считается новым.

Существует ли алгоритм «Песочница» в Google?

Да существует, но как тестовая среда для оценки сайтов асессорами.

Что касается нестабильного ранжирования в первый год существования сайта.

Согласно патента «Ранжирование документов» US8244722B1, система определяет первый ранг, связанный с документом, и определяет второй ранг, связанный с документом, где второй ранг отличается от первого ранга. Система также изменяет в течение переходного периода, который происходит во время перехода от первого ранга ко второму рангу, ранг перехода, связанный с документом, на основе функции перехода ранга, которая изменяет ранг перехода с течением времени без какого-либо изменения связанных факторов ранжирования с документом.

В более свежем патенте «Представление информации о результатах поиска» US 20180089199 A1 (дата публикации - 29 марта 2018 г.) сказано, что ранжирование может включать в себя сначала ранжирование множества результатов поиска без использования контента, а затем изменение ранжированных результатов поиска с использованием контента. Выполнение ранжирования дополнительно может включать в себя анализ обратных ссылок, соответствующих множеству результатов поиска.

Как тут не вспомнить слова Андрея Липатцева, что уже давно не ссылками едиными.

Дело в том, что в патенте US 20180089199 A1 речь идет о том, что кроме привычного для нас всех модуля PageRank упоминается ещё один модуль – «Ранкер веб-блокнотов».

PageRank использует обратные ссылки для определения ранжирования. Вместо модуля PageRank может использоваться другой ранкер, например, тот, который анализирует содержимое веб-страницы определенным образом.

Средство ранжирования на основе веб-блокнотов использует контент веб-блокнотов (веб-страниц) для определения рейтинга. Это своего рода шаблон из контента веб-страниц отвечающих поисковому запросу, с которым сравнивается страница сайта.

Учитывая это, рекомендую прочитать, как Google классифицирует сайты используя машинное обучение и нейронные сети.

При работе средство ранжирования может сначала заставить модуль PageRank ранжировать результаты поиска на основе обратных ссылок. Затем может заставлять «Ранкер веб-блокнотов» изменять ранжирование результатов поиска на основе их соответствия другим интернет страницам, которые включены в индекс для ранжирования по конкретному запросу.

Почему возникает фильтр «Песочница»? 

"Возникает" этот фильтр только в воображении тех, кто не совсем хорошо представляет процесс ранжирования.

Как известно, для целей ранжирования Google использует более 200 факторов ранжирования и каждый из них имеет свой вес.

Условно, формула ранжирования имеет такой вид:

Рейтинг = (Фактор1 х 0,7) + … (Фактор135 х 0,4) + …

На начальном этапе такой фактор ранжирования, как PageRank ещё не будет рассчитан, а ведь он определяет авторитет страницы.

И это логично, поскольку новые сайты никто не знает, у них не может моментально появится авторитет и популярность.

Кроме того, новые сайты изначально могут ранжироваться с учетом контента и без него.

В патенте «Ранжирование документов» US8244722B1 также упоминается период перехода от первоначального ранга ко второму. Функция перехода ранга может генерировать «ранг перехода», который вставлен между старым рангом и целевым рангом.

Ранг перехода может вызывать основанный на времени отклик задержки, отрицательный отклик, случайный отклик и / или неожиданный отклик во время перехода от старого ранга к целевому рангу.


Из патента «Ранжирование документов» US8244722B1 следует, что в период перехода от первоначального ранга к следующему целевому, существует некий в период времени, в течение которого Google намерен изрядно попортить веб-мастеру нервы нестабильно ранжируя или не совсем ожидаемо ранжируя новый сайт.

В том же таки патенте US8244722B1 сказано:
для изменения основанной на ссылках информации интернет-страницы может потребоваться приблизительно 70 дней, чтобы изменить ранг документа на его постоянное (целевое) значение.
Надеюсь, что из написанного вам станет понятно почему новый сайт может плохо или не стабильно ранжироваться и почему алгоритма «Песочница» в Google не существует.

Подписывайтесь на мой блог и Телеграм канал SEO inside.
Подробнее

Всё о Песочнице Google (Sandbox Google)


Существует бородатый SEO-миф о том, что у Google якобы есть «фильтр», который применяется преимущественно к новым сайтам, не позволяя им хорошо ранжироваться. Такого "фильтра" нет и никогда не было.

На самом деле, «Песочница» как таковая существует, но она не имеет ничего общего с тем, что описано в указанном выше мифе.

Посмотрите внимательно это видео. На нем идет речь о том, как в Google тестируют результаты поиска.


Раджан Патель: Мы также проверяем изменения в нашей системе при помощи настоящих пользователей. Марк Паскин: Для этого у нас есть специальная тестовая среда, в которую мы перенаправляем незначительный процент пользователей Google.

В оригинале слова Марка Паскина звучит так: «And we do this in something that's called a Sandbox. We send a very small fraction of actual Google traffic to the Sandbox».

Что такое Песочница?

Многие из вас видели в Яндекс Метрике и в Google Analytics переходы с sandbox.google.com.

На мой взгляд, это означает, что в этот период сайт по каким-то причинам отобрали в тестовую среду «Песочницу» и его посещал асессор, который в последствии сделал соответствующие оценки.

Песочница Google


Так что, по моему предположению, переходы с sandbox.google.com, - это посещение сайта асессором. Это и есть "Песочница" Google.


Этой весной (в марте 2020г.) в разделе "Переходы" Google Analytics я видел переходы от joachimheck-gws.sandbox.google.com по двум сайтам.


Оба эти сайта «по счастливой случайности» с началом Майского апдейта резко потеряли в трафике.

Подписывайтесь на мой канал в Телеграм SEO inside.
Подробнее

Google будет блокировать некорректные уведомления


28 мая 2020 года в блоге Chromium опубликовано сообщение о том, что Google будет блокировать некорректные уведомления.

О чём речь и к чему нам готовится?


Некорректные уведомления (Abusive notifications) - уведомления браузера, которые использованы для введения пользователей в заблуждение, для фишинга (получения личной информации) или продвижения вредоносных программ. Эти некорректные уведомления подразделяются на две большие категории: «проблемы с запросом на разрешение» и «проблемы с уведомлением».


Проблемы с запросом разрешения — это запросы, предназначенные для введения в заблуждение, обмана или принуждения пользователей к разрешению уведомлений. Одним из примеров этого являются веб-сайты, которые требуют, чтобы пользователи разрешали уведомления, чтобы получить доступ к контенту сайта, или которым предшествуют вводящие в заблуждение предварительные запросы.


Проблемы с уведомлением включают в себя поддельные сообщения, похожие на сообщения чата, предупреждения или системные диалоги. Они также включают в себя фишинговые атаки, навязчивую тактику, чтобы обманом заставить пользователей делиться личной информацией, и уведомления, которые рекламируют вредоносное программное обеспечение или ссылаются на него.

Начиная со стабильной версии 14 июля 2020 года, сайты с недобросовестными запросами на разрешение или оскорбительными уведомлениями будут автоматически регистрироваться браузером Chrome 84, в специальном интерфейсе уведомлений, а пользователи будут получать уведомление о том, что сайт может пытаться их обмануть.

Некорректные уведомления и веб-инструменты

Возможно кто-то забыл, но в Google Search Console есть специальный раздел «Веб-инструменты».

С целью борьбы с некорректными уведомлениями там уже создан специальный инструмент https://www.google.com/webmasters/tools/abusive-notifications
Google будет блокировать некорректные уведомления

Там вы будете получать от Chrome сообщения четырех типов.


Выключено. К сайту не применяется контроль в Chrome.

Включено. К сайту применяется контроль в Chrome. Это означает, что для всех пользователей Chrome блокируются как запросы на показ уведомлений, так и сами уведомления, даже если ранее пользователи давали соответствующее разрешение.

Приостановлено. Действие контроля в Chrome приостановлено на время проверки сайта.

Начало: [дата]. Действие контроля в Chrome начнется с указанной даты. Мы отправим владельцам и пользователям сайта уведомление об этом как минимум за 30 календарных дней. Чтобы контроль не применялся, устраните нарушения и запросите повторную проверку сайта.

Те сайты, которые используют некорректные уведомления, начиная с 14 июля 2020 года могут резко потерять в трафике.
Подробнее

Опыт восприятия страницы - новый сигнал ранжирования


Google внедрил новый сигнал ранжирования под названием — "Опыт восприятия страницы".

Опыт восприятия страницы — это набор сигналов, которые измеряют то, как пользователи воспринимают взаимодействие с веб-страницей за пределами ее чистой информационной ценности.

Он включает в себя Core Web Vitals, представляющий собой набор метрик, которые измеряют реальный пользовательский опыт для загрузки производительности, интерактивности и визуальной стабильности страницы.
Опыт восприятия страницы - новый сигнал ранжирования

Сигнал восприятия страницы измеряет аспекты того, как пользователи воспринимают взаимодействие с веб-страницей.

Оптимизация под эти факторы делает Интернет более привлекательным для пользователей во всех веб-браузерах и поверхностях и помогает сайтам развиваться в соответствии с ожиданиями пользователей на мобильных устройствах.

Опыт восприятия страницы включает в себя сигналы, полученные от Core Web Vitals, в сочетании с существующими поисковыми сигналами для работы со страницами, включая удобство для мобильных устройств, безопасный просмотр, HTTPS-безопасность и отсутствие навязчивых рекламных вставок, чтобы обеспечить целостную картину восприятия страницы. 

Сигналы опыта страницы 

"Отрисовка крупного контента (LCP)": измеряет эффективность загрузки. Чтобы обеспечить хороший пользовательский опыт, сайты должны стремиться к тому, чтобы LCP появлялся в течение первых 2,5 секунд после начала загрузки страницы.

"Первая задержка ввода (FID)": измеряет интерактивность. Чтобы обеспечить хороший пользовательский опыт, сайты должны стремиться иметь FID менее 100 миллисекунд.

"Совокупное смещение макета (CLS)": измеряет визуальную стабильность. Чтобы обеспечить хороший пользовательский опыт, сайты должны стремиться к тому, чтобы оценка CLS была менее 0,1.

"Mobile-friendly" — страница удобна для мобильных устройств.

"Безопасный просмотр" — страница не содержит вредоносного или вводящего в заблуждение (например, социального инжиниринга) контента.

"HTTPS" — страница использует защищённый протокол HTTPS. Еще три года назад один из инженеров Google говорил, что http — это табу.

"Отсутствие навязчивых вставок" — содержимое на странице легко доступно для пользователя. Рекламные вставки могут сделать контент менее доступным.

Майское обновление Google 2020 

Я опубликовал детальный анализ майского обновления алгоритма Google.

Обращаю ваше внимание на то, что в рамках этого обновления внедрены в качестве сигналов ранжирования LCP, FID, CLS. В Search Concole появился отчет с этими показателями.


Одновременно произошло широкое обновление браузера Chrome, которое нацелено на блокирование тяжелой медийной рекламы, особенно той, которая связана с возможным майнингом и нагрузкой ресурсов компьютеров. Можно говорить о том, что это обновление браузера связано с таким сигналом ранжирования опыта восприятия страницы, как "Отсутствие навязчивых вставок". Об этом я уже писал в своем Телеграм канале SEO inside.

Подписывайтесь на мой блог и Телеграм канал и всегда будете в курсе всех важных новостей.
Подробнее