Основное

Google о ранжировании отрывков или фрагментов

Google о ранжировании отрывков или фрагментов

15 ноября 2020 года Google объявил об использовании ранжирования на основе отрывков (фрагментов) контента на странице.

 

Я пока точно не могу сказать используется ли ранжирование на основе пассажей в 2020 году, или только будет использоваться с 2021 года.


Я заметил, что Google подсвечивает желтым цветом определенные абзацы текста в браузере Chrome при поиске информации по определённым запросам на английском языке. Возможно это признаки тестирования технологии ранжирования контента на основе отрывков или фрагментов.


По мнению Google, эта новая технология поможет им выявить контент, который в противном случае не мог бы считаться актуальным при рассмотрении страницы только в целом.

  

Google оценивает и индексирует весь контент на веб-странице, чтобы определить, соответствует ли он поисковому запросу. Но иногда веб-страницы могут быть очень длинными или посвящены нескольким темам, что может снизить релевантность частей страницы для конкретных запросов.

"Идея состоит в том, чтобы взять особенно длинные страницы и понять соответствующие части ... Если у вас действительно длинные статьи, то, возможно, мы найдем что-то полезное в середине ... вероятно, вы уже разбили эти исключительно длинные статьи в более короткие".

 — Джон Мюллер


Судя по всему, время супер длинных статей (лонгридов) уходит. Джон даже обмолвился о том, что желательно разбить такие статьи на несколько.

Что мы знаем о ранжировании отрывков или фрагментов

В интернете очень мало достоверной информации, которая бы хоть как-то проливала свет на основы ранжирования веб-страниц на основе отрывков (фрагментов).


Недавно я прочитал интересный патент, который, как мне кажется, имеет отношение к этой технологии.

Машинное обучение для определения мнений в документах

Изобретатели: Борис Дадачев и Кишоре Папинени 

Правообладатель: Google LLC. Патент США: 10 832 001. Выдан: 10 ноября 2020 г. Подан: 26 апреля 2018 г.


В аннотации к патенту сказано, что «примеры аспектов настоящего раскрытия направлены на системы и способы, которые используют модель классификации мнений, полученную с помощью машинного обучения, для классификации частей (например, предложений, фраз, абзацев и т. п.).  Части документа можно ранжировать по важности и выбирать для включения в информационное отображение на основе их ранжирования».


Вам ничего это не напоминает? По-моему, это именно, то, как описывает Google описывает способ ранжирования веб-страниц на основе отрывков или фрагментов.


Отрывки (passages) в этой технологии — это фрагменты текста на странице, а именно отдельные предложения, фразы, абзацы. 


Вопрос в том, как Google будет сравнивать и выбирать самый важный фрагмент среди других фрагментов, размещенных на веб-страницах разных сайтов.


Нам ничего не остается, как обратиться снова к тексту этого патента.


Используемая технология предусматривает использование кластеризации веб-страницы в один из множества кластеров веб-страниц, основанный, по меньшей мере, частично на сравнении частей документа, которые были классифицированы как мнение, с дополнительными частями других веб-страниц, которые были классифицированы как мнения.


Я выскажу такое предположение.


Ранжирование на основании отрывков (Google passage ranking) – это технология, использующая машинное обучение, в основе которой лежит определение релевантного фрагмента текста и определение его важности. Затем интернет-страница включается в кластер похожих страниц и среди страниц кластера определяется рейтинг самого важно фрагмента.


Дополнительно читайте:

Как Google классифицирует YMYL сайты


Можно ли как-то оптимизировать под это свой сайт?


Честно говоря, я пока не знаю, так как технология эта новая и информации об этом почти нет.


Если статья вам понравилась, не забудьте поделиться ей и подписаться на телеграм канал SEO Inside.

Подробнее

Всё о Декабрьском обновлении Google 2020

Всё о Декабрьском обновлении Google

Всё о Декабрьском обновлении Google

3 декабря 2020 года Danny Sullivan сообщил о том, что Google запустил очередное основное обновление ядра алгоритма, которое получило название "Декабрьское обновление основного алгоритма 2020".


На самом деле, ещё 1 декабря 2020 года многие вебмастера начали массово сообщать о значительных изменениях в трафике их сайтов.


Давайте посмотрим на график Semrush Sensor (Рис.1).

Значительные колебания - Semrush Sensor
Как видно на Рис.1 значительные колебания Semrush Sensor зарегистрировал ещё 1 декабря 2020 года.

В официальной публикации Google сказано:
Мы тестируем любое обширное обновление ядра до его выпуска...

Я думаю, что, на самом деле, широкое обновление ядра алгоритма Google началось именно 1 декабря 2020 года, т.е. ранее, чем Google об этом официально сообщил.

Почему дата начала обновления очень важна? Потому что при последующем анализе обновления алгоритма Google необходимо использовать правильные временные интервалы.

Что мы знаем о широком обновлении алгоритма Google?

Обычно Google выпускает такие обновления два — три раза в год. Это сопровождается значительными изменениями в позициях и объемах трафика огромного количества сайтов.

Самым провинившимся обычно вместе с трафиком из органики отключают трафик из Google Discover.

Сотрудники Google не многословны в своих комментариях и обычно ограничиваются стандартной фразой — "ничего делать не нужно, это просто крупные изменения, связанные с релевантностью".

Анализ последствий Декабрьского обновления

Декабрьский апдейт Google такой же по силе, а может даже и сильнее, чем Майское обновление ядра алгоритма.

Semrush  в своей публикации сообщил, что Декабрьский апдейт затронул все тематики и средний показатель колебания в SERP  составил 9,4 (такой же, как и при Майском обновлении).

Похоже, что больше всего пострадали крупные домены. Почти 50% крупнейших победителей и проигравших на данный момент — это домены с трафиком, превышающим 1 миллион посетителей в месяц.
— Semrush

Исследование

Из Semrush Sensor я получил ТОП 100 доменов-победителей и доменов-неудачников. Всего выборка составила 200 доменов.

Используя Netpeak Checker (рефка на скидку 25%) по этим доменам я получил значения по таким параметрам: 
Visits  Website traffic (Pro),  Host Root Domain  Whois,  Root Domain Indexed URLs  Wayback Machine,  Host Mobile FCP, Mobile FID, Mobile LCP, Mobile CLS, Desktop FCP, Desktop FID, Desktop LCP, Desktop CLS, Mobile Score, Desktop Score, Is Mobile-Friendly, Status Code, Response Time, Title Length, Description Length, Meta Robots, H1 Length, Content Size, Words  –  On-Page, Content-Length, Domain Authority  Moz,  Root Domain Trust Flow  –  Majestic, Citation Flow  –  Majestic, External Backlinks  Majestic, Referring Domains  Majestic.

Дополнительно на основе показателей Majestic Trust Flow и Citation Flow я рассчитал значения для качества ссылочного профиля – Majestic Trust Ratio.

17 процентов доменов не отдавали 200 код. Десять процентов из общего количества доменов отдавали 301 и 302 код. Это говорит о том, что если вы видите существенное снижение трафика на своем сайте, не лишнее сделать его аудит, потому что причина может быть именно техническая (не связанная с обновлением алгоритма).

Для того чтобы определить самые важные параметры (показатели) в моем наборе данных, я создал Deepnets в BigML. Это контролируемый метод обучения для решения регрессии и классификации проблем. Deepnets – это оптимизированная версия Deep Neural Networks, класса моделей машинного обучения, созданных на основе нейронных схем человеческого мозга.

Рис.2
Deepnets - самые важные показатели
Надеюсь все знают как расшифровывается аббревиатура E-A-T? Это "Экспертность", "Авторитет", "Доверие".

Вы обратили внимание, что самые важные показатели в этом наборе данных – это DA Moz и Trust Flow Majestic. DA – характеризует авторитет домена, а Trust Flow – доверие к ссылочному профилю.

По сути, оба эти показатели имеют отношение к обратным ссылкам вашего сайта.

Десятку самых важных показателей можно разделить на три группы:
a. "Ссылочные параметры".
b. "Мобильность и Web Vitals".
c. "Длина Title и Description".

Во время Майского обновления ядра я высказал гипотезу, что Web Vitals (LCP, FID и CLS) уже с мая 2020 года стали факторами ранжирования.

2 декабря 2020 года, как раз перед официальным запуском Декабрьского обновления алгоритма, Google официально признал, что LCP, FID и CLS являются факторами ранжирования, но пока что только для мобильного поиска. Так что моя теория была верна.

Более того, я считаю, что в Декабрьском обновлении алгоритма Google тестирует в качестве сигнала ранжирования Mobile FCP.

Созданная на основе моего набора данных модель машинного обучения в качестве предиктора для построения дерева решений использует именно Mobile FCP.

Другими словами, логика такова — если значение Mobile FCP такое-то и.... , тогда...

Рис.3
ML - Декабрьское обновление Google
Как видно на Рис.3 самый вероятный (с точностью почти 76%) сценарий классификации домена как "Неудачника" состоит в следующем. Если значение Mobile FCP больше 1468 миллисекунд, на странице количество слов меньше 637 и при этом DA Moz больше 48, — это "Неудачник.

Такую логику можно ещё так объяснить. Мало контента, но много ссылок, — это "Неудачник.

Рис.4
DM - Декабрьское обновление Google

На Рис.4 используя Data Mining мы видим распределение доменов из нашей выборки.
По горизонттали – значение DA Moz, по вертикали –  Citation Flow Majestic. Размер элемента – значение Majestic Trust Ratio. Голубым цветом обозначены "Неудачники", оранжевым – "Победители". Крестиками обозначены не mobile-friendly домены.

Как видно на Рис.4 у "Неудачников" Majestic CF примерно до 35, DA Moz примерно до 30 и у них в основном высокое значение Majestic Trust Ratio. Это говорит о том, что бэклинков у таких доменов много, а вот качество их не лучшее

Что касается "Победителей", основные сценарии с точностью выше 83% указывают, что для них важно, чтобы количество слов на странице было больше 637.

Повторный тест для проверки предварительных выводов


Набор данных любезно предоставила Lily Ray (@lilyraynyc). 

Метрика для определения «Неудачников» и «Победителей» - индекс видимости Sistrix в США.

Размер выборки – 1067 доменов.

Для этого набора данных были получены значения тех же параметров что и для датасета Semrush.

Используя машинное обучение, я определил самые важные показатели в наборе данных Sistrix:
Citation Flow Majestic - 0.3059
Title Length - 0.2457
Desktop CLS - 0.08604
Mobile Score - 0.05389
Domain Authority  Moz - 0.04545
Mobile FCP - 0.02708
Desktop Score - 0.02653
Desktop LCP - 0.02465
Desktop FCP - 0.02326
Visits Website traffic (Pro) - 0.02161

Как видно из этого списка, самые важные метрики связанны с качеством и количеством обратных ссылок, а также с показателями Core Web Vitals.
 
Обратите внимание, что метрика Mobile FCP, о которой я упоминал выше, – шестая по важности в наборе данных.

Распределение обратных ссылок в наборе данных Sistrix по их количеству и качеству, аналогично тому, что изображено на Рис. 4.

Итак, кто у нас «Победитель» в наборе доменов Sistrix. Это домен, имеющий показатель DA от 62 качественный ссылочный профиль и хорошие показатели Core Web Vitals.

Рис.5
Sistrix - дерево решений


 
«Неудачник», соответственно, - это домен у которого DA меньше 62, но, как и в случае с данными Semrush, важным критерием является количество контента. 

Как видим на Рис.6 количество слов у «Неудачников» - до 3473.

Рис.6
Google update - Losers



Основные выводы

Результаты, полученные на основе двух разных наборов данных (Semrush и Sistrix), почти тождественны.

Февральское, Майское и Декабрьское обновление, скорее всего, имеют одну общую особенность— качество и количество обратных ссылок. Поэтому, сделайте аудит вашего ссылочного профиля. Похоже на то, что история данных, полученных от алгоритма "Пингивин", каким-то образом накапливается и потом используется как дополнительный инструмент для борьбы свеб-спамом во время очередно широкого обновления ядра.

В Декабрьском обновлении видимо продолжают тестировать в качестве факторов ранжирования метрики (такие как Mobile FCP), которые возможно весной 2021 года официально введут в состав Web Vitals.

Выше я приводил различия в количестве слов между "Победителями" и "Неудачниками". Это не значит, что вы должны использовать минимум 637 слов. Количество слов — это не фактор ранжирования. На мой взгляд, подобное различие между "Победителями" и "Неудачниками" может указывать на то, что у "Победителей" и контента больше и качество его лучше (более релеванный).

Проведите технический аудит вашего сайта. Возможно причина падения трафика является технической.

Если статья вам понравилась, не забудьте поделиться ей и подписаться на телеграм канал SEO Inside.

P.S. Если вдруг мне удасться получить другие данные для анализа, возможно выводы будут скорректированы. Рассматривайте эти выводы как предварительные данные.
Подробнее

Как получить доступ к GPT-3 online?

GPT-3 – что это?

GPT-3 - предварительно обученный генеративный преобразователь. Это третье поколение языковой модели, созданной разработчиками OpenAI, которая способна генерировать письменный текст на английском языке такого качества, которое часто трудно отличить от текста, написанного человеком.

Если сравнивать с ее предшественником, новая версия алгоритма намного умнее, количество используемых параметров увеличилось с 1,5 до 175 млрд. Более, чем в сто раз!

Как это работает? 

Вы вводите исходный фрагмент текста и модель сама начинает создавать продолжение сюжета. Иногда алгоритм «увлекается» и начинает уходить от основной идеи, поэтому, периодически требуется коррекция отдельных фрагментов текста. 

GPT-3 – как пользоваться?

Как видно из описания алгоритма, его основная задача генерировать качественный текстовый контент.

GPT-3 используется в чат-ботах, для создания текстов – рассказов, стихов, инструкций, текстов рекламных сообщений, твиттов, сценариев, идей для блогов и так далее.

В сентябре 2020 года я получил доступ к GPT-3 и начал экспериментировать с качеством контента.

Вот две статьи из многих, которые написаны GPT-3:

Как провести эффективный SEO аудит

SEO тенденции для 2021 года

Качество контента очень высокое. Мне оставалось добавить изображения и несколько цитат и ссылок для придания тексту «человечности».

Дополнительно читайте: Искусственный интеллект для SEO


Доступ к GPT-3 online

GPT-3 вполне можно использовать для массового создания контента для тех нищ, в которых этот контент особо не читают.

Но если ваш проект требует контент не только хорошего качества, но и точности, что требуется для YMYL-страниц, вам придется немного повозится, корректируя направление создаваемого контента и проверяя факты.

GPT-3 пока еще слабо обучен для генерации текстов в точных науках – математике, физике и других подобных направлениях.

Для текстов SEO-тематиках этот алгоритм, как вы поняли, очень даже пригоден.

На моё удивление, языковая модель не только знала о существовании  Ahrefs, Majestic, SEMrush, но и понимала специфику этих инструментов.

Как получить доступ к GPT-3 online?

Это довольно сложный вопрос. Изначально доступ к API OpenAI был бесплатным. Затем компания закрыла его и теперь нужно подавать заявку в «Лист ожидания».

Я тоже, как и десятки тысяч других пользователей, подавал такую заявку. Практика показала, что отправка заявки через «Лист ожидания» без дополнительных усилий – это путь в никуда. Вы будете ждать ответа, но он так и не придет.

Способ для тех, у кого есть способности хоть что-то программировать.

1) Подаете заявку в «Лист ожидания».

2) Покупаете домен для будущего инструмента.

3) Разворачиваете сайт и создаете презентационную страницу инструмента, чтобы была понятна основная идея и для чего вам нужен GPT-3.

3) Делаете презентацию.

4) Находите в Твиттер Greg Brockman @gdb и пишите ему примерно такой твит https://twitter.com/Asharjamil/status/1317163403681693699 Автор этого твита позднее написал – «Спустя всего 10 минут я получил ответ от него с просьбой прислать свою электронную почту. И бум, я получил доступ».


Если у вас совсем туго с фантазией под какую идею создать «стартап» с целью получения доступа к API OpenAI, воспользуйтесь этим сервисом, который тоже работает на GPT-3.


Если это для вас очень сложно, можно воспользоваться теми сервисами, которые уже есть:

FitnessAI – это чат-бот на тему здоровья и фитнеса. Задавайте боту вопросы и копируйте ответы. Таким образом, вы получите сгенерированный текст.

Boredhumans – это целый набор инструментов на базе GPT-3. Нет смысла все их описывать, просто зайдите и посмотрите.

CopyAIинструмент для создания рекламных текстов в социальных сетях. CopyAI платный, но есть тестовый бесплатный период.

Shortlyread – платный генератор эссе. Есть возможность бесплатно пару раз протестировать. Я читал отзывы людей, которые купили платную подписку. Судя по всему, они очень довольны.

Если эти два способа получения доступа к GPT-3 вас не устроили, я могу посоветовать бесплатно пользоваться GPT-2. Дешево и сердито.


Если статья вам понравилась, поделитесь ей в социальных сетях и подписывайтесь на мой телеграм канал SEO Inside.

Подробнее

Машинное обучение и анализ данных о позициях сайта

Машинное обучение или Machine Learning — разновидность искусственного интеллекта в основанного на изучении компьютерных алгоритмов, которые автоматически улучшаются по мере накопления опыта.

В этой статье вы узнаете, как можно использовать машинное обучение и анализ данных для прогнозирования позиции сайта в результатах поисковой выдачи.

Прежде я хотел бы объяснить для чего это может понадобиться вебмастеру или интернет-маркетологу.

Многие из вебмастеров просто мониторят позиции сайта в поисковой выдачи и если эти позиции их не устраивают, начинается поиск причин. Я же вам предлагаю при помощи машинного обучения прогнозировать позиции сайта и оптимизировать страницы так, чтобы в итоге они достигли прогнозных значений.

Машинное обучение и анализ данных для SEO

Всё знают, что поисковики активно используют машинное обучение, но почему-то вебмастера, на мой взгляд, не спешат использовать Machine Learning для целей поисковой оптимизации сайтов. По крайней мере, в сети очень мало достойных внимания статей о машинном обучении, которые сфокусированы именно на SEO.

Я написал несколько статей о машинном обучении для SEO:
Машинное обучение и анализ данных для чайников
Как использовать машинное обучение для анализа тем YMYL страниц
Как Google классифицирует YMYL сайты

Итак, давайте рассмотрим пример, как спрогнозировать позицию страницы своего сайта или сайта конкурента.

Сбор и анализ данных для прогнозирования

Если вы вводите в окно поиска поисковый запрос, поисковик подсвечивает слова из запроса жирным шрифтом, если такие слова упоминаются в Title и Description. То, что использование слов из поискового запроса в Title, Description и Н1 влияют на релевантность страницы известно давно.

Мне было интересно, можно ли при помощи машинного обучения и анализа данных понять как именно "вхождения" ключевых слов влияют на релевантность и влияют ли они на прогноз позиций сайта.

Для анализа данных нужно их для начала собрать. Были собраны данные информационных сайтов. Для сбора данных я использовал SEMrush и Netpeak Spider. 

Откройте SEMrush, введите интересующие вас домен и базу поиска, например RU. Перейдите в раздел "Анализ поисковой выдачи". Если это необходимо, можете настроить необходимые фильтры по позициям, Search Volume и другим показателям. Затем экспортируйте данные.

Из SEMrush в своем наборе данных я использовал такие показатели: Keyword, Position, Previous position, Search Volume, Keyword Difficulty, CPC, URL, Competition.

Далее, я взял из отчёта SEMrush список URL и добавил их в Netpeak Spider. Тут остановлюсь чуть подробнее. Откройте Netpeak Spider. Создайте новый проект.

Netpeak Spider и анализ данных

В меню "Список URL" можно выбрать "Внести вручную" и вставить список URL. Именно так я и сделал.

В параметрах я выбрал: Время ответа сервера, Title, Длина title, Description, Длина description, Содержимое H1, Длина H1,Размер контента, Соотношение Text/HTML, Количество слов, Content-Length.


Я объединил данные из SEMrush и Netpeak Spider в один набор данных, который содержал информацию о 9751 URL.

При помощи самописной программы я получил коэффициент релевантности. Ну, это я для себя так назвал этот показатель, вы можете назвать по другому. Суть его в том, что скрипт по каждому запросу брал каждое слово из него и проверял, упоминается оно в Title, Description и Н1 или нет. Например, если запрос состоит из трех слов, а в Title упоминается только два из них, тогда коэффициент для Title составляет 0,66.

Машинное обучение и анализ данных

Набор данных, дополненный рассчитанными коэффициентами, я загрузил в бесплатный онлайн-инструмент для Machine Learning, который называется BigML. Об этом инструменте я подробно писал в указных выше публикациях.

Я построил модель в виде дерева решений точность которой составляет 77,9 процентов (довольно точная модель).

Машинное обучение и анализ данных

Как видно на этом изображении, предиктором является "Объем поиска". Другими словами, многое зависит от того, это низкочастотный поисковый запрос или нет.

Построенная мной модель с точностью почти 85% показывает, что коэффициенты вхождения ключевого слова из запроса важны, только в случае, если это средне частотный или высокочастотный запрос, а сама страница имеет высокий показатель ответа сервера. Если, при этом, коэффициенты вхождения в Description и Н1 меньше 0,92 (не все слова из запроса упоминаются в Description и Н1), тогда страница не попадёт в ТОП 20 Google.

Прогнозирование и анализ данных о позициях сайта

Используя машинное обучение я решил спрогнозировать вероятность позиции в выдаче Google и как на этот прогноз повлияет изменения коэффициента вхождения ключевого слова в Title, Description и Н1.

Я собрал из SEMrush и Netpeak Spider данные выбранного наугад информационного сайта по указанному выше принципу и шаблону.

Затем, используя машинное обучение я получил прогнозные данные о вероятной позиции в выдаче Google. Сразу скажу, что при достаточно низкой ошибке модели, прогнозные позиции были как в лучшую, так и в худшую сторону, по сравнению с фактической.

Вот расширение для Google таблиц, которое вы можете использовать для повторения моего эксперимента.

Ухудшенная оценка может указывать на то, что страница держится в ТОПе за счет других более важных факторов.

Улучшенная оценка может указывать на то, что при оптимизации используемых в модели параметров можно достичь более высоких результатов.


Предсказание позиций сайта

Для эксперимента я в некоторых строках обнулил значения коэффициентов вхождения ключевых слов в Title, Description и Н1.

В результате в этой выборке у 22% URL ухудшился прогноз возможной позиции в Google.


Предварительные выводы

Этот эксперимент показал следующее:

a) Время ответа сервера более критически важный показатель для страниц, релевантных средне частотным и высокочастотным запросам, чем для страниц, релевантных низкочастотным запросам. В этом есть своя логика. Если много людей что-то ищут, поисковик хочет максимально быстро им предоставить нужную информацию.

b) Упоминание слов из запроса в Title, Description и Н1 является важным для медленных страниц, релевантных средне частотным и высокочастотным запросам.

c) Упоминание слов из запроса в Title, Description и Н1 влияет на уровень релевантности страницы. Поэтому желательно заполнять Description, не надеясь на волю Господа, и/или  упоминать слова из запроса (их синонимы или семантические аналоги) в Title, Description и Н1.

d) Машинное обучение можно применять для различных SEO-задач. Я планирую и дальше писать статьи на эту тему, так что следите за моими публикациями.

Все выводы основанны исключительно на моем наборе данных для проверки информационных сайтов и ваши результаты могут не совпадать с моими.

Кому интересна эта статья, делитесь ею и подписывайтесь на мой Телеграм канал https://t.me/seo_inside
Подробнее

Кейс: восстановление трафика после майского апдейта Google

Кейс: восстановление трафика после майского апдейта 

Ко мне часто обращаются вебмастера и я помогаю восстанавливать трафик после апдейтов и просадок.

Ведь при каждом обновлении поискового алгоритма Google обязательно кто-то теряет трафик.

Вот и в этот раз ко мне обратился заказчик с просьбой найти причины падения органического трафика Google после майского обновления алгоритма и помочь восстановить его.

Все вы помните мою статью о Майском апдейте Google.

Хочу сказать, что мои выводы и рекомендации из этой статьи подтвердились на практике, а именно позволили восстановить органический трафик Google новостному сайту.

Вот что я рекомендовал сделать всем, у кого упал во время майского апдейта органический трафик Google, а именно:
1) Проверьте качество ваших обратных ссылок.
2) Обновите контент на страницах, которые затронуты.
3) Удалите тонкий контент или добавьте новый полезный контент на эти страницы.
4) Если вы видите падение CTR без соответствующего падения показа, просмотрите последние изменения на сайте, особенно те, которые могут повлиять на то, что отображается в результатах поиска (включая ваши теги TITLE и описания META). Однако в этом случае разумно предположить, что мы наблюдаем общее падение спроса.
5) Тщательно проверьте возможные технические проблемы вашего сайта.
6) Подумайте от какой рекламы вы можете отказаться.  


Итак, рассмотрим конкретный случай.

Новостной сайт. Органический трафик Google до майского апдейта колебался в диапазоне 5-10 тыс. пользователей в день. После апдейта трафик снизился до 2 тыс. посетителей в день, а временами и до 1,5 тыс. посетителей в день.

Что было сделано для восстановления трафика

1) Проведен анализ динамики, количества и качества обратных ссылок. Было выявлено, что за несколько недель до апдейта Google резко выросло количество обратных ссылок низкого качества.

Эти ссылки были отклонены.

Как отбирались домены для отклонения? Для оценки качества ссылочного профиля я традиционно использую Majestic Trust Ratio. Почему Majestic, а не, скажем, Ahrefs? Потому, что, на мой взгляд, метрики Majestic сложнее накрутить.

В общем, я использую такой коэффициент CF/TF > 3. Так же выборочно проверяю домены с CF/TF меньше трех, но болше 2.

2) Сайт использует технологию AMP. При проверке AMP страниц выявлено, что первое, что видит пользователь на таких страницах – большие рекламные объявления. При этом рекламный контент иногда по площади превышал саму новость.

Рекламные блоки на AMP страницах впоследствии были удалены.

3) Как вы помните, в процессе майского апдейта Google анонсировал появление нового сигнала ранжирования «Опыт восприятия страницы».

Он включает новые метрики, а так же ряд старых сигналов, в том числе https. По моему убеждению, роль https, как сигнала ранжирования, в связи с этим была усилена.

Как оказалось, у большинства сайтов, которые я анализировал и которые потеряли трафик из Google после майского апдейта, рейтинг SSL был «В», а требуется «А» или «А+».

На Cloudflare были сделаны соответствующие настройки и рейтинг SSl стал «А+».

SSL Checker

Установите минимальную версию TLS на 1.2. Обратите внимание на то, что не все версии браузера поддерживают TLS 1.2 и выше.

Поэтому, внимательно прочитайте документацию Cloudflare прежде, чем что-то менять. 

В то же время, по состоянию на июнь 2018 года TLS 1.2 является версией, требуемой Советом по стандартам безопасности индустрии платежных карт (PCI). Cloudflare рекомендует перейти на TLS 1.2 для соответствия требованиям PCI.


Результаты

Восстановление после майского апдейта Google

На графике видно, что примерно через сутки трафик резко вырос до 10 тыс. пользователей в сутки и сейчас он колеблется в диапазоне 5-10 тыс. пользователей в сутки.

Другими словами, это позволило вернуть органический трафик Google на уровень, который был до Майского обновления ядра.

P.S. Возможно это совпадение, но результат есть. Всем рекомендую попробовать такую комбинацию действий.

Основной фокус внимания: ссылки, скорость, избыточная (агрессивная) реклама.
Подробнее

Молодой сайт и Песочница Google

Молодой сайт и Песочница Google

На просторах Рунета гуляет старый SEO-миф о существовании у Google алгоритма под названием «Песочница».

Если молодой сайт плохо или не стабильно ранжируется, многие говорят, – «сайт попал в Песочницу». Услышав такой ответ, веб-мастера начинают лихорадочно искать пути выхода из несуществующего "фильтра".

Лет пять назад в Справочном центре для вебмастеров Google была страница FAQ.

Там была такая фраза:
Позиции сайта не присваиваются ему раз и навсегда. В первое время страницы нового сайта могут ранжироваться без учета некоторых факторов, которые для этого сайта еще не выяснены.
Вопрос в том, «первое время» – это сколько? Месяц, три месяца, год?

Я, учитывая аналогию со сроками переезда на новый домен, всегда считал, что период нестабильного ранжирования нового сайта составляет от трех до шести месяцев (180 дней).

Поэтому я немного удивился, когда John Mueller на встрече с вебмастерами 12 июня 2020 года заявил, что период нестабильного ранжирования нового сайта составляет до одного года.
Я думаю, что, если вашему веб-сайту всего пара месяцев, может быть, восемь месяцев, может, год, он ещё слишком молод по сравнению с другими сайтами интернета.
Это как раз то время, когда наши алгоритмы все еще пытаются выяснить, как и где мы должны показывать ваш сайт в результатах поиска в целом. Так что в это время нормально видеть какие-то колебания при ранжировании сайта в поиске. Иногда такой сайт ранжируется выше. Иногда ниже. А потом я бы сказал, что в течение года все стабилизируется.
- John Mueller, Google
Другими словами – в течение первого года любой сайт для Google считается новым.

Существует ли алгоритм «Песочница» в Google?

Да существует, но как тестовая среда для оценки сайтов асессорами.

Что касается нестабильного ранжирования в первый год существования сайта.

Согласно патента «Ранжирование документов» US8244722B1, система определяет первый ранг, связанный с документом, и определяет второй ранг, связанный с документом, где второй ранг отличается от первого ранга. Система также изменяет в течение переходного периода, который происходит во время перехода от первого ранга ко второму рангу, ранг перехода, связанный с документом, на основе функции перехода ранга, которая изменяет ранг перехода с течением времени без какого-либо изменения связанных факторов ранжирования с документом.

В более свежем патенте «Представление информации о результатах поиска» US 20180089199 A1 (дата публикации - 29 марта 2018 г.) сказано, что ранжирование может включать в себя сначала ранжирование множества результатов поиска без использования контента, а затем изменение ранжированных результатов поиска с использованием контента. Выполнение ранжирования дополнительно может включать в себя анализ обратных ссылок, соответствующих множеству результатов поиска.

Как тут не вспомнить слова Андрея Липатцева, что уже давно не ссылками едиными.

Дело в том, что в патенте US 20180089199 A1 речь идет о том, что кроме привычного для нас всех модуля PageRank упоминается ещё один модуль – «Ранкер веб-блокнотов».

PageRank использует обратные ссылки для определения ранжирования. Вместо модуля PageRank может использоваться другой ранкер, например, тот, который анализирует содержимое веб-страницы определенным образом.

Средство ранжирования на основе веб-блокнотов использует контент веб-блокнотов (веб-страниц) для определения рейтинга. Это своего рода шаблон из контента веб-страниц отвечающих поисковому запросу, с которым сравнивается страница сайта.

Учитывая это, рекомендую прочитать, как Google классифицирует сайты используя машинное обучение и нейронные сети.

При работе средство ранжирования может сначала заставить модуль PageRank ранжировать результаты поиска на основе обратных ссылок. Затем может заставлять «Ранкер веб-блокнотов» изменять ранжирование результатов поиска на основе их соответствия другим интернет страницам, которые включены в индекс для ранжирования по конкретному запросу.

Почему возникает фильтр «Песочница»? 

"Возникает" этот фильтр только в воображении тех, кто не совсем хорошо представляет процесс ранжирования.

Как известно, для целей ранжирования Google использует более 200 факторов ранжирования и каждый из них имеет свой вес.

Условно, формула ранжирования имеет такой вид:

Рейтинг = (Фактор1 х 0,7) + … (Фактор135 х 0,4) + …

На начальном этапе такой фактор ранжирования, как PageRank ещё не будет рассчитан, а ведь он определяет авторитет страницы.

И это логично, поскольку новые сайты никто не знает, у них не может моментально появится авторитет и популярность.

Кроме того, новые сайты изначально могут ранжироваться с учетом контента и без него.

В патенте «Ранжирование документов» US8244722B1 также упоминается период перехода от первоначального ранга ко второму. Функция перехода ранга может генерировать «ранг перехода», который вставлен между старым рангом и целевым рангом.

Ранг перехода может вызывать основанный на времени отклик задержки, отрицательный отклик, случайный отклик и / или неожиданный отклик во время перехода от старого ранга к целевому рангу.


Из патента «Ранжирование документов» US8244722B1 следует, что в период перехода от первоначального ранга к следующему целевому, существует некий в период времени, в течение которого Google намерен изрядно попортить веб-мастеру нервы нестабильно ранжируя или не совсем ожидаемо ранжируя новый сайт.

В том же таки патенте US8244722B1 сказано:
для изменения основанной на ссылках информации интернет-страницы может потребоваться приблизительно 70 дней, чтобы изменить ранг документа на его постоянное (целевое) значение.
Надеюсь, что из написанного вам станет понятно почему новый сайт может плохо или не стабильно ранжироваться и почему алгоритма «Песочница» в Google не существует.

Подписывайтесь на мой блог и Телеграм канал SEO inside.
Подробнее