Почему статьи нового сайта не отображаются на вкладке Новости

Google используя искусственный интеллект может автоматически различать типы контента. Обученная нейронная сеть классифицирует сайты по показателю качества, по тематике, по уровню экспертизы, по авторитету. Если большая часть контента сайта не является новостями, ваш сайт не будет ранжироваться как новостной. Это может значительно снизить шансы вашего сайта на получение трафика из вкладки «Новости» SERP.

Суть проблемы для новых издателей

Новости Google — это океан надежных веб-сайтов, в то время как существует множество сомнительных сайтов, которые публикуя новости дня копируют, переписывают контент других сайтов или публикуют поддельные (фейковые) новости. В апреле 2016 г. Google объявил об инициативе под названием Project Owl, направленной на предоставление «алгоритмических обновлений для отображения более авторитетного контента» и исключения фальшивых новостей из результатов поиска. В 2017 году разразился скандал, связанный с тем, что около 50% сайтов, которые ранжировались в рубрике «Медицина» Google News были фейковыми (партнёрки аптек) или предлагали способы увеличения пениса.

В ноябре 2019 года Google для дальнейшей реализации проекта «Project Owl» запустил новый алгоритм ранжирования новостей, а в декабре 2019 года новый инструмент Google Publisher. Ручная регистрация издателей в корпусе новостей была отменена.

С этого момента вновь созданные новостные сайты несмотря на одобрение в Google Publisher не отображались в Google News в качестве источника новостей, издатели не видели свои публикации в этом агрегаторе, их страницы не индексировались во вкладке «Новости» поисковой выдачи Google.

От безысходности новые издатели создали тысячи тем на Справочном форуме Google News требуя вернуться к старым условиям ранжирования в Google News и считали новый алгоритм полностью сломаным.

18 сентября 2020 года представитель Google News опубликовал разъяснение для издателей, но его текст издателей не удовлетворил. Они там не нашли ответы на свои вопросы. Я более 10 раз задавал этот вопрос инженерам Google из разных подразделений и вразумительного ответа не получил. Учитывая, что проблема не решена несколько лет, с целью понижения градуса напряженности с издателями сотрудник Google Danny Sullivan опубликовал в официальном блоге Google Search Central очередное разъяснение — Ответы на некоторые распространенные вопросы о появлении в Новостях Google. Как и ранее, издателям не дали прямого ответа на их вопрос.

Так почему же новые сайты не ранжируются в Google News и во вкладке Новости

Google кровно заинтересован в том, чтобы посетители были довольны. Для этого им нужен постоянный поток новых интересных и качественных статей. Однако издателей, способных удовлетворить этот спрос, более чем достаточно. Итак, Google нужен контент, но не обязательно ваш.

Новостные сайты ранжируются с использованием общих факторов ранжирования. К ним так же применяются специализированные факторы ранжирования Google News.

Вот, что мне ответил инженер Google Gary Illyes:

Рейтинг Google Новостей значительно отличается от рейтинга Веб-поиска. Они используют многие из наших сигналов, но у них есть и свои собственные, которые они используют исключительно для ранжирования новостных сайтов.

Рейтинг в Новостях Google определяется алгоритмически следующими факторами:

  • Актуальность содержания
  • Известность
  • Авторитетность
  • Свежесть
  • Место расположения
  • Язык

Обратите внимание на эти два фактора — известность и авторитетность. У нового сайта нет ни известности, ни авторитета.

Один мой знакомый инженер Google так прокомментировал эту ситуацию:

Для новых сайтов используются консервативные оценки сигналов, в основном нижняя оценка. Сайт не должен вызывать сомнений: популярный, с внешними ссылками, чтобы быть рассмотренным алгоритмом. Пока сайт не станет популярным алгоритму Google незачем напрягаться.

Это ещё один штрих к пониманию сигнала ранжирования «Известность» и абсолютно логично.

Очень часто новые сайты содержат множество технических ошибок и забиты рекламными блоками и издатели не понимают, что это также отрицательно сказывается на перспективах ранжирования их сайтов.

Изучая эту проблему я провёл несколько исследований.

Первое мое исследование я опубликовал 11 сентября 2020 года в блоге Netpeak Software. Рекомендую вам его прочитать.

Вот основные выводы, к которым я тогда пришел (что больше всего влияет на рейтинг):

  • Количество и качество обратных ссылок — основной сигнал.
  • Траст и все элементы, которые его формируют, в том числе дата запуска (возраст) сайта.
  • Объем органического трафика сайта.

Как видим, результаты моего первого исследования соответствуют тому, о чем говорят инженеры и о чем написано в официальной документации о сигналах ранжирования в Google News.

Спустя 10 месяцев после моего первого исследования я провел ещё одно, результаты которого будут опубликованы в этой статье.

Определение известности в Google News

Для целей нового исследования я использовал выборку и датасет из предыдущего исследования, немного модифицировав список критериев.

Используемая методология:

Я уже писал, что согласно моим исследованиям минимальный показатель DA у известного сайта новостей составил 75, а медиана 92,5. Средний DA надежного новостного сайта составляет 90. Поэтому используя API Moz с помощью Netpeak Checker я получил для каждого домена из своей выборки значение DA.

Кроме того, я использовал показатели метрик Majestic, поскольку согласно моего предыдущего исследования именно они больше всего коррелируют с определением «Авторитетности» и «Траста» (надежности источника).

Мне хотелось также проверить влияние поведенческих метрик, таких как показатель отказов, время на странице, количество страниц за визит. Поэтому, я решил заменить показатель трафика из Serpstat значениями Similarweb.

Я исключил параметры, которые в предыдущем исследовании не оказали существенного влияния на результат.

Вот полный список анализируемых параметров:

Response Time, Content Size, Trust Flow, Citation Flow, External Backlinks, Referring Domains, External Domains, External Links, Domain Authority, OVERALL_VISITS, PAGES_PER_VISIT, TIME_ON_SITE, BOUNCE_RATE.

Объем выборки — 1097 доменов. Я разделил домены в выборке на две категории по популярности (Popularity). Для этого я по аналогии с расчетом показателей Core Web Vitals рассчитал третий квартиль для параметра OVERALL_VISITS. По результатам моей выборки в категорию «Популярный» попали новостные сайты, у которых суммарный трафик в месяц более 2,5 млн. визитов в месяц.

Традиционно в своих исследованиях я использую Data Mining.

Первое, что я проверил, это наличие корреляции трафика и ссылочного. Результат — я выявил сильную корреляцию значений параметра OVERALL_VISITS со значениями метрик — DA, Referring Domains, Citation Flow, External Backlinks.

Это совпадает с тем, что мне ответил один инженер Google:

Ссылки сильно коррелируют со временем жизни сайта.

Логика примерно такова, что количество ссылок и трафик должны прирастать в течение времени. Другими словами, считается, что сайт должен подтвердить, что он способен стабильно существовать минимум один год и при этом продемонстрировать стабильный темп публикации актуальных новостей. Это, в итоге, должно привести к постепенному росту обратных ссылок и траффика.

Я решил построить и обучить модель, которая бы определяла являться ли сайт популярным и какие именно факторы сдерживают рост популярности.

Для этого я разделил набор данных на две части (80/20) — набор данных для обучения и на тестовый набор данных. Для своей модели я использовал Логистическую регрессию. Полученная точность классификации — 99,2 процента.

Теперь давайте посмотрим, какие основные факторы приводят к тому, что согласно моей модели сайт может быть классифицирован как «Непопулярный».

Для начала небольшое пояснение к рисунку. Синий цвет означает, что это показатели с низким значением, красный — соответственно с высоким. Параметры сверху вниз размещены по уровню значимости. Точки справа усиливают вероятность модели. Точки слева соответственно «играют» против вероятности модели.

Основные факторы ранжирования в Google News

Итак, целевой класс «Непопулярный сайт». Очень большое количество синих точек справа в параметре OVERALL_VISITS указывают, что в большинстве случаев (но не всегда) непопулярный сайт — это сайт посещаемость которого ниже нужно порога. В нашем примере, этот порог составляет 2,5 миллиона визитов в месяц.

Вы можете спросить, почему не всегда. Потому что иногда новые новостные сайты с трафиком более 2,5 миллиона визитов в месяц так же не ранжируются во вкладке Новости поисковой выдачи и на это влияют другие факторы, которые указаны на этом рисунке. Кроме того, весь основной трафик могли генерировать страницы, которые не имеют по содержанию ничего общего с новостями — астрологические прогнозы, рецепты, сплетни и так далее.

Возможно это простое совпадение, но модель показывает, что у непопулярных сайтов новостей обычно показатели Response Time (ответ сервера) слишком высоки. На самом деле, во многих случаях это так, потому что многие новые издатели на стадии запуска много на чем экономят, в том числе на выборе сервера.

Если верить нашей модели у непопулярных сайтов намного более низкие показатели Domain Authority, External Backlinks, Referring Domains. Это вполне ожидаемо. Если это не так, тогда есть повод внимательно взглянуть на ссылочное такого сайта на предмет использования спама.

При этом у непопулярных сайтов значительно больше количество исходящих ссылок на другие сайты.

Поведенческие метрики никакого особого влияния на модель не оказали.

Как это можно использовать для оценки сайтов новостей

Для проверки работы модели, я собрал на справочном форуме Google News небольшой список сайтов, которые не ранжируются во вкладке Новости поисковой выдачи Google. Для этих доменов я собрал значения по тем же параметрам, что и для основного набора данных. Единственное, что я не сделал — не классифицировал их на популярные и не популярные, поскольку модель это должна сделать самостоятельно.

Вот как это выглядит на практике.

Google Новости. DataMining: классификация сайтов новостей

Согласно предсказанию модели, вероятность того, что этот сайт популярный составляет 79 процентов. Но почему не сто?

Основные факторы (параметры), которые способствуют классификации этого сайта как популярный — авторитет домена и количество трафика. В то же время, основной сдерживающий фактор (параметр) — это время ответа сервера и в какой-то степени недостаточные значения параметров Referring Domains и Trust Flow. Да, как ни странно, нужно поработать над скоростью и этому сайту не хватает ссылок с качественных доменов. Но это не значит, что нужно взять и навалить таких ссылок. Ко всему нужно подходить с умом.

Выводы

Вот основное, что нам рассказал Danny Sullivan:

В Google мы хотим помочь каждому понять мир, сообщая людям актуальные и авторитетные новости от различных надежных издателей. Убедитесь, что вы регулярно создаете оригинальный новостной контент и обладаете большим опытом, авторитетностью и надежностью.

Если ваши новости не актуальны или ваш сайт пока что не является авторитетным, а вы не являетесь надежный издателем, появления сайта во вкладке Новости мало вероятно.

Danny Sullivan пишет, что новым издателям просто нужно создать соответствующий контент, который определяется как:

По сути, требуется высокий уровень E-A-T, чего новый сайт может достичь только через существенный промежуток времени (минимум год).

Наличие последовательной истории создания новостей — здесь издателям тоже намекают на то, что быстро только мыши рождаются. Нужно как минимум в течение одного года публиковать качественные и актуальные новости. У нового сайта может быть миллион публикаций и большая часть из них это не новости. Не весь информационный контент новости.

Что касается соблюдения политики в отношении новостей, как показывает мой опыт, большинство новых издателей либо вообще никогда не читали эти документы, либо считают, что там нет ничего существенного. И это одна из основных проблем новых издателей. Они хотят всё и сразу при минимальных усилиях. При этом, издатели считают, что Google им что-то должен, если они предлагают агрегатору свои новости.

Обратите внимание на то, что требования в отношении «Прозрачности« (информация об авторах и издании) является одним из основных требований к приемлемости, которая влияет на факторы ранжирования новостей. Эти требования как раз и описаны в Политике в отношении новостей.

Ну и органический прирост обратных ссылок с авторитетных доменов, сопряженный с ростом трафика и развитием бренда издания, должны в итоге сформировать уровень известности издания и его авторов.

Популяризируйте не только ваш сайт и бренд, но и ваших авторов. Google должен убедится, что эти люди реально существуют и являются экспертами в своей отрасли.

Еще несколько советов новым издателям. Обилие рекламы при невысоком трафике — это дурной тон и может негативно повлиять на общий рейтинг сайта. Делайте акцент на новости, а не на прочий информационный контент.

Если есть вопросы в отношении сайтов новостей, можете написать мне в Телеграм @Agentvvo .

FAQ: Часто задаваемые вопросы

На что жалуются многие издатели после добавления и одобрения сайта в Google Publisher?

Их статьи не отображаются в Google News и вкладке «Новости» поиска.

Что является самым важным элементом политики Google в отношении новостей?

Требования в отношении соблюдения «Прозрачности» (раскрытие информации об авторах, редакторах, издании).

Какие основные факторы ранжирования в Google News?

Рейтинг в Google Новостях определяется автоматически с учетом следующих факторов: релевантность контента; известность; авторитетность; новизна; местоположение; язык.

Один комментарий к “Почему статьи нового сайта не отображаются на вкладке «Новости»”
  1. Довольно качественный у вас блог.Вроде статьи только про продвижение в гугле, а про Яндекс бывает ?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *