388x60 Ads

Как Google использует слова синонимы


Почему синонимы очень важны для продвижения сайтов? Как Google использует похожие слова при обработке запросов? Синонимы  это фактор ранжирования? В этой статье вы получите ответы на эти вопросы.

Цель поисковой системы — вернуть наилучшие результаты для поиска, а понимание языка имеет решающее значение для возвращения лучших результатов. Ключевая часть этого — система для понимания синонимов. Google использует много методов для извлечения синонимов. Их системы анализируют огромное количество веб-документов и исторических данных поиска, чтобы создать сложное понимание того, что слова означают в разных контекстах.

Исследования показывают, что синонимы влияют на 70 процентов пользовательских запросов на более чем 100 языках, поддерживаемых Google.

Google взял ряд запросов и проанализировал, насколько точны синонимы, и был доволен результатами: на каждые 50 запросов, где синонимы значительно улучшали результаты поиска, Google получил только один плохой синоним[1].

Об этом в 2010 году писал инженер Google Steven Baker.


Мэтт Катс, комментируя эту статью, посоветовал веб-мастерам подумать о разных словах, которые поисковики могут использовать при поиске вашего контента. «Подумайте о сленге, который будут набирать пользователи. Не упускайте из вида термины, которые люди будут печатать, подумайте о синонимах, естественным образом соответствующие вашему контенту. Не засоряйте статью ключевыми словами, но если вы используете разные способы рассказать о предмете естественным образом, это может помочь пользователям»[2].

Так что Мэтт Катс тоже рекомендовал использовать синонимы в контенте сайта.

Что такое слова синонимы?

Определим критерии термина "синонимы".
Слова синонимы — слова, принадлежащие, как правило, к одной и той же части речи, различные по звучанию и написанию, но имеющие похожее лексическое значение.
Википедия[3]
Что происходит на практике. Часто пользователь вводит запрос на одном языке, а результаты получает на другом.

Пример — в Google-ua вводится запрос на украинском языке из четырёх слов, несозвучных и не однокоренных с похожими словами на русском языке. При этом результаты выдачи на запрос пользователь получает на русском языке.

Второй пример. Пользователь вводит запрос, а в перечне результатов видит страницы, в которых ключевое слово запроса отсутствует.

Google понимает термин "слова синонимы" более широко. Это слова одинаковые или близкие по смыслу и упоминаются в одинаковом контексте. Это необязательно слова на одном языке.

Google использует систему Knowledge base, поэтому рискну предположить, что "Корпорация добра" выкупила у Xerox Corporation патент US 8103669 B2.

Слово «синоним» относится к термину (к слову или фразе), который встречается в запросе пользователя и считается эквивалентным термину в базе знаний (knowledge base) или наоборот. Он может иметь такое же или сходное значение для термина базы знаний.
Патент US 8103669 B2[4]
«Синонимическое правило» — это тип правила расширения запроса, которое указывает пару (проблематичный термин, заменяющий термин) и необязательно содержит ограничение на контекст. Контекстное ограничение может указывать другой термин, связанный / не связанный с проблемным термином и / или заменять термин для правила расширения запроса, которое должно применяться.
Патент US 8103669 B2

Инженер Google Paul Haahr третьего марта 2016 года на конференции SMX West выступил с докладом «Как работает Google». Обратите внимание на этот слайд из доклада.
Как Google использует слова синонимы

Процесс понимания поисковой системой Google запроса состоит из трёх этапов:
- Содержит ли запрос имя или известную сущность;
- Существуют ли полезные синонимы;
- Какой контекст использования.
Как указано в Патенте US 8103669 B2 синонимы полезны в нескольких контекстах. Системы поиска информации нуждаются в создании и обслуживании правил расширения запросов на основе синонимов, поскольку терминология, используемая в доступном для поиска содержании базы знаний, часто отличается от терминологии, применяемой пользователями поисковой системы.

Системы устранения неполадок с пользовательским взаимодействием на основе пользовательского языка обеспечивают эффективные результаты только в том случае, если у пользователя есть определённый опыт терминологии, используемой в базе знаний (knowledge base), и он может выбирать правильные слова для запроса.

Синонимы должны определяться точно и выборочно чтобы быть полезными. Общий список синонимов для естественных языков в некоторых случаях отсутствует. Большинство баз знаний имеют ограниченное число правил расширения запросов, которые заменяют один или несколько синонимов для запрашиваемого термина. 

Примерный вариант реализации изобретения обеспечивает способ разработки правил расширения запросов, который может выполняться, по меньшей мере, полуавтоматически, для улучшения поиска из структурированной базы знаний (knowledge base).

Предполагается, что полуавтоматическая система [с привлечением редакторов] формирования правил расширения запроса включает в себя модуль, который автоматически извлекает пары синонимов из выражений, используемых пользователями в запросах при поиске в базе знаний. Модуль экспорта правил синонимии экспортирует правила расширения запросов на носитель данных для использования при расширении пользовательских запросов при поиске базы знаний.

Если Google использует этот Патент, подбор синонимов производится примерно в таком порядке
1. Пользователь вводит запрос;
2. Система проверяет, содержит ли он имя или сущность;
3. Система анализирует контекст использования;
4. Система производит поиск синонимов в knowledge base;
5. Система получает из knowledge base информацию и создаёт список релевантных страниц;
6. Система ранжирует (англ. ranking) каждую страницу из списка используя факторы ранжирования.

Слова синонимы - фактор ранжирования

Синонимы являются фактором ранжирования, как это ни удивительно для многих звучит. Не верите? Смотрите на слайд из доклада инженера Paul Haahr.
Синонимы — это фактор ранжирования

Paul Haahr объяснил, что синонимы — это сигнал ранжирования, зависимый от запроса. Как слова синонимы влияют на ранжирование, не совсем ясно. Можно предложить, что синонимы используются Google в модели LSA.
Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам. Впервые ЛСА был применён для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов. Затем этот метод был довольно успешно использован для представления баз знаний и построения когнитивных моделей.
Википедия[5]

Обязательно прочитайте!
Обновления алгоритма Google - Fred и его друзья
Google Algorithm Update 7 февраля 2017 года

Я уже писал, основываясь на документах Google, что если RankBrain видит незнакомое ему слово или фразу, машина может сделать предположение относительно того, какие слова или фразы имеют аналогичный смысл и фильтровать результат.
Судя по всему, модуль подбора синонимов  часть алгоритма RankBrain и синонимы не являются самостоятельным сигналом ранжирования. RankBrain — это система машинного обучения, объединяющая сигналы ранжирования и понимание документов.

SEO продвижение и подбор синонимов

Нужно активно использовать семантические аналоги для продвижения сайтов, поскольку инженер Google Paul Haahr говорит о синонимах как о факторе ранжирования.
Если пары синонимов в knowledge base действительно периодически корректируются редакторами, то "человеческий фактор" может при каких-то обновлениях алгоритма опосредовано влиять на результаты выдачи. В таких случаях веб-мастерам будет всё сложнее искать причины падения трафика или позиций. Рекомендую посмотреть это видео.
Итак, где найти примеры синонимов? Первое что вам поможет — это сам Google. Поисковая система подсвечивает полужирным текстом ключевые слова из запроса и их синонимы. Примеры синонимов видны в инструменте автозамены при вводе запроса в окно поиска; в результатах выдачи; подсказках внизу результатов выдачи.

Автоматизировать процесс сбора подсказок можно при помощи программы Словодер.

Также используйте:
Викисловарь
Словарь синонимов
Словари gramota.ru
Парсинг подсветок Yandex

Ещё одним полезным инструментом является Google Correlate.

Google Correlate использует информацию об активности веб-поиска для поиска запросов с похожим шаблоном в целевой серии данных.

Если ввести в этот инструмент слово "консультация" Google выдаст результаты, которые коррелируют с трудоустройством, медицинской тематикой, и в меньшей степени с юриспруденцией. Предположительно Google Correlate указывает на контекст, в котором Google хочет обрабатывать запрос.

Источники:
1. Google Official Blog. January 19, 2010. Steven Baker, Software Engineer. Helping computers understand language.
2. Matt Cutts. January 19, 2010. More info about synonyms at Google.
3. Синонимы. Статья из Википедии.
4. Патент US 8103669 B2. System and method for semi-automatic creation and maintenance of query expansion rules.
5. Латентно-семантический анализ. Статья из Википедии.
Подробнее

Обновления алгоритма Google - Fred и его друзья


Что повлияло на трафик сайтов в феврале 2017 года? Что такое Fred и существует ли он? Что такое "медицинский апдейт" и был ли он на самом деле?

Наверно только ленивый не писал об алгоритме Fred. Я в числе таких лентяев, потому что пишу только сейчас. Теперь давайте обсудим три комплексные обновления поискового алгоритма Google, произошедшие в 2017 году.

Обновление алгоритма в феврале 2017 года

Кто не помнит, началось все с февральского обновления. Тогда тоже в кругах веб-мастеров возникла паника, потому что не было понятно что повлияло на ухудшение результатов сайтов.
Есть основания считать, что в феврале 2017 года было крупное обновление алгоритма Панда. Подробности по ссылке выше. Смотрите так же видео ниже.
Тогда же в феврале 2017 года на мой вопрос Джон Мюллер ответил следующим образом:
Это не столько «обновление основного алгоритма», сколько, вообще, нормальные изменения, как всегда, но несколько одновременно и это скорее по совпадению, чем по плану.  Мы не комментируем их, это просто наши нормальные изменения. Некоторые сайты растут, работая над улучшением качества сайта, некоторые сайты идут вниз.
John Mueller, Google
Алгоритм Панда обновляется ежемесячно. Крупные обновления происходили в начале месяца. Гипотеза — если к ежемесячному обновлению Панды подмешиваются обновления других алгоритмов — это приводит к комплексному обновлению. Учитывая, что ядром февральского, мартовского и, возможно, сентябрьского обновлений может быть Панда, будет полезным напомнить слова Gary Illyes об этом алгоритме.
Это часть основного алгоритма ранжирования. Вам нужно улучшить качество сайта, смена доменов не улучшит ваш рейтинг.
Панда оценивает качество сайта, проверяя подавляющее большинство страниц. Но, по сути, позволяет нам учитывать качество всего сайта при ранжировании страниц и корректировать рейтинг для страниц. Если вы хотите получить простой ответ, алгоритм не будет снижать оценку, он будет фактически понижать.
Gary Illyes, Google

Рождение Фреда — март 2017 года

Всем известный "рупор" новостей из Google Барри Шварц, общаясь в твиттере с Гэрри Илшем, попросил его прокомментировать подобные комплексные изменения алгоритмов Google, которые произошли в начале марта 2017.
Gary Illyes об алгоритме Fred

У нас  3 обновления [алгоритма, — прим. авт.] в день в среднем. Я думаю, можно с уверенностью предположить, что недавно было... [обновление, — прим. авт.]
Gary Illyes, Google
Барри предложил как-то назвать это обновление, на что Гэрри Илш ответил:
Конечно! С этого момента каждое обновление, если не указано иное, называется Fred.
Gary Illyes, Google

SEO-порталы быстро растиражировали это под "соусом" того, что якобы появился новый алгоритм Fred. Мало кто обратил внимание, что это лишь одно из нескольких регулярных обновлений и название Fred было, скорее всего, шуткой Гэрри Илша.

Три месяца назад ещё один сотрудник Google мне подтвердил, что как такового алгоритма Fred не существует и никогда не существовало.

Казалось бы, прошло уже полгода, а интерес к алгоритму Фред не утихает. 5 сентября 2017 г. вебмастера на очередной видеовстрече допрашивали Джона Мюллера есть ли жизнь на Марсе существует ли Fred.
Название Fred использовалось для целой серии алгоритмических обновлений, которые начались весной ... Люди объединяют все это в имя Fred, что, с моей точки зрения, не делает его намного проще для понимания. Иногда возникают очевидные проблемы с качеством, в соответствии с которыми мы обновляем эти алгоритмы. Иногда есть очевидные проблемы со ссылками, на которые могут сосредоточиться наши алгоритмы. Но если вы сложите все это вместе и скажете: "Я нашёл пять веб-сайтов, которые похожи на это. Поэтому Фред должен быть таким", то это вводит в заблуждение.
John Mueller, Google
Как видим, так называемый  Fred, — это результат комплексного обновления нескольких алгоритмов Google.

Я как и многие веб-мастера пытался понять какие именно из известных нам алгоритмов обновились в марте. Проанализировав несколько десятков сайтов были выявлены общие признаки.

По моему, мнению  Fred, — это обновление в течении короткого периода времени таких алгоритмов качества:
- Панда
- Алгоритмы, оценивающие UX
- Page Layout. Если кто не помнит, — этот алгоритм наказывает сайты за агрессивную рекламу.
- Алгоритмы, связанные с оценкой качества мобильной версии сайта.

Подробнее на видео.

Да, такие обновления приводят к значительным изменениям в выдаче и объёме трафика и довольно сложно веб-мастеру понять причину снижения позиций или трафика.

Обновление алгоритма Google в сентябре 2017

Веб-мастера активно обсуждают последствия обновления алгоритмов Google, которое произошло 6-10 сентября 2017 года. Как и в феврале, и в марте 2017 года у сайтов наблюдается резкое снижение трафика. Веб-мастера отмечают, что пострадали в основном сайты медицинской тематики из США и Западной Европы.

В это же время ко мне обратились владельцы шести сайтов adult тематики, у которых тоже резко просел трафик. Не знаю насколько это показательно, но их объединяло то, что у всех этих сайтов была низкая скорость загрузки в мобильной версии.

Сотрудники Google категорически отрицают тот факт, что обновление может касаться какой-то одной ниши.

По этому, говорить о том, что сентябрьский апдейт носит ярко выраженную медицинскую направленность нет оснований.


Рекомендую "медикам" почитать Руководство Google для асессоров. В нём ясно сказано что Google ожидает от таких сайтов. Собственно в Руководстве сказано, что сайты, относящиеся к категории YMYL, должны отвечать самым высоким критериям качества, авторитета и доверия (модель E-A-T). Вам также будет интересно прочитать - Как Google использует слова синонимы.

Ради интереса была проанализирована выдача из ТОП 10 Google-ru по запросам "Прыщи", "Лифтинг кожи", "Протезирование зубов виды". Полученный список сайтов был проверен сервисом testmysite.withgoogle.com.

Вот такие получились результаты.
Скорость загрузки сайтов ТОП 10 Google-ru

В ТОП 10 ниши "Медицина" только 22 процента медленных сайтов. Лучшие сайты в этой нише имеют скорость загрузки 5 секунд и ниже.

Посмотрим динамику популярности этих запрсов.
Динамика популярности запроса прыщи

*Такая же динамика популярности в период с 6 по 10 сентября и по запросам "сыпь","лифтинг кожи", "протезирование зубов виды".

Пока точно не известны причины понижения трафика отдельных сайтов медицинской тематики после апдейта Google в начале сентября. Возможно причины в снижении популярности запросов в определенный период времени, а именно с 2 по 10 сентября. Поскольку определённости в причинах нет, обратите внимание на следующее:
- Сайт должен загружаться быстрее, чем за 3 секунды. Google говорит о том, что 50% людей ожидают, что сайт загрузиться быстрее, чем за две секунды. Не обманите их ожидания. The New York Times утверждает, что достаточно разницы в 0,25 секунды при загрузке, чтобы люди предпочли один сайт другому;
- Контетнт должен быть оригинальным по смыслу и максимально удовлетворять информационные потребности пользователя;
- Google планирует сделать с 2018 года мобильный индекс основным, поэтому ваша мобильная версия сайта должна быть оптимально оптимизирована и содержать контент в таком же объёме, как и в десктопной;
- В Google Search Console появился раздел Web Tools, в котором будут показываться результаты проверки вашего сайта на соответствие стандартам Better Ads Standards.  В браузере вы увидите последствия этого начиная с 2018 года. Поэтому, проверьте какие рекламные объявления используете на сайте, где размещены рекламные блоки и в каких количествах;
- Ещё один тренд Google - переход сайтов на https. Вебмастеров всеми возможными способами "стимулируют" к такому переходу. Во-первых: https — это один из факторов ранжирования. Во-вторых: многие помнят не единоразовые массовые рассылки "писем счастья" от Google о том, что сайт небезопасен и нужно перейти на https. Если вы пользуетесь инструментом SEMrush Sensor увидите сколько сайтов из ТОП 10 или ТОП 20 в вашей нише используют https. В большинстве случаев, этот процент превышает 50%. Следовательно - хотите быть в ТОПе, не забывайте о https;
- Внедряйте PWA на тех сайтах, где это целесообразно. Это новая "любимая игрушка" Google. Постарайтесь быть в числе первых;
- О ссылках. Куда же без них. Все по-старому. Обилие неестественных ссылок снижает рейтинг сайта и показатель общего качества. Одним из индикаторов снижения общего качества страницы сайта является отключение расширенных сниппетов.

От веб-мастера мало что зависит

Google проводит очень много экспериментов. Они делятся на два вида автоматическое A/B тестирование и оценка асессоров.

Обратите внимание на слайд Paul Haahr (Google Software Engineer).
Google проводит очень много экспериментов
Как видно из текста на изображении A/B тестирование проводится на реальном трафике. В одном эксперименте дают больше трафика, в другом меньше. А веб-мастера тем временем лихорадочно ищут причины резких колебаний трафика.

Google изучает шаблоны кликов. Пример эксперимента. Страницы А [ответ на запрос в контенте] и В [ответ на запрос в контенте и в сниппете] отвечают информационным требованиям пользователя. Если алгоритм ставит страницу А перед страницей В и пользователь кликает на страницу А, оценка "хорошо". Если алгоритм ставит страницу В выше страницы А и пользователь не кликает на страницу В, оценка "плохо".

На конференции SMX 2016 Инженера Paul Haahr  спросили — учитывает ли Google оценку CTR как фактор ранжирования. Пауль ответил: "мы используем оценку CTR для экспериментов и для персонализации выдачи". Отвечая на вопрос — использует ли Google прямые и косвенные сигналы ранжирования Paul Haahr ответил: "я не могу сказать ни да, ни нет".

А также Пауль объяснил почему маленький сайт может иметь более высокую оценку качества, чем крупный интернет-ресурс. "Потому что наши асессоры хорошо делают свою работу", — ответил  Paul Haahr.

Вот вам ещё один пример непрямого сигнала ранжирования. Инженеры Google, обобщают результаты экспериментов, делают выводы и вносят коррективы в алгоритмы оценки качества и ранжирования.

RankBrain объединяет много факторов ранжирования и технологию машинного обучения. Вероятно, что он получает информацию из knowledge base, данные в которой  редактор может изменять в ручном режиме. При очередном обновлении алгоритма возможно значительное влияние "человеческого фактора".

У веб-мастера всё меньше возможностей узнать причины падения трафика или позиций.
Подробнее

⇶ Основы DMCA и работы алгоритма Google Pirate

Основы DMCA и алгоритма Google Pirate

Поиск Google организует и индексирует огромное количество общедоступных веб-страниц в интернете. Во всем мире в поиске Google ежедневно производится более 3,5 миллиарда поисковых запросов, что делает его наиболее широко используемой поисковой системой в мире. Популярность Google имеет ощутимые преимущества для правообладателей, поскольку он помогает более чем миллиарду людей во всём мире найти лицензионные копии контента, который они хотят потреблять[1].

Программа TCRP, внедрённая  Google, позволяет доверенным владельцам авторских прав и агентам по обеспечению безопасности упростить процесс подачи уведомлений об удалении больших объёмов веб-страниц. С 2012 года более семидесяти тысяч различных организаций подали запросы в Google для удаления веб-страниц из результатов поиска аргументируя нарушением отдельными сайтами авторских прав. Из этих семидесяти тысяч только 114 пользователи TCRP. Таким образом, подавляющее большинство уведомлений каждый год приходится на небольшой процент заявителей. Лишь несколько организаций отправляют в Google сотни тысяч (в одном случае более миллиона) уведомлений об удалении url[2].


В интернете более 60 триллионов адресов, но только бесконечно малая часть из них связана с пиратством. Тем не менее Google не хочет включать какие-либо ссылки на материалы, нарушающие авторские права, в свои результаты поиска, и прилагает значительные усилия для предотвращения появления веб-страниц с нарушением правил.

Основные три направления этих усилий можно изложить так:
- Чистые результаты для запросов пользователей, связанных с мультимедиа: фактически, благодаря усилиям инженеров Google, подавляющее большинство запросов, связанных с медиа, которые пользователи ежедневно вводят в поисковую систему, возвращают результаты, которые включают только законные сайты. Тут нужно сделать пометку на то, что это суждение справедливо в основном для выдачи в США и Канаде.
- Замечания по удалению url и дате понижения: Несмотря на то, что подавляющее большинство запросов, связанных с медиа, дают чистые результаты, есть некоторые редкие запросы, в которых результаты включают проблематичные ссылки. Для этих «низкочастотных» запросов Google сотрудничает с владельцами авторских прав для решения проблемы. Во-первых, Google разработал самые современные инструменты, позволяющие правообладателям и их исполнительным агентам эффективно отправлять уведомления об удалении в больших объёмах (десятки тысяч в день) и обрабатывать эти уведомления в среднем в течение шести часов. Во-вторых, Google затем использует эти уведомления для понижения сайтов-нарушителей в результатах поиска.
- Законные альтернативы: Google полагает, что предоставление удобных, убедительных, законных альтернатив является одним из лучших способов борьбы с пиратством. Соответственно, Google запустил ряд инициатив по представлению законных альтернатив пользователям в рамках результатов поиска, в том числе предоставление рекламы по запросам для фильмов и музыки, чтобы связать пользователей с законными способами приобретения контента. Google также сотрудничает с владельцами авторских прав и музыкальными сервисами, чтобы помочь им понять, как использовать методы оптимизации SEO (поисковой оптимизации), чтобы получить предложения о результатах поиска для «низкочастотных» запросов[1].
Обязательно прочитайте!
Как работает алгоритм Google RankBrain
Влияние Better Ads Standards на ранжирование сайтов
Ссылочный спам – точка зрения Google

Интересной является такая тенденция. По словам Google, крупные корпорации злоупотребляют системой для удаления файлов и ссылок на контент, нарушающий авторские права, отправляя миллионы поддельных ссылок в попытке закрыть определённые сайты.

«Значительная часть недавнего увеличения объёмов подачи DMCA для Google Search происходит из уведомлений, которые кажутся дублирующими, ненужными или ошибочными», - заявил Google в своём официальном ответе для U.S. Copyright Office.

«Значительное количество запросов на удаление, отправленных в Google, предназначено для URL-адресов, которые никогда не были в нашем поисковом индексе и поэтому никогда не появлялись в наших результатах поиска»[3].

Другими словами, компании используют возможности DMCA Google, чтобы попросить Google удалить ссылки, которые на самом деле не существуют.

«Например, в январе 2017 года наиболее “плодовитый” заявитель представил уведомления, которые Google выполнил по 16 457 433 URL-адресам. Но при дальнейшей проверке оказалось, что из них 16,450,129 (99,97 процента) в нашем поисковом индексе отсутствовали» [3].

И если вы думаете, что это делает только одна компания, вы ошибаетесь. Опять же, согласно Google, «в общей сложности 99,95% всех URL-адресов, обработанных Google в рамках Программы TCRP в январе 2017 года, не были в нашем индексе»[3].

То, что, по-видимому, происходит, заключается в том, что юристы по интеллектуальной собственности берут все новые фильмы, альбомы, отдельные книги и копируют структуру URL-адресов тысяч разных веб-сайтов для отправки запроса на удаление. Это выглядит как автоматизированный спам правообладателей.

Проверка этих запросов показывает, что они являются явно автоматизированными, поскольку используется один и тот же синтаксис снова и снова для разных веб-сайтов и даже на тех же веб-сайтах, при этом все возможные варианты и комбинации включаются  с целью попасть на настоящий URL-адрес.

Последствия нарушения DMCA

Google с августа 2012 года учитывает в качестве сигнала ранжирования [Google Pirate – прим. авт.] количество действительных уведомлений о нарушении авторских прав. Сайты с большим количеством таких уведомлений могут оказаться ниже в результатах поиска[4].

Давайте вспомним, как повлияло это обновление на ранжирование и трафик торрент-сайтов в 2014 году, основываясь на данных исследования TorrentFreak.

Популярные «пиратские» сайты отмечали резкое падение поискового трафика.
TorrentFreak общался с различными владельцами торрент-сайтов, которые подтверждали, что трафик от Google сильно пострадал от изменений алгоритма. «Ранее на этой неделе [в 2014 году – прим. авт.] весь поисковый трафик упал наполовину»,  – сообщила команда сайта Isohunt.to[5].
Последствия нарушения DMCA
Изображение - TorrentFreak

Снижение иллюстрируется ежедневным сопоставлением трафика до и после внесения изменений, как показано ниже. График показывает значительную потерю трафика, который Isohunt.to исключительно приписывает изменениям в алгоритме Google Pirate. Сайты, которые попали под Google Pirate, в 2016 получили падение поискового трафика в размере 89%[1].

Снижение рейтинга влияет на все сайты, которые имеют относительно высокий процент запросов на удаление DMCA. Когда пользователи Google ищут популярные названия фильмов, музыки или программного обеспечения в сочетании с такими терминами, как «загрузка», «смотреть» и «торрент», эти сайты понижаются в рейтинге.

Обновление алгоритма в 2014 году оказалось гораздо более эффективными, чем предыдущие изменения алгоритма поиска, и затронули все основные «пиратские» сайты.

Ниже представлен обзор видимости [в 2014 году – прим. авт.] нескольких крупных торрент-сайтов в Великобритании и США, основанный на списке из 100 ключевых слов.
Алгоритм Google Pirate
Изображение - TorrentFreak

Как работает алгоритм нам конечно никто не скажет, давайте посмотрим, что на этот счёт написано в патентах Google. Не исключено, что некоторые из этих идей были реализованы при разработке алгоритма.

Если количество поданных жалоб превышает пороговое значение, автоматизированный компонент решения IP может сделать первоначальное определение того, следует ли сразу предположить, является ли жалоба действительной или недействительной на основании прошлой истории жалоб, связанных с подавшей жалобу стороной.

Если часть ранее поданных жалоб, которые были определены как действительные, превышает второй порог (например, 75%), ожидающая жалоба может автоматически считаться действительной. В таком случае, подозрительный контент может быть немедленно удалён из SERP до дальнейшего ручного просмотра.

С другой стороны, если доля прошлых жалоб, которые были действительными, ниже второго порога, не делается никаких предположений относительно подозрительного контента, и содержание может продолжаться показываться до тех пор, пока оно не будет оценено вручную.

Следовательно, Патент предполагает, что автоматически признанные действительные жалобы рассматриваются вручную.

Если доля ранее поданных жалоб, не прошедших успешную проверку, чрезвычайно высока (т. е. большая часть жалоб недействительна), новая жалоба может быть отменена без какого-либо ручного обзора.

Методы, описанные выше, позволяют немедленно обрабатывать и принимать новые жалобы, связанные с IP[6].

Лицензионные переводы тоже часть контента, который охраняется DMCA. Обратите внимание на такой Патент.

Контекст слова или фразы часто играет важную роль в обеспечении точного перевода. В одном варианте делается предположение, что в пределах среднего диапазона достоверности (например, от 50% до 70%) , контент может быть помечен как потенциальное нарушение, так как этот диапазон указывает на то, что для идентификации имеется достаточное сходство, но и достаточно разницы в значительной степени. Например, нелицензированный перевод может быть идентифицирован по схожести между текстом нелицензионного перевода и текстом официальной версии с автопереводом[7].

Достаточное сходство – от 50% до 70% для определения факта нарушения.
Дублированные или почти дублированные документы могут указывать на плагиат или нарушение авторских прав. Одним из важных приложений для обнаружения дубликатов документов является контекст хранения и извлечения информации. Например, для документа из «n» слов желательно иметь 50% -ную вероятность, что изменение n / 10 слов приведёт к тому, что документ не будет использовать общие отпечатки…[8]
Немного запутано конечно, но можно предположить, что документы (страницы) которые содержат меньше 50% собственного оригинального контента, могут быть признанными дублированными. Теоретически на этом основании правообладатель может подать жалобу на удаление такой веб-страницы.

Просмотр вручную такого количества жалоб правообладателей дело весьма затратное. Если процент url, помеченных для удаления, превышает 75% все решения в отношении сайта – нарушителя принимает алгоритм – отключает (понижает) трафик и снижает позиции вплоть до полного исключения из индекса.

Для проверки этой гипотезы были проверены показатели сайтов, представители которых задали соответствующие вопросы на Справочном форуме для веб-мастеров Google и на searchengines.guru. Из пятнадцати сайтов нашей выборки – десять это торрент-сайты.
DMCA - влияние алгоритма Google Pirate
Диапазоны воздействия алгоритма Google Pirate  

Ключевые показатели:
● Процент удалённых url;
● Верхний квартиль - 91,2%
● Медиана - 84,3%
● Нижний квартиль - 75,7%
Выборка, конечно, не репрезентативная, но по этой совокупности можно сделать вывод, что проблемы с алгоритмом Google Pirate возникают в основном у сайтов, процент удаленных url у которых от 75% до 90%.

Есть конечно "аномалии" - сайты с процентом удалённых url за пределами верхнего и нижнего квартилей.

В одном из Патентов Google сказано, что существует некий второй порог (75%), при соответствии или превышении которого ожидающая жалоба может автоматически считаться действительной.

Значение второго порога соответствует показателю нижнего квартеля в нашем примере. Что это нам даёт?
Показатель 75% удалённых url из общего числа заявленных к удалению за всё время могут служить индикатором того, воздействует ли на сайт алгоритм Google Pirate или нет. Как пишет Google, в качестве демотивирующего сигнала он использует количество валидных абуз. Можно предположить, что "количество" означает больше 1000 полученных и утвержденных абуз. При этом, должно наблюдаться падение органического трафика от 50% до 90%. 

Ещё одна поправка. Если общее количество страниц, на которых пожаловался правообладатель, не очень велико (несколько десятков или пару сотен), то решение об их удалении, скорее всего, принимается после ручного обзора. Прямым подтверждением этому может быть письмо от Adsense об отключении показа рекламы на котой выявлены признаки нарушения DMCA.

Алгоритм Google Pirate - борьба с абузами

Способов борьбы с абузами (Google Pirate recovery) не так много. Вот некоторые из них, которые описаны в интернет. - Смена домена. Настроить постраничный 301 редирект на новый домен и закрыть старый сайт от индексирования ботами Google.
- Смена url. Нужно, если это целесообразно, старую страницу закрыть от индексирования ботами Google и/или настроить 301 редирект на новую страницу.
- Удаление незаконного контента. Можно заменить определённый медиа - контент,  например, короткое видео, gif-файлом. Если целесообразно удалить всю страницу, желательно чтобы она отдавала 410 код.
- Блокирование доступа к авторскому контенту из стран правообладателей или их агентов.
- Подача встречного уведомления. В этом есть смысл, если контент спорный (или жалоба безосновательна) и у вас есть доказательства наличия прав на объекты интеллектуальной собственности. 
Заполняйте форму по ссылке, которую Вам прислали , так как Вы не удалили контент, а подаёте встречное уведомление о том, что контент не нарушает авторских прав.
Андрей Липатцев, Google
Это подтверждает то, что встречное уведомление подаётся, если страница со спорным контентом не удалена, иначе нечего оспаривать.

Если заявитель (правообладатель) не будет подавать встречных действий на протяжении следующих 15 дней, оспариваемый контент, в случае его блокировки, должен быть восстановлен[9]. В самом же DMCA сказано, что на это дается от 10 до 14 рабочих дней.

Источники:
[1] Отчёт «How Google Fights Piracy 2016 - Final E-reader version»
[2] "How Google is Fighting Piracy". Sabina Hartnett on July 18, 2016.
[3] Письмо Google в U.S. Copyright Office от 21.02.2017 года.
[4] "An update to our search algorithms".  Amit Singhal, SVP, Engineering. August 10, 2012.
[5]Google’s New Search Downranking Hits Torrent Sites Hard.
[6] Patent "Automated determination of validity of complaints". US 8380571 B1. Publication date  19 Feb 2013. Original Assignee Google Inc.
[7] Patent «Automatic translation of digital graphic novels». WO 2017052820 A1. Publication date   30 Mar 2017. Applicant Google Inc.
[8] Patent «Detecting duplicate and near-duplicate files». US 9275143 B2. Publication date 1 Mar 2016.Original Assignee Google Inc.
[9]Patent "Blocking of Unlicensed Audio Content in Video Files on a Video Hosting Website". US 20110289598 A1. Publication date 24 Nov 2011. Original Assignee Google Inc.

Подробнее

Влияние Better Ads Standards на ранжирование сайтов

Влияние Better Ads Standards на ранжирование сайтов

В Google Quality Guidelines сказано, что всё содержимое веб-страницы состоит из следующего: Основной контент (MC), Дополнительный контент (SC) и Реклама / Монетизация (Ads). Сейчас сложно себе представить сайт без рекламных блоков, может быть за исключением официальных сайтов, .gov и .edu сайтов.

Формально из Google Quality Guidelines следует, что реклама — это часть сайта, которая не является контентом (ни основным, ни дополнительным).

Google books Ngram Viewer показывает динамику упоминаний фраз (N-грамм) в корпусе книг в течение определённого периода времени. Резкий рост упоминания слова "реклама" начался в 1987 году, а слова "сайт" — в 1996.

При этом количество упоминаний слова "сайт" в 2004 году превысило количество упоминаний слова "реклама".
Тренд рекламы в Google books Ngram Viewer

Подавляющее большинство разработчиков онлайнового контента финансируют свою работу доходами от рекламы. Это означает, что они хотят, чтобы объявления, которые запускались на своих сайтах, были привлекательными, полезными — такими, которые люди действительно хотят видеть и с которыми хотят взаимодействовать. Но в большинстве своём, люди сталкиваются с раздражающими, навязчивыми объявлениями в интернете — например, неожиданное звуковое сопровождение, или реклама, заставляющая вас ждать 10 секунд, прежде чем вы сможете увидеть контент на странице.

Эти разочаровывающие впечатления могут заставить некоторых людей заблокировать все объявления, что сильно повлияет на создателей контента, журналистов, веб-разработчиков и видеооператоров, которые зависят от рекламы как источника финансирования создания их контента.

"Мы считаем что онлайн-реклама должна быть лучше. Именно поэтому мы присоединились к Коалиции за лучшую рекламу", — сказал Шридхар Рамасвами, Старший Вице-Президент Google по рекламе и торговле.
Что это значит для веб-мастеров? Многие из вас помнят последствия обновлений алгоритмов Google в марте этого года, получивших название "Fred".
На многих сайтах обилие рекламы приводило к очень плохому user experience, что не соответствовало ожиданиям пользователей.
Такие сайты в марте 2017 очень сильно потеряли в объёмах поискового трафика Google.

User experience — восприятие данных пользователем или удобство взаимодействия пользователя с сайтом. Как следует из Google Quality Guidelines страницы, которые обеспечивают плохой пользовательский интерфейс, например страницы, которые пытаются загружать вредоносное программное обеспечение, должны получать низкие оценки.

Следовательно, скорее всего, присоединение Google к Better Ads Standards уже нашло свою реализацию в соответствующих поисковых алгоритмах. Будет примечательной следующая цитата.

В данном случае, скачки трафика не были напрямую связаны с тем, что на сайте что-то сильно поменялось, но если бы не было проблем с рекламой, то не было бы и скачков. Мой совет (в качестве долгосрочной выигрышной стратегии) - следить за тем, какая показывается реклама и аккуратно подходить к размещению и пометке рекламных блоков, чтобы не вводить пользователя в заблуждение.
Ринат Сафин, Google

Следует прислушаться к рекомендациям Adsense — "избыток объявлений может загромоздить страницу и сделать ее неудобной. А когда пользователи не находят того, что им нужно, они покидают сайт".

Вернёмся к  Google Quality Guidelines. Если у страницы основной контент присутствует, но его трудно использовать из-за отвлекающих /вводящих в заблуждение объявлений, другого контента / функций и т. д., обычно ей присваивают низкий (Low) рейтинг.


Google рассматривает такие типы страниц, как обманные веб-страницы, потому что пользователи не получили то, что они ожидали. Асессорам рекомендовано использовать наименьшую оценку, если страница предназначена специально для того, чтобы манипулировать пользователями при минимальных усилиях или без усилий.

Вот несколько распространённых типов обманных страниц:
● Страницы, которые маскируют рекламу как основной контент. Фактический основной контент может быть минимальным или создаваться для поощрения пользователей нажимать на объявления.
● Страницы, которые скрывают рекламу как ссылки для навигации по сайту.
● Страницы, на которых основной контент не используется или не отображается. Например, на странице с большим количеством объявлений вверху страницы (до основного контента), чтобы большинство пользователей не увидели основной контент или страницу, где основной контент является невидимым текстом.

Пункт 6.3.3 Google Quality Guidelines "Вводящие в заблуждение заголовки, объявления или дополнительный контент". Должно быть ясно, какие части страницы являются основным контентом, дополнительным контентом или рекламой. И также должно быть ясно, что произойдёт, когда пользователи взаимодействуют с контентом и ссылками на веб-странице. Если пользователи вводятся в заблуждение, нажимая на объявления или дополнительный контент, или если клики по объявлениям или дополнительному контенту оставляют пользователей удивлёнными, обманутыми или смущёнными, присвоение низкого рейтинга такой странице оправдано.

Например, объявления представляются как дополнительный контент (ссылки), и пользователь ожидает, что нажатие на ссылку приведёт его к другой странице на том же веб-сайте, но фактически перенаправляется на другой веб-сайт.
 Социальная инженерия

В ноябре 2015 года Google начал бороться с социальной инженерией (сайтами для фишинга и обмана пользователей). В случаях, когда контент содержится во всплывающих объявлениях или перенаправляет пользователей на опасные страницы,  страницы с рекламой, использующей приемы социальной инженерии, будут считаться нарушающими правила.

Отчет о реализации рекламы

Так же Шридхар Рамасвами анонсировал запуск такого инструмента как Отчет о реализации рекламы.

Новый отчет о реализации рекламы помогает издателям понять, как стандарты более качественных объявлений (Better Ads Standards) распространяются на их собственные веб-сайты и не вводят ли они посетителей в заблуждение. Он предоставляет скриншоты и видеоролики раздражающих рекламных событий, которые Google определил, чтобы упростить поиск и устранение проблем.
Отчет о реализации рекламы
Изображение blog.google

Шридхар Рамасвами сказал: "мы планируем, что Chrome перестанет показывать рекламу (включая принадлежащую или обслуживаемую Google) на веб-сайтах, которые не соответствуют стандартам Better Ads, начиная с начала 2018 года".

Если ваш сайт не соответствует критериям Better Ads Standards (проблемы с объявлениями, которые по мнению представителей отрасли доставляют пользователям значительные неудобства) или на нём выявлены очень серьёзные нарушения (введение в заблуждение и злоупотребление доверием), веб-мастер должен будет устранить проблемы и запросить проверку сайта через Отчёт о реализации рекламы.

Следовательно Отчёт о реализации рекламы создан для реагирования на пессимизацию сайта на уровне браузера за несоответствие критериям Better Ads Standards.

Список раздражающих рекламных событий отличается для настольных и мобильных сред. Например, мигающие анимированные объявления считаются более раздражающими на мобильных устройствах, чем на экранах настольных компьютеров. Из-за этого Google будет выборочно просматривать отдельные страницы сайта как на декстопных, так и на мобильных версиях вашего сайта, и вы увидите статус обзора для каждой среды в отчёте о реализации рекламы.

Сайт не проверен (Not reviewed): Google ещё не рассмотрел возможности рекламы на вашем сайте.
Статус проверки

Беглая проверка (Passing) : Google просмотрел ваш сайт и не обнаружил на ваших страницах значительного количества раздражающих рекламных материалов.

Предупреждение (Warning). Google рассмотрел ваш сайт и обнаружил ряд рекламных материалов, которые нарушают Better Ads Standards. Вы должны исправить проблемы как можно скорее и отправить свой сайт для повторного обзора.

Отрицательный результат (Failing): Google рассмотрел ваш сайт и обнаружил вопиющие нарушения Better Ads Standards. Вы должны исправить проблемы как можно скорее и отправить свой сайт для повторного обзора. Если ваш сайт остаётся в этом состоянии, Chrome будет фильтровать рекламу.

Рекламный опыт является вопиющими и ему автоматические присваевается статус Failing, если он отвечает любым из следующих условий:
● Реклама хостов или ссылок на вредоносное ПО или нежелательное программное обеспечение, которое может быть установлено на компьютере пользователя.
● «Фишинг» информации пользователей.
● Автоматическое перенаправление страниц без действий пользователя.
● Реклама, которая вводит в заблуждение пользователя. Примеры:
- Объявления, напоминающие предупреждения системы или сайта или сообщения об ошибках.
- Объявления, имитирующие сообщения, диалоговые окна, меню или уведомления о запросах.
- Рекламные объявления, которые неотличимы от другого контента.
- Объявления с изображением функций, которые не работают.
- Объявления с прозрачным фоном.
- Объявления с перемещением и нажатием стрелок.
- Объявления с кнопкой «закрыть», которая не закрывает объявление, а вместо этого нажимает на объявление или переходит к другому контенту.
- Объявления, где клик в любом месте за пределами видимой пользователем границы объявления приводит к целевой странице объявлений.

Better Ads Standards

Реклама помогает поддерживать различные типы бесплатного контента, журналистику и тесные социальные связи, которые охватывают весь мир. Но по мере того как интернет вырос, опыт онлайн-рекламы иногда не оправдывал ожиданий потребителей, о чём свидетельствует, в частности, появление блокировщиков рекламы. Например, реклама, которая нарушает работу браузера или задерживает доступ к контенту, может помешать потребителям.

В целях улучшения потребительского опыта ведущие международные торговые ассоциации и компании в онлайн-медиа-экосистеме объединили свои усилия для создания Коалиции за лучшую рекламу. Коалиция проводит исследования с целью разработки стандартов, ориентированных на данные для онлайн-рекламы. Цель состоит в том, чтобы измерить предпочтения потребителей о типах объявлений, которые они наименее предпочитают, чтобы помочь глобальному рынку предпринять шаги для улучшения качества рекламы.

Следующие типы рекламного опыта, которые были наименее предпочтительными для потребителей и несоответствуют минимальным стандартам Better Ads for mobile web:
● Всплывающая (Pop-up) реклама.
● Проприетарные объявления.
● Мобильные страницы с плотностью рекламы более 30%.
● Мигающие анимации.
● Постинциальные объявления, для которых требуется обратный отсчет.
● Полноэкранные объявления прокрутки.
● Большие прилипающие (sticky) объявления.
● Автовоспроизведение видео со звуком.

Типы рекламного опыта, которые были наименее предпочтительными для потребителей и не соответствуют минимальным критериям Better Ads Standard для настольных компьютеров:
● Всплывающая реклама.
● Автовоспроизведение видео со звуком.
● Проприетарные объявления с обратным отсчетом
● Большие прилипающие объявления.

Веб-мастерам нужно уже сейчас проверить, соответствуют ли типы используемых на сайте рекламных объявлений минимальным критериям  Better Ads Standards.
Подробнее

Как от Google получить ответ на вопрос

Рассмотрим пять способов как получить ответ на вопрос непосредственно от сотрудника Google.

Иногда у вебмастера возникает проблема с сайтом и она никак не решается. Вроде уже все "танцы с бубном" испробовал, на Серче проконсультировался, а объяснение причин проблемы не найдено. Знакомая ситуация?
Как получить ответ на вопрос от Google

Можно ли получить ответ на вопрос да или нет от сотрудника Google? Да, можно. Нужно просто знать места.

Справочные форумы Google

Первое куда нужно заглянуть — это Справочные форумы Google по интересующих вас продуктах. Вы получите ответ на любой вопрос, если задать его на тематическом форуме. Если у вас проблема с Adsense, вам сюда, если с Adwords — сюда. Если вы зададите на профильном форуме вопрос "не в тему", его или перешлют на нужный форум или просто проигнорируют.

Если задача касается оптимизации сайта, его качества, ранжирования и так далее — вам на Справочный форум для вебмастеров. Если сайт на иностранном языке — вам сюда.

На англоязычном форуме отвечает сотрудник Google John Muller, на русскоязычном форуме отвечали Ринат Сафин, Андрей Липатцев и Екатерина Черткова. Сейчас там новый гид — Валентин Пилипчук, который тоже отвечает вебмастерам.

Официальное сообщество в Goole Plus и Twitter

В Goole Plus есть официальное сообщество Google для вебмастеров. Иногда сотрудники Google там размещают анонсы материалов. Вы можете написать комментарий в их теме и, если Google`ра заинтересует вопрос, вы получите объяснение причин проблемы с вашим сайтом.
Некоторые Google`ры довольно активны в других социальных сетях. Например John Muller (@JohnMu) и Gary Illyes (@methode) довольно активно помогают пользователям, отвечая на их вопросы.

Ответ John Muller в Twitter

Общение через Search Console

Иногда ответ на главный вопрос может быть получен опосредованно. Обычная ситуация — к сайту применили меры, принятые вручную, вы все исправили, направляете запрос на повторную проверку. Процесс применения и отзыва мер происходит вручную.


Направляя запрос на повторную проверку, вы спрашиваете у сотрудника Google все ли в порядке с вашим сайтом. Если меры отозваны — ответ утвердительный.

Где получить ответ от сотрудника Google онлайн? 

Такое место тоже есть. Периодически гиды справочных форумов для вебмастеров проводят в Hangouts видеоконференции в прямом эфире. Зарегистрируйтесь и задайте любые вопросы.

Периодически сотрудники Google сами организовывают оффлайн-конференции для вебмастеров либо принимают участие в качестве лекторов на мероприятиях сторонних организаторов.

Посетив такую конференцию, вы можете лично познакомиться с Google`ром и получить ответ на любой вопрос.

Читайте также Как проверить индексацию сайта

Любой человек может использовать эти пять способов чтобы получить ответ на вопрос. Разъяснение в отношении вашей проблемы может быть неполным. Сотрудники Google связаны обязательствами NDA и не могут ответить на вопросы, которые касаются информации с определённым уровнем допуска.
Подробнее

Особенности ранжирования новостей

Ранжирование новостей

Ранжирование новостей имеет свою специфику. Полный список факторов ранжирования засекречен, но кое-что можно подсмотреть в патенте Google US 8332382 B21.  Использует ли Google этот патент и если использует, какие варианты расчётов применяет, тоже неизвестно.

Несмотря на это, благодаря патенту мы можем себе представить как Google ранжирует новости на самом деле.

Патент предусматривает расчёт больше десяти показателей (метрик) на основе которых и будет рассчитан рейтинг новости (новостного сайта).

Метрики ранжирования новостей

Первой метрикой в ​​определении качества новостного сайта может быть количество статей, созданных источником новостей в течение заданного периода времени. Он может быть недельный, двухнедельный, месячный. Первая метрика может быть определена путём подсчёта количества не дублированных статей (подсчёта числа оригинальных предложений), созданных источником новостей за расчётный период.

Ведущие участники форума поддержки Новостей регулярно напоминают – Google News нужно не количество, а качество публикаций.

Второй показатель может включать среднюю длину статьи из источника новостей. Средняя длина может быть измерена, например, словами или предложениями. Например, можно определить, что средняя длина статьи из CNN составляет 300 слов, в то время как средняя длина статьи из любительской сети новостей составляет 150 слов. Таким образом, значение второй метрики для CNN может быть 300, а для любительской сети новостей - 150.
Для того чтобы ваш сайт не сочли любительским, обязательно дополнительно прочитайте эту статью:
Исследование: оптимальное количество слов в новостях
Рекомендую взять за образец подачу новостей в theguardian.

Третья метрика может включать в себя важность освещения источником новостей. Этот показатель может основываться, по меньшей мере, частично на предположении, что может быть определён «размер» базового новостного материала (далее называемый «размер истории») для конкретной статьи. Этот показатель может быть суммарным значением, которое представляет оценки размера истории для всех не повторяющихся статей, созданных источником новостей, за фиксированный период времени. Он может быть недельный, двухнедельный, месячный. Например, если D является статьёй, то размер истории D может быть измерен как количество различных других статей, известных системе, которые относятся к одному и тому же вопросу. Например, если D - статья об аварии Columbia Shuttle, а о ней было ещё 500 различных статей, то размер истории будет 500. Группа связанных статей упоминается далее как «кластер».

Метрическое значение может быть ограничено размерами крупнейших N историй, где N представляет собой положительное целое число, больше или равно 1, охватываемое данным источником в течение оговорённого периода времени (например, самые большие 100 историй за 1 неделю, охватываемые CNN).

Четвёртый показатель может включать значение, характеризующее итоговый рейтинг новостей. Этот показатель может измерять способность источника новостей публиковать новость вскоре после того, как произошло важное событие. Этот показатель может усреднять «оценку срочности» (break_score) каждой не дублирующей статьи из источника новостей. Например, если статья была опубликована вскоре после того, как произошло новостное событие, ей присваивается оценка с высоким значением. Если статья была опубликована после того, как прошло много времени с момента выхода новости, ей присваивается низкая оценка.

В кластере публикации сортируются по времени в возрастающем порядке, и время первой статьи принимается за время события. Например, предположим, что T - это разница во времени между текущей статьёй и первой статьёй [первоисточником]. Порог N1 может использоваться для обозначения интервала, после которого новость перестаёт считаться срочной. Таким образом, показатель итоговой оценки новостей может быть определён как:

Если T> N1, присвоенное значение break_score = 0;

Если 0 < T ≤ N1, присвоенное значение break_score = log (N 1/T); а так же

Если T = 0, присвоенное значение break_score = log (N1).

N1 может быть представлен в часах, например, 3 часа.

Рассмотрим такой пример.
Источник новостей Порог (N1) Интервал (T) break_score
Новостной сайт 1 3 3,20 0,000
Новостной сайт 2 3 2,70 0,046
Новостной сайт 3 3 2,00 0,176
Новостной сайт 4 3 1,70 0,247
Новостной сайт 5 3 1,20 0,398
Новостной сайт 6 3 0,00 0,477

Графически это выглядит так.
Особенности ранжирования новостей
Чем позже опубликована новость, тем меньший рейтинг (оценку) она получает.

Другой возможный вариант – все статьи в кластере сортируются по времени в возрастающем порядке, и ранг каждой статьи берётся как значение T в описанном выше примере. Соответственно, может использоваться пороговое значение N2. Таким образом, показатель итоговой оценки новостей может быть определён как:

Если T> N2, тогда break_score = 0; а также

Если 1 < T ≤  N2, тогда break_score = log (N2 / T ).

В этом случае пороговое значение N2 может иметь значение 10.
Ранжирование новостей
Пятый показатель может включать значение, представляющее интерес к новости (шаблон использования). Ссылки, идущие с веб-страницы поисковой системы новостей на отдельные статьи, могут отслеживаться для определения уровня использования (например, клики). Измеренный трафик может быть нормализован по количеству кликов читателей, посетивших ссылку, чтобы избежать смещения показателя из-за ранжирования предпочтений поисковой системы новостей.

Шестая метрика может включать значение, представляющее статистику распространения источника новостей. Опубликованное количество трафика может быть использовано в качестве показателя качества источника новостей.

Седьмая метрика может включать значение, представляющее размер штата (количество персонала), связанного с источником новостей. Размер штата может определяться, основываясь, по меньшей мере, частично на числе различных журналистских имён, указанных в статьях из источника новостей.

Восьмой показатель может включать значение, представляющее число новостных агентств, связанных с источником новостей.

Девятая метрика может включать в себя значение, представляющее количество оригинальных именованных объектов, созданных в кластере связанных статей новостного сайта, усреднённое, например, по всем статьям, имеющим по меньшей мере N связанных статей (например, N = 3).

Именованный объект может соответствовать человеку, месту или организации. Если источник новостей создаёт новостную статью, содержащую именованный объект, а другие статьи в этом же кластере (следовательно, в одной теме) не содержат информацию об именованном объекте, это может быть признаком того, что источник новостей способен создавать оригинальный контент. В этом анализе оценивается среднее значение, добавленное данным источником новостей в кластере с пороговым размером N. Упомянутые объекты могут быть рассмотрены, если никакая более ранняя статья в кластере не имеет одного и того же названного объекта. Именованные объекты могут сравниваться с использованием приблизительного сопоставления строк для компенсации различий в написании и сокращении. Именованные объекты, заметно отличающиеся от названных в других статьях, могут считаться оригинальными.

Десятый показатель может включать значение, представляющее ширину охвата (например, количество тем, на которые создаётся контент) источника новостей. Статьи из источника новостей могут быть разбиты на категории (например, искусство, музыка, спорт, бизнес и т. д.). Диапазон тем может быть использован как мера ширины. Например, количество разделов, опубликованных источником новостей, можно принять за меру широты.

Одиннадцатая метрика может включать значение, представляющее международное разнообразие источника новостей. Этот показатель может измерять количество стран, из которых сайт новостей получает сетевой трафик. Этот показатель может быть измерен путём рассмотрения стран, из которых приходят посетители новостного веб-сайта.

Двенадцатый показатель может включать значение, представляющее стиль изложения, используемый источником новостей. Используются автоматические тесты для измерения правильности правописания, грамматики и уровней чтения могут использоваться для создания значения показателя, отражающего стиль письма. Затем может быть присвоен показатель, пропорциональный измеренному качеству стиля письма.

Понятно, что другие метрики могут рассматриваться в дополнение или в качестве альтернативы вышеупомянутой группе показателей. Например, другой показатель может включать значение, представляющее число гиперссылок на новостной веб-сайт.

Как определить ранг источника

Чтобы определить ранг источника новостей, некоторые или все из группы метрик, описанных выше, могут быть объединены для целей получения окончательного результата (то есть ранга).

Для определения исходного ранга источников новостей может быть использован ряд методов.

Например, каждая метрика может быть умножена на соответствующий коэффициент, и результирующие значения могут быть суммированы, чтобы определить ранг источника новостей.

В качестве альтернативы, каждая метрика может быть нормализована, чтобы находиться в диапазоне от 0 до 1, и итоговые значения могут быть суммированы, чтобы получить окончательное значение метрики (то есть ранг источника). Например, нормализация может быть выполнена путём деления каждого метрического значения на максимально возможное значение, присвоенное этой метрикой.

Может быть вычислен средний ранг источника новостей в различных метриках. Например, если CNN имеет ранг 1 в статистике распространения, ранг 2 в международной популярности и ранг 9 в числе международных бюро, то с учётом только этих показателей CNN имеет средний ранг

(1 + 2 + 9) / 3 = 4.

Ещё один вариант — для каждого источника новостей рассчитывается показатель процентилей по каждой метрике относительно лучшего источника новостей. Например, если CNN имеет ранг 2 для международной популярности и BCC имеет самый высокий ранг для этого показателя 10, тогда процентиль баллов CNN для этой метрике может быть 0,2.

Примерно такие же критерии описаны в патенте US 9507826 B1[2]

Согласно этого Патента, система также может принимать обычные сигналы и получать дополнительные оценки качества новостных статей.

Например, система может получить сигнал, указывающий на важность источника новостной статьи. Например, обычные источники новостей могут ранжироваться в соответствии с их важностью. Например, такие источники, как CNN, New York Times и Los Angeles Times могут быть включены в категорию источников верхнего уровня, такие источники, как XYZ News и All News Times, могут быть включены в категорию источников второго уровня, а местные новостные сайты могут быть включены в категорию источников третьего уровня.

Значение источников может меняться в зависимости от тематики новостной статьи или запроса. Например, если запрос или новостная статья относится к местной новостной ленте, источники новостей, географически близкие к месту, где произошла локальная новость, могут быть в категории источников верхнего уровня, даже если они обычно включаются в третью категорию источников для национальных новостей.

В качестве другого примера система может получать сигнал, указывающий качество источника новости.

Показатели качества включают:
- одно или несколько статей, опубликованных источником новостей в течение определенного периода времени;
- среднюю длину статей;
- объем освещения важных тем;
- широту охвата новостей новостным сайтом;
- количество оригинальных названных объектов в статьях, опубликованных источником новостей;
- объем сетевого трафика на веб-сайт источник новостей;
- число стран, из которых новостной сайт получает сетевой трафик;
- размер штата источника новостей и количество новостных агентств источника новостей.
Система также может принимать сигналы, указывающие на оригинальность новостной статьи. Например, часто один источник публикует статью, а затем несколько источников копируют текст всей или части статьи дословно. Система может присваивать более высокую оценку первой опубликованной статье, присваивать более высокий балл первому издателю для публикации или тем и другим. Первая новость, которая была опубликована, может быть определена, например, в соответствии с метками времени, связанными со статьями.

Ранжирование новостей — основные выводы

Источники новостей это тоже сайты, следовательно кроме указанных выше мертрик, на ранжирование новостей влияют и остальные известные сигналы. Не забывайте о качестве контента, скорости загрузки сайта, мобильности.

Очень возможно, что вскоре маркер Fake News также может стать сигналом ранжирования новостей, понижающим ранг страницы или сайта, публикующего поддельные новости. Google уже начал вносить соответствующие изменения в свой алгоритм ранжирования.

Источники:

1. Systems and methods for improving the ranking of news articles, US 8332382 B2, Publication date 11 Dec 2012, Original Assignee: Google Inc.
2. Generating real-time search results, US 9507826 B1, Publication date 29 Nov 2016, Original Assignee: Google Inc.
Подробнее