Ранжирование новостей

Ранжирование новостей имеет свою специфику. Полный список факторов ранжирования засекречен, но кое-что можно подсмотреть в патенте Google US 8332382 B21.  Использует ли Google этот патент и если использует, какие варианты расчётов применяет, тоже неизвестно.

Несмотря на это, благодаря патенту мы можем себе представить как Google ранжирует новости на самом деле.

Патент предусматривает расчёт больше десяти показателей (метрик) на основе которых и будет рассчитан рейтинг новости (новостного сайта).

Метрики ранжирования новостей

Первой метрикой в ​​определении качества новостного сайта может быть количество статей, созданных источником новостей в течение заданного периода времени. Он может быть недельный, двухнедельный, месячный. Первая метрика может быть определена путём подсчёта количества не дублированных статей (подсчёта числа оригинальных предложений), созданных источником новостей за расчётный период.

Ведущие участники форума поддержки Новостей регулярно напоминают – Google News нужно не количество, а качество публикаций.

Второй показатель может включать среднюю длину статьи из источника новостей. Средняя длина может быть измерена, например, словами или предложениями. Например, можно определить, что средняя длина статьи из CNN составляет 300 слов, в то время как средняя длина статьи из любительской сети новостей составляет 150 слов. Таким образом, значение второй метрики для CNN может быть 300, а для любительской сети новостей — 150.

Для того чтобы ваш сайт не сочли любительским, обязательно дополнительно прочитайте эту статью:
Исследование: оптимальное количество слов в новостях

Рекомендую взять за образец подачу новостей в theguardian.

Третья метрика может включать в себя важность освещения источником новостей. Этот показатель может основываться, по меньшей мере, частично на предположении, что может быть определён «размер» базового новостного материала (далее называемый «размер истории») для конкретной статьи. Этот показатель может быть суммарным значением, которое представляет оценки размера истории для всех не повторяющихся статей, созданных источником новостей, за фиксированный период времени. Он может быть недельный, двухнедельный, месячный. Например, если D является статьёй, то размер истории D может быть измерен как количество различных других статей, известных системе, которые относятся к одному и тому же вопросу. Например, если D — статья об аварии Columbia Shuttle, а о ней было ещё 500 различных статей, то размер истории будет 500. Группа связанных статей упоминается далее как «кластер».

Метрическое значение может быть ограничено размерами крупнейших N историй, где N представляет собой положительное целое число, больше или равно 1, охватываемое данным источником в течение оговорённого периода времени (например, самые большие 100 историй за 1 неделю, охватываемые CNN).

Четвёртый показатель может включать значение, характеризующее итоговый рейтинг новостей. Этот показатель может измерять способность источника новостей публиковать новость вскоре после того, как произошло важное событие. Этот показатель может усреднять «оценку срочности» (break_score) каждой не дублирующей статьи из источника новостей. Например, если статья была опубликована вскоре после того, как произошло новостное событие, ей присваивается оценка с высоким значением. Если статья была опубликована после того, как прошло много времени с момента выхода новости, ей присваивается низкая оценка.

В кластере публикации сортируются по времени в возрастающем порядке, и время первой статьи принимается за время события. Например, предположим, что T — это разница во времени между текущей статьёй и первой статьёй [первоисточником]. Порог N1 может использоваться для обозначения интервала, после которого новость перестаёт считаться срочной. Таким образом, показатель итоговой оценки новостей может быть определён как:

Если T> N1, присвоенное значение break_score = 0;

Если 0 < T ≤ N1, присвоенное значение break_score = log (N 1/T); а так же

Если T = 0, присвоенное значение break_score = log (N1).

N1 может быть представлен в часах, например, 3 часа.

Рассмотрим такой пример.

Источник новостейПорог (N1)Интервал (T)break_score
Новостной сайт 133,200,000
Новостной сайт 232,700,046
Новостной сайт 332,000,176
Новостной сайт 431,700,247
Новостной сайт 531,200,398
Новостной сайт 630,000,477

Графически это выглядит так.

Google News - факторы ранжирования новостей

Чем позже опубликована новость, тем меньший рейтинг (оценку) она получает.

Другой возможный вариант – все статьи в кластере сортируются по времени в возрастающем порядке, и ранг каждой статьи берётся как значение T в описанном выше примере. Соответственно, может использоваться пороговое значение N2. Таким образом, показатель итоговой оценки новостей может быть определён как:

Если T> N2, тогда break_score = 0; а также

Если 1 < T ≤  N2, тогда break_score = log (N2 / T ).

В этом случае пороговое значение N2 может иметь значение 10.

Ранжирование новостей поисковой системой Google

Пятый показатель может включать значение, представляющее интерес к новости (шаблон использования). Ссылки, идущие с веб-страницы поисковой системы новостей на отдельные статьи, могут отслеживаться для определения уровня использования (например, клики). Измеренный трафик может быть нормализован по количеству кликов читателей, посетивших ссылку, чтобы избежать смещения показателя из-за ранжирования предпочтений поисковой системы новостей.

Шестая метрика может включать значение, представляющее статистику распространения источника новостей. Опубликованное количество трафика может быть использовано в качестве показателя качества источника новостей.

Седьмая метрика может включать значение, представляющее размер штата (количество персонала), связанного с источником новостей. Размер штата может определяться, основываясь, по меньшей мере, частично на числе различных журналистских имён, указанных в статьях из источника новостей.

Восьмой показатель может включать значение, представляющее число новостных агентств, связанных с источником новостей.

Девятая метрика может включать в себя значение, представляющее количество оригинальных именованных объектов, созданных в кластере связанных статей новостного сайта, усреднённое, например, по всем статьям, имеющим по меньшей мере N связанных статей (например, N = 3).

Именованный объект может соответствовать человеку, месту или организации. Если источник новостей создаёт новостную статью, содержащую именованный объект, а другие статьи в этом же кластере (следовательно, в одной теме) не содержат информацию об именованном объекте, это может быть признаком того, что источник новостей способен создавать оригинальный контент. В этом анализе оценивается среднее значение, добавленное данным источником новостей в кластере с пороговым размером N. Упомянутые объекты могут быть рассмотрены, если никакая более ранняя статья в кластере не имеет одного и того же названного объекта. Именованные объекты могут сравниваться с использованием приблизительного сопоставления строк для компенсации различий в написании и сокращении. Именованные объекты, заметно отличающиеся от названных в других статьях, могут считаться оригинальными.

Десятый показатель может включать значение, представляющее ширину охвата (например, количество тем, на которые создаётся контент) источника новостей. Статьи из источника новостей могут быть разбиты на категории (например, искусство, музыка, спорт, бизнес и т. д.). Диапазон тем может быть использован как мера ширины. Например, количество разделов, опубликованных источником новостей, можно принять за меру широты.

Одиннадцатая метрика может включать значение, представляющее международное разнообразие источника новостей. Этот показатель может измерять количество стран, из которых сайт новостей получает сетевой трафик. Этот показатель может быть измерен путём рассмотрения стран, из которых приходят посетители новостного веб-сайта.

Двенадцатый показатель может включать значение, представляющее стиль изложения, используемый источником новостей. Используются автоматические тесты для измерения правильности правописания, грамматики и уровней чтения могут использоваться для создания значения показателя, отражающего стиль письма. Затем может быть присвоен показатель, пропорциональный измеренному качеству стиля письма.

Понятно, что другие метрики могут рассматриваться в дополнение или в качестве альтернативы вышеупомянутой группе показателей. Например, другой показатель может включать значение, представляющее число гиперссылок на новостной веб-сайт.

Как определить ранг источника

Чтобы определить ранг источника новостей, некоторые или все из группы метрик, описанных выше, могут быть объединены для целей получения окончательного результата (то есть ранга).

Для определения исходного ранга источников новостей может быть использован ряд методов.

Например, каждая метрика может быть умножена на соответствующий коэффициент, и результирующие значения могут быть суммированы, чтобы определить ранг источника новостей.

В качестве альтернативы, каждая метрика может быть нормализована, чтобы находиться в диапазоне от 0 до 1, и итоговые значения могут быть суммированы, чтобы получить окончательное значение метрики (то есть ранг источника). Например, нормализация может быть выполнена путём деления каждого метрического значения на максимально возможное значение, присвоенное этой метрикой.

Может быть вычислен средний ранг источника новостей в различных метриках. Например, если CNN имеет ранг 1 в статистике распространения, ранг 2 в международной популярности и ранг 9 в числе международных бюро, то с учётом только этих показателей CNN имеет средний ранг

(1 + 2 + 9) / 3 = 4.

Ещё один вариант — для каждого источника новостей рассчитывается показатель процентилей по каждой метрике относительно лучшего источника новостей. Например, если CNN имеет ранг 2 для международной популярности и BCC имеет самый высокий ранг для этого показателя 10, тогда процентиль баллов CNN для этой метрике может быть 0,2.

Примерно такие же критерии описаны в патенте US 9507826 B1[2]

Согласно этого Патента, система также может принимать обычные сигналы и получать дополнительные оценки качества новостных статей.

Например, система может получить сигнал, указывающий на важность источника новостной статьи. Например, обычные источники новостей могут ранжироваться в соответствии с их важностью. Например, такие источники, как CNN, New York Times и Los Angeles Times могут быть включены в категорию источников верхнего уровня, такие источники, как XYZ News и All News Times, могут быть включены в категорию источников второго уровня, а местные новостные сайты могут быть включены в категорию источников третьего уровня.

Значение источников может меняться в зависимости от тематики новостной статьи или запроса. Например, если запрос или новостная статья относится к местной новостной ленте, источники новостей, географически близкие к месту, где произошла локальная новость, могут быть в категории источников верхнего уровня, даже если они обычно включаются в третью категорию источников для национальных новостей.

В качестве другого примера система может получать сигнал, указывающий качество источника новости.

Показатели качества включают:
— одно или несколько статей, опубликованных источником новостей в течение определенного периода времени;
— среднюю длину статей;
— объем освещения важных тем;
— широту охвата новостей новостным сайтом;
— количество оригинальных названных объектов в статьях, опубликованных источником новостей;
— объем сетевого трафика на веб-сайт источник новостей;
— число стран, из которых новостной сайт получает сетевой трафик;
— размер штата источника новостей и количество новостных агентств источника новостей.
Система также может принимать сигналы, указывающие на оригинальность новостной статьи. Например, часто один источник публикует статью, а затем несколько источников копируют текст всей или части статьи дословно. Система может присваивать более высокую оценку первой опубликованной статье, присваивать более высокий балл первому издателю для публикации или тем и другим. Первая новость, которая была опубликована, может быть определена, например, в соответствии с метками времени, связанными со статьями.

Ранжирование новостей — основные выводы

Источники новостей это тоже сайты, следовательно кроме указанных выше мертрик, на ранжирование новостей влияют и остальные известные сигналы. Не забывайте о качестве контента, скорости загрузки сайта, мобильности.

Очень возможно, что вскоре маркер Fake News также может стать сигналом ранжирования новостей, понижающим ранг страницы или сайта, публикующего поддельные новости. Google уже начал вносить соответствующие изменения в свой алгоритм ранжирования.

Источники:

1. Systems and methods for improving the ranking of news articles, US 8332382 B2, Publication date 11 Dec 2012, Original Assignee: Google Inc.
2. Generating real-time search results, US 9507826 B1, Publication date 29 Nov 2016, Original Assignee: Google Inc.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *