В течение последних нескольких месяцев, очень большой объем из миллионов поисковых запросов в секунду, был интерпретирован системой искусственного интеллекта. Она получила название RankBrain. Об этом 26 октября 2015 года агентству Bloomberg рассказал старший научный сотрудник Google Грег Коррадо (Greg Corrado), описывая впервые изменяющуюся роль искусственного интеллекта в поиске.

Greg Corrado о RankBrain
Greg Corrado о RankBrain в интервью Bloomberg

Было нелегко. Развёртыванию алгоритма RankBrain предшествовал год усилий команды специалистов Google, в которую входили Peter Norvig, Corinna Cortes, Mehryar Mohri, Yoram Singer, Thomas Dean, Jeff Dean[6], специалист поиска Yonghui Ву и специалист глубоко обучения — эксперт Thomas Strohmann. Прошло много времени,прежде чем команда убедилась, что система работает правильно. Это стало возможным благодаря огромным и продолжительным инвестициям Google в машинное обучение и создание искусственного интеллекта[1].

Paul Haahr, Google Software Engineer на конференции SMX West 2016 сказал: «RankBrain — это система машинного обучения, объединяющая сигналы ранжирования и понимание документов».

Машинное обучение

Термин «машинное обучение» появился ещё в 50-х годах. Этот термин обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно[2].


Мне очень понравились эти два определения.

Машинное обучение — процесс, в результате которого машина (компьютер) способна показывать поведение, которое в неё не было явно заложено (запрограммировано)[3].

Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E[4].

Поисковая система должна научиться строить правило, которое определяет для каждого запроса, какая страница является хорошим ответом на него, а какая — нет. Для этого поисковая машина анализирует свойства веб-страниц и поисковых запросов. У всех страниц есть какие-то признаки. Некоторые из них — статические — связаны с самой страницей: например, количество ссылок на эту страницу в интернете. Некоторые признаки — динамические — связаны одновременно с запросом и страницей: например, присутствие в тексте страницы слов запроса, их количество и расположение[2].

Рэймонд Курцвейл в интервью The Guardian сказал: “Компьютеры находятся на пороге чтения и понимания смыслового содержания языка, но пока ещё не на уровне человека. Но так как они могут читать в миллион раз больше материала, чем люди, они могут компенсировать это с количеством“[9].

С декабря 2012 года Курцвейл занимает должность технического директора в области машинного обучения и обработки естественного языка в компании Google[10].

Язык, по его мнению, это ключ ко всему. “И мой проект в конечном счёте — создать основу поиска на полном понимании значения языка. Когда вы пишете статью вы не создаёте интересный набор слов. У вас есть что сказать и Google обречён грамотно организовать и обрабатывать мировую информацию. Сообщение в вашей статье является информацией. Поэтому мы хотели бы на самом деле иметь компьютерное чтение. Мы хотим читать все в интернете, каждую страницу каждой книги, а затем участвовать в интеллектуальном диалоге с пользователем, чтобы иметь возможность ответить на их вопросы”[9].

RankBrain как сигнал ранжирования 

RankBrain является одним из «сотни» сигналов, которые получает алгоритм определяя какая информация должна появляются в результатах поиска Google и оценивая их, сказал Коррадо. Через несколько месяцев после того как был внедрён RankBrain, он стал третьим по важности сигналом, сказал он[1].

Интерес веб-мастеров к этому новшеству Google подогрел тот факт, что несколько месяцев спустя Gary Illyes отвечая в Твиттере на вопрос, который задал Rand Fishkin, сказал следующее — “RankBrain помогает нам понимать запросы лучше. Нет никакого влияния на сканирование или индексирование и замену чего-либо при ранжировании”.

Gary Illyes твит  о RankBrain

Веб-мастера явно усомнились в подобном ответе Gary Illyes и кроме того, им также хотелось знать, что же является первыми двумя по важности сигналами для целей ранжирования Google.

Так, Danny Sullivan в своей статье[5] утверждает, что обратные ссылки — главный сигнал ранжирования.

Угниченко Дмитрий 10 ноября 2015 года на портале megaindex.org в статье “Поисковый алгоритм RankBrain от Google” написал, что алгоритм третий по важности в ранжировании документов после ссылок и поведенческих факторов.

Я уже писал на Хабрахабр, что сотрудники Google отрицают влияние поведенческих факторов на ранжирование.

Двадцать третьего марта 2016 года на видеоконференции “Q&A with Google” Андрей Липатцев (Search Quality Senior Strategist at Google) отвечая на вопрос Аммона Джонса (Ammon Johns), сказал: “я могу вам сказать, что это. Это контент и ссылки, указывающие на ваш сайт”[7].

Обязательно прочитайте!
Как Google определяет качество контента?
Оценка сайта на качество – читаем патент Google
Как проверить качество ссылок
Ссылочный спам – точка зрения Google

Как работает RankBrain 

RankBrain использует искусственный интеллект, чтобы встроить огромное количество письменного языка в математические сущности — называемые векторами — которые понимает компьютер. Если RankBrain видит незнакомое ему слово или фразу, машина может сделать предположение относительно того, какие слова или фразы могут иметь аналогичный смысл и фильтровать результат. Соответственно, это делает более эффективной обработку никогда ещё ранее не встречавшихся запросов[1].

Для лучшего понимания этого процесса обратимся к патенту Google US9104750 B1.

Как работает алгоритм Google RankBrain

Патентная формула:

Получение первого, второго и третьего термина [в оригинальном запросе — прим. авт.]. Определение отличается ли общее значение запроса из трёх терминов от значения каждого из этих терминов по отдельности[8].

Если в результате ответа на определение установлено, что есть отличие, формируется запрос состоящий из первого, второго, третьего термина оригинального запроса с добавлением дополнительного термина, который отсутствовал в оригинальном запросе[8].

Проверенный поисковый запрос (revised search query) включает первый, второй, третий термин и дополнительный поисковый термин ранее не включённый во фразу[8].

Процесс проиллюстрирован на Рис.1 (FIG.1).

При получении оригинального поискового запроса (на Рис.1 — 105) система определяет, содержит ли он хотя бы одно понятие (термин). Если первоначальный поисковый запрос включает в себя, по меньшей мере одно понятие, собираются используемые данные, связанные с последующими запросами поиска, чтобы определить, существует ли близкий по контекстному употреблению (необязательно синоним) термин-заменитель для поискового термина в оригинальном запросе. Поисковая система (на Рис.1 — 130) может генерировать изменённый запрос путём добавления в первоначальный запрос (на Рис.1 — 105) дополнительных терминов, которые заменяют один или несколько терминов, которые встречаются в исходном запросе 105.

Рассмотрим пример. Откроем браузер Opera и введём запрос “New York Times Puzzle”.

RankBrain - влияние на SERP

Рис.2

Как видим на Рис.2 система заменила в оригинальном запросе термин “Puzzle” на “Crossword”. Следовательно, RankBrain прямо и существенно влияет на результаты поисковой выдачи, поскольку он способен модифицировать оригинальный поисковый запрос. Система в дальнейшем может обрабатывать данные, которые связаны с таким модифицированным запросом, и результаты выдачи могут содержать страницы, которые не содержат терминов из оригинального поискового запроса.

использование слов-заменителей

Рис.2А (FIG. 2A)

Чтобы определить контекст в запросе, поисковая система традиционно может отслеживать только одно или два слова вокруг термина из поискового запроса из-за сложности вычислений (см. Рис. 2А). Концепция (в нашем указанном выше примере — “New York Times”) может включать более двух слов. Правило замены термина в конкретном контексте определённой концепции могут быть определены эмпирически на основе взаимодействия пользователя с данными результата поиска. Например, запрос “Yankees” часто заменяется термином “Baseball”.

Логика замены терминов

Логика замены терминов частично описана в примерах патента[8]:
…если первый термин («кошка»), система замены (180) может оценить условия («кошачий» или «банан»), которые являются кандидатами в термины-заменители первоначального термина. Система замены может определить, что одни термины являются заменителями первого термина (как в случае с «кошачьим»), и что другие термины такими не являются (как в случае с «бананом «). Система замены может основывать это определение на правилах, хранящимися в базе данных правил замещения (185). Например, правило подстановки «кошачья» является заменой термина “кошка”, а «банан» не является заменой термина для кошки. В некоторых вариантах осуществления правило подстановки может включать в себя несколько слов оригинального запроса и однословную замену термина, или однословный оригинальный термин запроса и многословную замену из терминов-заменителей. Например, правило заменителя может указать, что «SSN» в качестве термина может заменить «Social Security Number». В другом примере можно указать «For Rent» в качестве замены термина для «Rental». Контекст запроса указывается относительно местоположения для других терминов или без его учёта.

Можно ли оптимизировать сайт под RankBrain?

1. Скорее всего, нет, чем да. Достоверной информации о том как работает RankBrain очень мало. Но, мы можем помочь Google правильно понять о чём мы пишем. Поэтому, нужно взять на вооружение лозунг — “Разметить всё!”.

2. Используйте все уместные для вашего сайта типы структурированных данных. Прочитайте статью Латентно-семантический анализ на Хабрахабр. Для тех, кто любит эксперименты, рекомендую сравнить ваши тексты с текстами конкурентов на семантическое сходство используя метрики lsa.colorado.edu.

3. Кроме использования подсказок, которые Google отображает внизу страницы с результатами поисковой выдачи, учитывайте термины-заменители, которые есть в результатах поиска. Рассмотрим результаты поисковой выдачи по запросу “туфли мужские”.

термины-заменители в SERP

Рис.3

4. В качестве термина-заменителя Google использует в сниппетах и в тайтлах страниц термин “обувь”. Добавьте там, где это уместно, термин “обувь” в текст (описание) и HTML-теги h1, h2, h3, alt.

5. Не заставляйте RankBrain лишний раз искать слово-замену. Старайтесь писать грамотно. Избегайте в тексте жаргонизмов, сленга, нецензурных выражений.

Нужно понимать, что чтобы вы не делали, в любом случае, влияние на RankBrain с этой стороны монитора будет минимально.

Выводы 

Rankbrain — это элемент основного алгоритма поиска Колибри. По моему мнению, этот алгоритм отвечает за подбор релевантной информации для целей ранжирования, распознаёт язык запроса и понимает логику фраз (семантическую связь слов) в запросах.

RankBrain прямо и существенно влияет на результаты поисковой выдачи, поскольку он способен модифицировать оригинальный поисковый запрос.

Контент и ссылки — основные факторы ранжирования для Google. Оптимизация под алгоритм Rankbrain неразрывно связана с улучшением качества сайта (оригинальности и добавленной ценности контента), в том числе ссылочного профиля.

Источники: 

1.Clark, Jack. «Google Turning Its Lucrative Web Search Over to AI Machines». Bloomberg Business. Bloomberg. Retrieved 28 October 2015.
2.Яндекс. Ранжирование и машинное обучение. Источник.
3.A.L. Samuel Some Studies in Machine Learning Using the Game of Checkers // IBM Journal. July 1959. P. 210–229.
4.T.M. Mitchell Machine Learning. McGraw-Hill, 1997.
5.FAQ: All About The New Google RankBrain Algorithm. Danny Sullivan on October 27, 2015 at 7:09 am. searchengineland.com
6.RankBrain Unleashed. Gianluca Fiorelli.Moz.com.
7.Q&A with Google. Прямой эфир: 23 мар. 2016 г.
8.Using concepts as contexts for query term substitutions. US 9104750 B1.Авторы изобретения Kedar Dhamdhere, Thomas Strohmann, P. Pandurang Nayak, Robert Spalek. Первоначальный патентообладатель Google Inc. Патент.
9.Are the robots about to rise? Google’s new director of engineering thinks so… Carole Cadwalladr. Saturday 22 February 2014. The Guardian.
10.Курцвейл, Рэймонд. Материал из Википедии — свободной энциклопедии.

3 комментария для “Как работает алгоритм RankBrain”

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *