388x60 Ads

Суть алгоритма Google Penguin 4 - позиции сайта не прогнозируемы?

Интернет содержит огромное количество информации, которая постоянно меняется. Поисковые системы оценивают эту информацию так, чтобы обеспечить высокое качество результатов поиска.

Искусственное изменение ранга (оценки) веб-страницы спамерами включает в себя набор методов, посредством которых они пытаются обмануть поисковую систему для того, чтобы их информация ранжировалась на или вблизи верхней части списка результатов поиска (позиции сайта).

Существуют различные методы спама, такие как переспам ключевыми словами, невидимый текст, крошечный текст, редиректы, спам в мета-тегах, спам в анкорах, ссылочный спам. Искусственное увеличение спаммерами рейтинга некоторых документов (низкого качества или нерелевантных) ухудшает качество результатов поиска.

Суть алгоритма Google Penguin 4.0

Суть алгоритма Пингвин – борьба со спамом во всех его проявлениях.
Было бы интересно понять как всё-таки работает этот алгоритм. Принципы его работы держатся в строгом секрете. На основе заявлений официальных представителей Google и опубликованных патентов попробуем предположить как он работает. Возможно, вы узнаете что-то новое.

Алгоритм Google Пингвин обновлялся чаще, чем вы думаете. Просто не все обновления афишировались.

Цель состоит в том , чтобы создать постоянно обновляющийся алгоритм Пингвин.
Gary Illyes, Google Webmaster Trends Analysts. SMX Advanced 2015.

Вот часть интервью Gary Illyes на конференции SMX Advanced 2016.
Дэнни Саллливан: Последнее обновление Пингвин было в декабре 2014 г. Когда будет следующее обновление?
Гэри: Я не буду говорить дату , потому что я был неправ слишком много раз . Мне сказали , что это плохо для бизнеса.
Дэнни Саллливан: В этом году?
Гэри: Я не буду больше называть какие-либо сроки.
Похоже, что Гэри запретили называть какие-либо даты обновления алгоритма Пингвин.

Алгоритм обновлялся чаще, чем один раз в месяц (быстрее, чем «Панда») и, вероятно, будет обновляться ежедневно.
Признаки обновления алгоритма Google Penguin 4 появились 2 сентября 2016 года (пиковые скачки на ‘Google Grump’ Rating и на Algoroo). Официально факт обновления алгоритма до четвертой версии был подтвержден 23 сентября 2016 года. Google сообщил, что теперь алгоритм  действует в режиме реального времени. Мои прогнозы оправдались.

Алгоритм самостоятельно отключает спамные ссылки, дизавуирует влияние на рейтинг спама ключевыми словами, спама в мета-тегах и анкорах.


Google считает одним из приоритетов машинное обучение. Весьма вероятно, что алгоритм Google Penguin 4.0 – это самообучающаяся система, которая анализирует изменения в пороге и структуре спама. Новые данные о спаме сравниваются со старыми и формулируется ответ поискового алгоритма – замедление положительного эффекта, отрицательный (понижение позиций и/или трафика), положительный (присвоение более высокого рейтинга).

Вам не кажется, что алгоритм Пингвин более коварен, чем вы думаете?

Представьте себе, что Google Penguin 4.0 специально провоцирует веб-мастера на определённые действия с целью получить дополнительные подтверждения наличия попытки манипулирования результатами поисковой выдачи.

Ross Koningstein предложил способ определения влияния спаммеров на оценку рейтинга веб-страницы и идентификации попыток спама, в том числе расчёта рейтинга смаммера. Патент US8244722 B1 «Ranking documents» на это изобретение принадлежит Google Inc.

Запуск первой версии алгоритма Пингвин датирован 24 апреля 2012 года. Патент US8244722 B1 «Ranking documents» опубликован 14 августа 2012 года.

Очень вероятно, что именно патент US8244722 B1 «Ranking documents»  в месте с другими изобретениями лёг в основу алгоритма Пингвин.

Системы и методы, в соответствии с принципами изобретения может предоставить функцию изменения рейтинга (например, на основе времени) для определения изменения рейтинга спамеров.

Функция создаёт вводящие в заблуждение признаки воздействия на ранг в ответ на попытки спама.

Предложенные в патенте системы и методы также помогают наблюдать за реакциями (действиями) спамеров, вызванными функцией изменения рейтинга для определения документов, которыми активно манипулируют. Это помогает в идентификации изменения ранга спамеров.

Ранг документа может измениться с течением времени под влиянием изменений в содержании страницы, количестве и качесте входящих и исходящих ссылок. Эти изменения могут быть результатом легитимных модификаций или изменения ранга спамерами.

Оценка  документа до изменений называется «Старый Ранг», а после изменений – «Целевой Ранг». Описанная функция может генерировать «Ранг перехода», который представляет собой разницу между старой и новой оценкой.  Ранг перехода может вызвать в течении времени задержки ответа (специальное замедление положительного изменения позиций сайта), отрицательный ответ (специально сниженные позиции сайта), случайный ответ и/или неожиданный ответ во время перехода от старого ранга в целевой ранг.

Поисковая система также может соотнести динамику ранга веб-страницы с ответом функции ранжирования перехода для определения попыток манипулирования спаммерами рейтингом документа (web-страницы). Например, сильная корреляция между рангом документа и рангом, связанным с ответом функции изменения рейтинга, с течением времени может свидетельствовать о преднамеренной манипуляции результатами поиска.

Ранг R не изменится, если входные параметры не изменяются. Если входные параметры изменяются, например, изменение количества ссылок, то ранг R будет меняться в дискретном шаге во время вычисления нового ранга R.

Результаты изменения входных параметров не приводят к немедленному изменению рейтинга. Вместо этого, ранг, связанный с документом, может меняться с течением времени в результате изменения во входных параметрах.

После определённого периода времени ранг документа может перейти новое значение устойчивого состояния (target). Другими словами, это может занять примерно 70 дней чтобы изменить ранг документа на основе информации о его ссылках до стабильного состояния (target).
Рис.1

На Рис.1  показан пример влияния в течение времени информации о ссылках на ранг.

Ранг документа первоначально может уменьшаться в ответ на позитивные изменения в своей информации, основанной на ссылках. После определённого периода времени ранг документа может подняться до его нового значения – устойчивого состояния (target).

Другими словами, ранг документа может уменьшаться в течение приблизительно 20 дней в указанном  70-дневном периоде, прежде чем достигнет нового стабильного состояния. Также в этот период возможны специальные временные задержки демонстрации положительного эффекта.

Google Penguin 4.0 – возможные примеры обработки данных

Когда спамер пытается положительно влиять на ранг документа, он может быть озадачен значением позиции, определённого функцией изменения рейтинга. Например, первоначальной реакцией на попытки спама может быть снижение рейтинга вместо ожидаемого его повышения (позиции сайта и трафик падают).

Неожиданные результаты обязательно получат ответ от спамера, особенно если его клиент расстроен результатами. Как видим патент во многом рассчитан на паническое поведение спамера.

В ответ на негативные результаты своих попыток спамер может удалить изменения и тем самым способствует долгосрочному воздействию на ранг документа (присвоение значения – ноль).

Спрогнозировать количество времени, чтобы увидеть положительные (или ожидаемые) результаты в ответ на изменения спамера, невозможно.

В ответ на задержки результата спамер может выполнить дополнительные изменения в попытке положительно (или более позитивно) повлиять на ранг документа. Например, при задержке ответа (неполучения нужного рейтинга в ожидаемые сроки), спамер может добавить другие способы спама (например, добавление дополнительных ключевых слов, крошечный текст, невидимый текст, ссылки, и др.). В случае отрицательного ответа спамер может  удалить ссылки на этот документ (или провести другие изменения) в попытке отменить понижение рейтинга.

Для выявления признаков того, что ранг документа подвергается манипуляции, Google Penguin может в режиме реального времени наблюдать (анализировать) поведение спамера.
Данные Penguin обновляются в режиме реального времени, поэтому изменения будут учитываться гораздо быстрее (чаще всего сразу после завершения сканирования и индексирования страницы).
В любом случае эти дальнейшие действия  спаммера могут помочь в выявлении признаков искусственного изменения ранга документа. Например, если ранжирование изменилось в противоположную сторону от изначальных 10% изменений, то это может соответствовать реакции  на первично-инверсионную функцию расчёта рейтинга.

Кроме того, если ранг по-прежнему изменять неожиданно (помимо изменения во время переходного периода), алгоритм может установить дополнительные попытки спаммера каким-то образом компенсировать нежелательные изменения в ранге документа и это будет признаком того, что оценка документа подвергается модификации спаммером.

Корреляция может использоваться в качестве мощного статистического инструмента прогнозирования. В случае задержки ответа (положительный ранг) можно определить изменения, внесённые во время периода задержки, которые влияют на конкретные веб-страницы. В случае отрицательного ответа первоначального ранга корреляция может использоваться для идентификации возврата изменений.

В любом случае последующие попытки манипулировать рангом документа будут выделены в корреляции с течением времени. Таким образом, корреляция с течением времени может использоваться как автоматизированный индикатор изменения оценки (ранга, порога) спама.
Обратите внимание на то, что веб-страницы автор изобретения предлагает квалифицировать как спам-страницы и подозрительные документы.

Когда признаки изменения ранга спама существуют, но их, возможно, недостаточно для позитивного определения изменения ранга спама, то «подозрительный» документ может быть подвергнут более экстремальным вариациям изменения ранга в ответ на изменения в ссылочной массе.

В качестве альтернативы, или дополнительно, в определение ранга документа может быть введён шум. Этот шум может вызвать случайные, переменные и/или нежелательные изменения в ранге документа в попытке заставить спамера принять меры по исправлению положения. Это корректирующее действие может помочь установить подвергался ли рейтинг документа нежелательному воздействию со стороны спамера.
Если установлено, что документ (расчёт его рейтинга) подвергся попыткам манипулирования, то такая веб-страница, сайт, домен, и/или ссылки могут быть определены как спам.

Я думаю, что в описанных в патенте действиях спаммера многие веб-мастера узнали себя. Если позиции сайта меняются необъяснимо и не прогнозируемо – не следует сразу паниковать. Именно такой реакции от вас ждут. Суть алгоритма Google Penguin в том, что борясь с веб-спамом он, вероятно, может провоцировать веб-мастера на дополнительные попытки спама.

Выводы делайте сами, но учитывайте также то, что нет официального подтверждения тому, что этот патент применяется.
Подробнее

Windows 10: назад в прошлое?

Microsoft активно продвигает последнюю версию операционной системы. При этом, всё больше пользователей возвращаются к седьмой версии, несмотря на агрессивное обновление Windows 10.

Бесплатное предложение обновления Windows 7 и 8.1, заканчивается менее чем через 30 дней.
Как пишет softpedia.com – проблема "Десятки" в том, что интерес пользователей к "Семёрке" возобновился, её доля рынка составляет 49 процентов и стремится к пятидесяти. По данным Net Applications на июнь 2016 года доля рынка Windows 7 – 49,05 процента и она на первом месте в рейтинге. Второе место занимает Windows 10 с долей рынка – 19,14 процента (рост за последний месяц на 1,71%).
Windows 10: назад в прошлое?
Доля рынка "Семёрки" выросла за последний месяц на 0,48 процента. И вероятно, что часть пользователей Windows 10 вернулись к Windows 7.

Следует признать, что "Семёрка" более удобна, и отлажена, чем "Десятка". Более того, обновления Windows 10 стали предметом судебных исков. Женщина из штата Калифорния, Тери Гольдштейн, подала иск в суд на Microsoft с требованием возмещения материального ущерба, причинённого якобы в результате принудительного обновления её компьютера до десятой версии. По словам Тери, установка обновления операционной системы не была завершена корректно и это вызвало сперва сильное снижение скорости работы компьютера, а затем его поломку. Суд принял сторону потерпевшей, Microsoft выплатила истице 10000 долларов, однако отказалась признавать свою вину, – пишет freesoft.ru.

Весьма вероятно, что десятая версия операционной системы не повторит успех Windows 7. Примечательно, что древняя (пятнадцатилетняя) операционная система версия XP по-прежнему удерживает третье место и её доля колеблется у значения в десять процентов рынка.

Мобильность как новый вектор развития?

Директор украинского офиса Google Дмитрий Шоломко сообщил ain.ua, что доля мобильного трафика во всем мире превысила 50 процентов и эта тенденция стремительно растёт.

За первый квартал 2016 года, 37% всего трафика в Украине было сгенерировано с мобильных устройств – смартфонов и планшетов. И от квартала к кварталу в Google наблюдают рост мобильного трафика на 15%, – говорит Дмитрий Шоломко.

Microsoft тоже уловила эти тенденции и начала выводить продукты в интернет, создавая продуктовые сайты – sway.com и docs.com, а также разработав мобильные приложения для различных операционных систем, например – Microsoft Office Mobile.

Microsoft стремится активно конкурировать на рынке операционных систем для мобильных устройств (Windows Phone). Одна из последних разработок в этом направлении – Windows 10 Mobile – мобильная операционная система для смартфонов и планшетов на базе архитектуры ARM.

По данным отчета исследовательской компании Gartner операционные системы Android и iOS совместно контролируют 98,4% рынка смартфонов. Учитывая это, на мой взгляд, перспективы Windows 10 Mobile в борьбе с Android и iOS туманны.

Как на счёт Ubuntu?

Windows 10 Anniversary Update для "Десятки" должно произойти 2-го августа, и одна из ключевых особенностей этого релиза – поддержка Ubuntu Bash, которая в основном позволяет запускать исполняемые файлы Linux на Windows 10 из командной строки.

Linux Subsystem для Windows, уже доступен в бета-версии для пользователей-тестировщиков.
Пользователи Ubuntu мягко говоря недолюбливают Windows. Весьма сомнительно, что внедрение этой новой фитчи увеличит число пользователей "Десятки".

Дополнительно читайте:
BSOD - синий экран смерти Windows
Оптимизация Windows и исправление основных неполадок  

Маркетинг на халяве

Как известно, люди любят всё бесплатное. Этим во многом определяется пока еще положительная динамика роста доли рынка "Десятки". Пользователи "Семерки" и Windows 8.1 получили очередное обновление KB3173040 из которого они узнали радостную новость – "Простите, что отвлекаем, но это важно. Бесплатное предложение обновления до Windows 10 заканчивается 29 июля".

Как уже сказано выше, многие пользователи десятой версии возвращаются к предыдущим версиям операционной системы. Windows 10 если и откусит при помощи халявщиков какую-то долю рынка у "Семёрки", то, скорее всего, не значительную.

Продуктивный вектор развития

Windows 10 нужно отказаться от практики неконтролируемых пользователем обновлений. Кроме того, очень желательно перенести в Windows 10 всё то, что так любят пользователи "Семёрки". Только сплав новых и хорошо зарекомендовавших себя старых решений принесёт положительный результат.
Подробнее

Несколько советов по работе с инструментами Serpstat

Несколько советов по работе с инструментами Serpstat


Serpstat (бывший prodvigator) – это анализ ключевых слов, анализ конкурентов‎ и ежедневно актуальные данные для каждого SEO и PPC специалиста.


Для чего используется Serpstat?

Serpstat – сервис мониторинга выдачи, не имеющий аналогов хотя бы потому, что в отличие от подобных инструментов, позволяет анализировать выдачу в Украине, Казахстане и так далее. Следовательно, Serpstat – это сервис, который создан для продвижения региональных сайтов в поисковых системах Яндекс и Google.


Serpstat используется специалистами для предоставления таких услуг: контекстная реклама, SEO оптимизация, поиск ниш, продвижение в соц. сетях, создание контент планов, анализ поисковых запросов, анализ объявлений конкурентов, создание семантического ядра, анализ доменов, поиск ключевых слов.

Начало работы в Serpstat

Зарегистрируйтесь в Serpstat.
Для начала работы нужно ввести:
a. домен или поисковую фразу;
b. выбрать региональную выдачу, по которой вы хотите получить данные.
Начало работы в Serpstat

Система генерирует суммарный отчет, который включает: частотность ключевой фразы, уровень конкуренции в PPC, цену за клик в контекстной рекламе, поисковые запросы в органическом поиске, ключевые фразы в контекстной рекламе,тренды ключевого слова, список конкурентов в поисковой выдаче, график конкурентов, список конкурентов в контексте, объявления в контексте.

Эти отчеты позволят вам сформировать предварительное мнение, кто является конкурентом по этому запросу и какие ключевые слова они используют.

Анализ конкурентов в Serpstat

Введите в Serpstat название домена. Перейдите в раздел "Конкуренты" в меню "SEO-анализ" и "PPC-анализ". Выберите из списка двух - трёх основных конкурентов.

Воспользуйтесь инструментом "Сравнение доменов".
Сравнение доменов
Отчет "Количество ключевых фраз у доменов" позволяет получить информацию об общих и уникальных ключевых фразах конкурентов.
Количество ключевых фраз у доменов

Таким же образом можно сравнить страницу сайта со страницей конкурентов используя инструмент "URL vs URL".
инструмент "URL vs URL"
В этом же разделе "Анализ страниц" есть еще один очень интересный инструмент – "Упущенные фразы". В этом отчете обратите внимание на опции "Сила связи" и "Другие страницы домена".

Параметр "Сила связи" показывает, у скольких страниц-конкурентов из топ-20 результатов поиска присутствует ключевая фраза, которой нет на вашей странице.

Колонка "Другие страницы домена" показывает, ранжируются ли по этой фразе другие страницы исследуемого домена и какую позицию в выдаче занимает страница по этому ключу.

Вот что говорят специалисты Serpstat по этому поводу:
Теперь вам останется принять одно из двух решений: продвигать анализируемую страницу под эти запросы, или бросить все силы на поднятие позиций тех страниц, которые уже содержат выбранный запрос.

Используйте "Дерево сайта"

Дерево сайта – очень интересный инструмент от Serpstat. Находится он в меню "SEO-анализ".

Я уже недавно писал, что результаты поисковой выдачи из ТОП десять и результаты, отражённые с одиннадцатой по двадцатую позицию SERP, содержат 90 процентов информации и естественно обеспечивают более 90 процентов трафика.

Поэтому настраиваем фильтр в инструменте "Дерево сайта" так, как показано на картинке внизу.
Настройка фильтра
Изображение: serpstat.com

В разделе "Динамика изменения позиции" настроек фильтра при необходимости можно выбрать "Упали позиции".
В "дереве" одновременно получаем и все страницы сайта и ключевые фразы, по которым страницы ранжируются. Для чего надо? Чтобы найти фразы, которые можно использовать вместо анкоров и поднять позиции страниц, которые немного упали в выдаче. Как использовать? Отберите страницы с помощью фильтра, которые находятся за пределами топа, но недалеко от него. Из полученного результата "вытащите ключевики" и сделайте их анкорами. Затем поставьте линки с этими анкорами на выбранные страницы (с упавшими позициями). Вот и всё.
Inna Velcheva,Content Marketer of Serpstat.

Обязательно прочитайте:

Проверка ссылок сервисом Ahrefs
Проверка обратных ссылок сервисом Majestic Seo
Как проверить сайт с помощью SEMrush

Я редко рекомендую какие-то сервисы, но это как раз тот случай. Инструменты Serpstat могут серьёзно облегчить работу интернет-маркетологу и веб-мастеру.
Подробнее

Контекстная реклама и ее виды

Контекстная реклама – это эффективный и наиболее востребованный вид презентации и распространения информации в Интернете о своих товарах или услугах. Она воздействует лишь на ту аудиторию, которая на самом деле заинтересована в содержимом вашего сайта.
Контекстная реклама — тип интернет-рекламы, при котором рекламное объявление показывается в соответствии с содержанием, контекстом интернет-страницы (лат. contextus — соединение, связь).
Википедия

Для тех кто хочет воочию увидеть контекстную рекламу и проанализировать ее эффективность лучше обратить внимание на работу профессионалов. Наглядным примером является контекстная реклама в ARTOX media.
Контекстная реклама и ее виды

В зависимости от формата контекстная реклама может быть различных видов: баннерная, текстовая и видео. Каждый из этих типов обладает высокой эффективностью и успешно продвигает товары и услуги в информационной паутине. Текстовая контекстная реклама самая простая, но вместе с тем очень эффективная. Она представляет собой обыкновенный текст, как правило, с гиперссылкой и ключевыми запросами, которые ориентируются на популярность поисковых систем. За прошлый год спрос на текстовую контекстную рекламу в России вырос на 22%. Это явное свидетельство ее эффективности.

В видеорекламе управление репутацией в Интернете выполняется посредством видеороликов. Здесь текстовое содержимое заменено каким-нибудь клипом с содержанием гиперссылки. При этом свежие данные статистики по видеорекламе шокируют. Более 68% всех россиян хотя бы раз в месяц просматривают рекламные ролики. А если рассматривать пользователей Интернета, то эта цифра куда выше – 93%.

Баннерная реклама представляет собой графическое рекламное изображение. Это может быть обычная картинка или транспарант. Она может быть представлена в виде картинки с сопутствующим текстом. По виду исполнения баннерная реклама может быть: статичное изображение, динамичное изображение или интерактивный баннер. За последние годы многие пользователи разочаровались в ней. Баннерная реклама демонстрирует отрицательную статистику -7%.

Контекстная реклама также различается на поисковую и тематическую. Первый вид ориентирован на демонстрацию результатов поиска по первоначальному запросу. Тематическая реклама демонстрируется лишь на тех страницах сайта, которые входят в рекламную сеть.

Важным понятием в контекстной рекламе является ремаркетинг. Эта функция позволяет автоматически искать и обращаться к посетителям, которые ранее уже заходили на вас сайт. Ремаркетинг – это настраиваемая функция. Ее можно направить на всех посетителей веб-ресурса, на гостей определенных страниц или на посетителей, которые выполнили определенные действия.

Вам будет интересно:
Из справки Google: Как создавать аудитории ремаркетинга.
Об использовании аудиторий ремаркетинга в AdWords читайте тут.


Публикаци партнёров
Подробнее

Как работает алгоритм Google RankBrain

В течение последних нескольких месяцев, очень большой объем из миллионов поисковых запросов в секунду, был интерпретирован системой искусственного интеллекта. Она получила название RankBrain. Об этом 26 октября 2015 года агентству Bloomberg рассказал старший научный сотрудник Google Грег Коррадо (Greg Corrado), описывая впервые изменяющуюся роль искусственного интеллекта в поиске.
Greg Corrado о RankBrain
Greg Corrado о RankBrain в интервью Bloomberg
Было нелегко. Развёртыванию алгоритма RankBrain предшествовал год усилий команды специалистов Google, в которую входили Peter Norvig, Corinna Cortes, Mehryar Mohri, Yoram Singer, Thomas Dean, Jeff Dean[6], специалист поиска Yonghui Ву и специалист глубоко обучения — эксперт Thomas Strohmann. Прошло много времени,прежде чем команда убедилась, что система работает правильно. Это стало возможным благодаря огромным и продолжительным инвестициям Google в машинное обучение и создание искусственного интеллекта[1].

Машинное обучение

Термин «машинное обучение» появился ещё в 50-х годах. Этот термин обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно[2].

Мне очень понравились эти два определения.
Машинное обучение — процесс, в результате которого машина (компьютер) способна показывать поведение, которое в неё не было явно заложено (запрограммировано)[3].

Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E[4].

Поисковая система должна научиться строить правило, которое определяет для каждого запроса, какая страница является хорошим ответом на него, а какая — нет. Для этого поисковая машина анализирует свойства веб-страниц и поисковых запросов. У всех страниц есть какие-то признаки. Некоторые из них — статические — связаны с самой страницей: например, количество ссылок на эту страницу в интернете. Некоторые признаки — динамические — связаны одновременно с запросом и страницей: например, присутствие в тексте страницы слов запроса, их количество и расположение[2].

Рэймонд Курцвейл в интервью The Guardian сказал: “Компьютеры находятся на пороге чтения и понимания смыслового содержания языка, но пока ещё не на уровне человека. Но так как они могут читать в миллион раз больше материала, чем люди, они могут компенсировать это с количеством“[9].

С декабря 2012 года Курцвейл занимает должность технического директора в области машинного обучения и обработки естественного языка в компании Google[10].

Язык, по его мнению, это ключ ко всему. “И мой проект в конечном счёте — создать основу поиска на полном понимании значения языка. Когда вы пишете статью вы не создаёте интересный набор слов. У вас есть что сказать и Google обречён грамотно организовать и обрабатывать мировую информацию. Сообщение в вашей статье является информацией. Поэтому мы хотели бы на самом деле иметь компьютерное чтение. Мы хотим читать все в интернете, каждую страницу каждой книги, а затем участвовать в интеллектуальном диалоге с пользователем, чтобы иметь возможность ответить на их вопросы”[9].

RankBrain как сигнал ранжирования 

RankBrain является одним из "сотни" сигналов, которые получает алгоритм определяя какая информация должна появляются в результатах поиска Google и оценивая их, сказал Коррадо. Через несколько месяцев после того как был внедрён RankBrain, он стал третьим по важности сигналом, сказал он[1].

Интерес веб-мастеров к этому новшеству Google подогрел тот факт, что несколько месяцев спустя Gary Illyes отвечая в Твиттере на вопрос, который задал Rand Fishkin, сказал следующее — “RankBrain помогает нам понимать запросы лучше. Нет никакого влияния на сканирование или индексирование и замену чего-либо при ранжировании”.
Gary Illyes твит  о RankBrain

Веб-мастера явно усомнились в подобном ответе Gary Illyes и кроме того, им также хотелось знать, что же является первыми двумя по важности сигналами для целей ранжирования Google.

Так, Danny Sullivan в своей статье[5] утверждает, что обратные ссылки — главный сигнал ранжирования.

Угниченко Дмитрий 10 ноября 2015 года на портале megaindex.org в статье “Поисковый алгоритм RankBrain от Google” написал, что алгоритм третий по важности в ранжировании документов после ссылок и поведенческих факторов.

Я уже писал на Хабрахабр, что сотрудники Google отрицают влияние поведенческих факторов на ранжирование.

Двадцать третьего марта 2016 года на видеоконференции “Q&A with Google” Андрей Липатцев (Search Quality Senior Strategist at Google) отвечая на вопрос Аммона Джонса (Ammon Johns), сказал: “я могу вам сказать, что это. Это контент и ссылки, указывающие на ваш сайт”[7].

Обязательно прочитайте!
Как Google определяет качество контента?
Оценка сайта на качество – читаем патент Google
Как проверить качество ссылок
Ссылочный спам – точка зрения Google

Как работает RankBrain 

RankBrain использует искусственный интеллект, чтобы встроить огромное количество письменного языка в математические сущности — называемые векторами — которые понимает компьютер. Если RankBrain видит незнакомое ему слово или фразу, машина может сделать предположение относительно того, какие слова или фразы могут иметь аналогичный смысл и фильтровать результат. Соответственно, это делает более эффективной обработку никогда ещё ранее не встречавшихся запросов[1].

Для лучшего понимания этого процесса обратимся к патенту Google US9104750 B1.
Как работает алгоритм Google RankBrain

Патентная формула:


Получение первого, второго и третьего термина [в оригинальном запросе — прим. авт.]. Определение отличается ли общее значение запроса из трёх терминов от значения каждого из этих терминов по отдельности[8].

Если в результате ответа на определение установлено, что есть отличие, формируется запрос состоящий из первого, второго, третьего термина оригинального запроса с добавлением дополнительного термина, который отсутствовал в оригинальном запросе[8].

Проверенный поисковый запрос (revised search query) включает первый, второй, третий термин и дополнительный поисковый термин ранее не включённый во фразу[8].

Процесс проиллюстрирован на Рис.1 (FIG.1).

При получении оригинального поискового запроса (на Рис.1 — 105) система определяет, содержит ли он хотя бы одно понятие (термин). Если первоначальный поисковый запрос включает в себя, по меньшей мере одно понятие, собираются используемые данные, связанные с последующими запросами поиска, чтобы определить, существует ли близкий по контекстному употреблению (необязательно синоним) термин-заменитель для поискового термина в оригинальном запросе. Поисковая система (на Рис.1 — 130) может генерировать изменённый запрос путём добавления в первоначальный запрос (на Рис.1 — 105) дополнительных терминов, которые заменяют один или несколько терминов, которые встречаются в исходном запросе 105.

Рассмотрим пример. Откроем браузер Opera и введём запрос “New York Times Puzzle”.

RankBrain - влияние на SERP

Рис.2

Как видим на Рис.2 система заменила в оригинальном запросе термин “Puzzle” на “Crossword”. Следовательно, RankBrain прямо и существенно влияет на результаты поисковой выдачи, поскольку он способен модифицировать оригинальный поисковый запрос. Система в дальнейшем может обрабатывать данные, которые связаны с таким модифицированным запросом, и результаты выдачи могут содержать страницы, которые не содержат терминов из оригинального поискового запроса.
использование слов-заменителей

Рис.2А (FIG. 2A)

Чтобы определить контекст в запросе, поисковая система традиционно может отслеживать только одно или два слова вокруг термина из поискового запроса из-за сложности вычислений (см. Рис. 2А). Концепция (в нашем указанном выше примере — “New York Times”) может включать более двух слов. Правило замены термина в конкретном контексте определённой концепции могут быть определены эмпирически на основе взаимодействия пользователя с данными результата поиска. Например, запрос “Yankees” часто заменяется термином “Baseball”.

Логика замены терминов

Логика замены терминов частично описана в примерах патента[8]:
...если первый термин ("кошка"), система замены (180) может оценить условия ("кошачий" или "банан"), которые являются кандидатами в термины-заменители первоначального термина. Система замены может определить, что одни термины являются заменителями первого термина (как в случае с "кошачьим"), и что другие термины такими не являются (как в случае с "бананом "). Система замены может основывать это определение на правилах, хранящимися в базе данных правил замещения (185). Например, правило подстановки "кошачья" является заменой термина “кошка”, а "банан" не является заменой термина для кошки. В некоторых вариантах осуществления правило подстановки может включать в себя несколько слов оригинального запроса и однословную замену термина, или однословный оригинальный термин запроса и многословную замену из терминов-заменителей. Например, правило заменителя может указать, что "SSN" в качестве термина может заменить "Social Security Number". В другом примере можно указать "For Rent" в качестве замены термина для "Rental". Контекст запроса указывается относительно местоположения для других терминов или без его учёта.

Можно ли оптимизировать сайт под RankBrain?

1. Скорее всего, нет, чем да. Достоверной информации о том как работает RankBrain очень мало. Но, мы можем помочь Google правильно понять о чём мы пишем. Поэтому, нужно взять на вооружение лозунг — “Разметить всё!”.

2. Используйте все уместные для вашего сайта типы структурированных данных. Прочитайте статью Латентно-семантический анализ на Хабрахабр. Для тех, кто любит эксперименты, рекомендую сравнить ваши тексты с текстами конкурентов на семантическое сходство используя метрики lsa.colorado.edu.

3. Кроме использования подсказок, которые Google отображает внизу страницы с результатами поисковой выдачи, учитывайте термины-заменители, которые есть в результатах поиска. Рассмотрим результаты поисковой выдачи по запросу “туфли мужские”.
термины-заменители в SERP

Рис.3

4. В качестве термина-заменителя Google использует в сниппетах и в тайтлах страниц термин “обувь”. Добавьте там, где это уместно, термин “обувь” в текст (описание) и HTML-теги h1, h2, h3, alt.

5. Не заставляйте RankBrain лишний раз искать слово-замену. Старайтесь писать грамотно. Избегайте в тексте жаргонизмов, сленга, нецензурных выражений.

Нужно понимать, что чтобы вы не делали, в любом случае, влияние на RankBrain с этой стороны монитора будет минимально.

Выводы 

Rankbrain — это элемент основного алгоритма поиска Колибри. По моему мнению, этот алгоритм отвечает за подбор релевантной информации для целей ранжирования, распознаёт язык запроса и понимает логику фраз (семантическую связь слов) в запросах.

RankBrain прямо и существенно влияет на результаты поисковой выдачи, поскольку он способен модифицировать оригинальный поисковый запрос.

Контент и ссылки — основные факторы ранжирования для Google. Оптимизация под алгоритм Rankbrain неразрывно связана с улучшением качества сайта (оригинальности и добавленной ценности контента), в том числе ссылочного профиля.

Источники: 

1.Clark, Jack. "Google Turning Its Lucrative Web Search Over to AI Machines". Bloomberg Business. Bloomberg. Retrieved 28 October 2015.
2.Яндекс. Ранжирование и машинное обучение. Источник.
3.A.L. Samuel Some Studies in Machine Learning Using the Game of Checkers // IBM Journal. July 1959. P. 210–229.
4.T.M. Mitchell Machine Learning. McGraw-Hill, 1997.
5.FAQ: All About The New Google RankBrain Algorithm. Danny Sullivan on October 27, 2015 at 7:09 am. searchengineland.com
6.RankBrain Unleashed. Gianluca Fiorelli.Moz.com.
7.Q&A with Google. Прямой эфир: 23 мар. 2016 г.
8.Using concepts as contexts for query term substitutions. US 9104750 B1.Авторы изобретения Kedar Dhamdhere, Thomas Strohmann, P. Pandurang Nayak, Robert Spalek. Первоначальный патентообладатель Google Inc. Патент.
9.Are the robots about to rise? Google's new director of engineering thinks so… Carole Cadwalladr. Saturday 22 February 2014. The Guardian.
10.Курцвейл, Рэймонд. Материал из Википедии — свободной энциклопедии.
Подробнее

Как проверить индексацию сайта — полезные рекомендации

Вопросы, связанные с индексацией сайтов, — "Как проверить индексацию сайта? Почему не все страницы сайта в индексе? Почему мой сайт так долго индексируется?" Их наиболее часто задают на Справочном форуме для веб-мастеров.

Индексирование
Индексирование — это сложный процесс занесения информации о URL и их содержимом в индексные таблицы поисковой системы. На него влияют различные факторы. Поэтому точно спрогнозировать дату (время) и количество проиндексированных страниц невозможно. Обычно если в Search Sonsole добавляется информация о новом сайте данные могут обновляться на протяжении десяти - двадцати дней. Раньше этого срока предполагать, что с сайтом что-то не так, не стоит.

Технические ресурсы Google значительные, но распределении их для индексирования все же имеет свои квоты. Полная индексация страниц сайта не гарантируется. Не стоит ожидать индексации всех страниц сайта ещё и по такой причине.
Мы уже, кажется, имеем контент, проиндексированный по другим URL. Почему мы также должны индексировать ещё эту страницу?
John Mueller,Google
Обязательно проверьте все ли важные и нужные страницы сайта разрешены к индексированию и поисковый бот имеет к ним нормальный доступ. Используйте инструмент Google Search Console под названием "Посмотреть как Googlebot". Также проверьте добавили ли вы в Google Search Console правильную версию сайта.
Возможно вы в Search Sonsole подтвердили «неправильную» версию вашего сайта. Вам нужно добавить сайт в Search Sonsole с правильным «http» или «https» протоколом & возможно с «www». Если вы добавляете альтернативную версию (например, добавив «http://example.com» когда ваш сайт индексируется как «http://www.example.com»), то мы не сможем показать все ваши данные.
John Mueller,Google

От чего зависит скорость индексирования?

Скорость индексирования сайта зависит от многих факторов, точные сроки не определены. Но для значительного ускорения добавления страниц в индекс можно использовать тот же инструмент "Посмотреть как Googlebot". В большинстве случаев после этого страница добавляется в индекс если не мгновенно, то очень быстро.
Как проверить индексацию сайта

Помните для каждого сайта всё очень индивидуально. Частота заходов робота и количество запросов на один заход определяется автоматически.

Индексирование может сильно замедлиться, если:
 - найдены ссылки на несуществующие страницы (идут повторные запросы этих страниц вместо сканирования других);
- найдены ссылки на страницы без содержания;
- слишком долгий отклик сервера (увеличивается пауза между запросами и уменьшается их количество, чтобы не создавать излишнюю нагрузку на сервер);
- CMS сайта генерирует в большом количестве разные ссылки на одно и то же содержание или на пустые страницы.

Почему страницы (сайт) исключены из индекса?

Первое, что нужно проверить, нет ли ошибки в настройке CMS или в заполнении файла robots.txt.

Иногда по невнимательности или по другим причинам веб-мастера в настройках CMS сайта забывают открыть доступ поисковым роботам. В результате в коде страниц сайта появляется мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
Это означает - не индексировать текст, но переходить по ссылкам.
Подобный случай относительно недавно комментировал Джон Мюллер (John Mueller).
Ваш сайт отдаёт (исполняет)  x-robots-tag HTTP заголовок со значением none — это значит что этот URL не должен индексироваться. Вы можете это перепроверить, используя "Посмотреть как Googlebot" в Search Console или использовать следующую командную строку(команду):
$ curl --silent -I http://toddnetworks.ie/ | grep -iE "oboy?"
X-Robots-Tag: none
Удалив (убрав) это (возможно это просто опция в Вашей CMS) и ещё раз добавив url через "Посмотреть как Googlebot" / "отправить в индекс", всё должно заработать как нужно.
John Mueller,Google
Вторая причина — нарушение авторских прав. Проверьте ваш сайт в lumendatabase.org.
Третья причина — как не банально, ссылочный спам.
Обязательно прочитайте:
Ссылочный спам – точка зрения Google
Как проверить качество ссылок
Как бесплатно проверить посещаемость сайта онлайн

Как проверить индексацию сайта

Проверить индексацию сайта можно разными способами и каждый из них дают разные результаты. В связи с этим возникает вопрос о точности оценки и на что ориентироваться.

Для этих целей многие веб-мастера используют оператор "site:". Но можно ли на него ориентироваться?
Можно сделать запрос "site:". Он показывает количество результатов очень приблизительно.
Но когда страниц на сайте не очень много, то можно просто домотать до последней страницы и уж все эти [страницы — прим.авт.] точно в индексе есть, раз выдаются.
Ринат Сафин, Google

В большинстве случаев количество результатов при использовании оператора "site:" почти соответствует значению проиндексированных страниц файла sitemap в Google Search Console.
Если вам нужны более надёжные результаты, прислушайтесь к мнению Андрея Липатцева в отношении использования оператора "site:".
Ориентируйтесь на количество проиндексированных страниц, указанное в разделе Статус Индексирования [Google Search Console — прим.авт.]. Те цифры, которые Вы приводите, свидетельствуют только о количестве проиндексированных страниц, из числа помещённых в sitemap. Это не обязательно одно и то же.
Андрей Липатцев,Google

Смотрите специальный доклад Андрея Липатцева на эту тему.

Раздел Статус Индексирования Google Search Console показывает количество проиндексированных страниц, но не показывает какие именно из них находятся в индексе. Будет ли доступна эта информация в Search Console неизвестно, но об интересе веб-мастеров к ней в Google знают.

Как удалить страницу из индекса

Многие веб-мастера считают что для этого достаточно закрыть страницу в robots.txt.
Это не выход. Такая страница будет и дальше индексироваться только в сниппете появится информация, что страница закрыта в robots.txt.
На самом деле  в код такой страницы без блокировки её в robots.txt нужно добавить мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
В этой статье я хотел максимально подробно рассказать о том как ускорить и проверить индексацию сайта, как удалить страницу из индекса. Если есть вопросы, задавайте в комментариях.
Подробнее

Уникальность текста и жизнь на Марсе

Уникальность текста (контента) сайта влияет на результаты поискового продвижения сайтов. Согласны с этим? Считается, что уникальный контент — чуть ли не половина успеха в ТОП результатов поисковой выдачи.

Веб-мастерам свойственна завышенная оценка качества своего сайта. Потому на SEO-форумах регулярно задают вопрос — "У меня качественный сайт, контент уникальный, почему его даже в ТОП 100 нет?" В такой ситуации нужно успокоится и разобраться в ситуации по существу. Думаю, вы уже читали указанные ниже статьи. Ещё не читали?

Нужно обязательно прочитать!




Уникальность текста — с чем её "едят"?

Вот вы знаете что такое уникальность текста или контента? Думаю, веб-мастера скажут — конечно.

Понимание сводится к тому, что веб-мастера под уникальностью контента подразумевают процентное выражение количества совпадений в результатах поиска. Для этого используют сервисы, описанные в указанных выше статьях. И чем меньше процент совпадений, тем выше уникальность. Вот такая гипотеза.


Да, в этом что-то есть. А давайте зададим себе вопрос, а что Google думает по этому поводу? Ответ наверно разочарует многих.
Уникальность, с точки зрения поисковой системы, — это жизнь на Марсе.
Андрей Липатцев, Google

Смотрим ответ Андрея с 9 минуты 29 секунды этой видеовстречи.


Получается, что веб-мастера и копирайтеры тратят время с целью добиться расчётной, назовем это так, уникальности контента, а Google чихал на это с высокой горы. Есть от чего расстроиться.

Уникальность текста (контента) — "взгляд с Марса"

Уникальность текста (контента) важна для Google, просто он вкладывает в это понятие иной смысл.

Читаем справку Google:
Некоторые веб-мастера предпочитают копировать содержание с более популярных сайтов. При этом они не обращают внимания на релевантность и уникальность этого контента и полагают, что увеличение объёма страниц будет способствовать повышению рейтинга сайта в долгосрочной перспективе. Само по себе такое содержание, пусть даже скопированное с самых популярных и качественных сайтов, не будет представлять ценности для пользователей, если на вашем сайте не будут предоставляться дополнительные материалы или возможности для работы с ним. Лучше потратить время и создать оригинальный контент, который выделит ваш сайт из массы других. Это позволит привлечь постоянных посетителей и обеспечить релевантность при поиске в Google. Для повышения рейтинга сайта в результатах поиска Google очень важно, чтобы на ваших страницах была размещена полезная, а лучше – уникальная информация .
Как видно, Google использует термины "уникальный контент" и "оригинальный контент". Следует обратить внимание на издержки перевода с английского языка на русский. Если открыть ссылку на второй источник, то в нём не упоминаются термины "уникальный контент" или "уникальная информация", но используется термин "неоригинальный".

Буквальный перевод первого предложение раздела "Little or no original content" — "Одним из наиболее важных шагов в улучшении рейтинга вашего сайта в результатах поиска Google является уверенность в том, что он содержит большое количество ценной информации..." Нет тут ничего об уникальной информации. Ну и название раздела говорит само за себя - "... no original content".


Уникальность текста не означает, что это обязательно хороший контент.

Из этого вывод — для Google важен не столько уникальный, сколько оригинальный контент.
Оригинальный контент — это уникальный контент, который содержит ценную информацию (), не описанную или не представленную где-либо ещё. Такой контент, должен описывать как ширину, так и глубину конкретного вопроса.

Как видим уникальность текста (контента) в понимании Google отличается от принятой многими веб-мастерами точки зрения.
Подробнее