388x60 Ads

Как работает алгоритм Google RankBrain

В течение последних нескольких месяцев, очень большой объем из миллионов поисковых запросов в секунду, был интерпретирован системой искусственного интеллекта. Она получила название RankBrain. Об этом 26 октября 2015 года агентству Bloomberg рассказал старший научный сотрудник Google Грег Коррадо (Greg Corrado), описывая впервые изменяющуюся роль искусственного интеллекта в поиске.
Greg Corrado о RankBrain
Greg Corrado о RankBrain в интервью Bloomberg
Было нелегко. Развёртыванию алгоритма RankBrain предшествовал год усилий команды специалистов Google, в которую входили Peter Norvig, Corinna Cortes, Mehryar Mohri, Yoram Singer, Thomas Dean, Jeff Dean[6], специалист поиска Yonghui Ву и специалист глубоко обучения — эксперт Thomas Strohmann. Прошло много времени,прежде чем команда убедилась, что система работает правильно. Это стало возможным благодаря огромным и продолжительным инвестициям Google в машинное обучение и создание искусственного интеллекта[1].

Машинное обучение

Термин «машинное обучение» появился ещё в 50-х годах. Этот термин обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно[2].

Мне очень понравились эти два определения.
Машинное обучение — процесс, в результате которого машина (компьютер) способна показывать поведение, которое в неё не было явно заложено (запрограммировано)[3].

Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E[4].

Поисковая система должна научиться строить правило, которое определяет для каждого запроса, какая страница является хорошим ответом на него, а какая — нет. Для этого поисковая машина анализирует свойства веб-страниц и поисковых запросов. У всех страниц есть какие-то признаки. Некоторые из них — статические — связаны с самой страницей: например, количество ссылок на эту страницу в интернете. Некоторые признаки — динамические — связаны одновременно с запросом и страницей: например, присутствие в тексте страницы слов запроса, их количество и расположение[2].

Рэймонд Курцвейл в интервью The Guardian сказал: “Компьютеры находятся на пороге чтения и понимания смыслового содержания языка, но пока ещё не на уровне человека. Но так как они могут читать в миллион раз больше материала, чем люди, они могут компенсировать это с количеством“[9].

С декабря 2012 года Курцвейл занимает должность технического директора в области машинного обучения и обработки естественного языка в компании Google[10].

Язык, по его мнению, это ключ ко всему. “И мой проект в конечном счёте — создать основу поиска на полном понимании значения языка. Когда вы пишете статью вы не создаёте интересный набор слов. У вас есть что сказать и Google обречён грамотно организовать и обрабатывать мировую информацию. Сообщение в вашей статье является информацией. Поэтому мы хотели бы на самом деле иметь компьютерное чтение. Мы хотим читать все в интернете, каждую страницу каждой книги, а затем участвовать в интеллектуальном диалоге с пользователем, чтобы иметь возможность ответить на их вопросы”[9].

RankBrain как сигнал ранжирования 

RankBrain является одним из "сотни" сигналов, которые получает алгоритм определяя какая информация должна появляются в результатах поиска Google и оценивая их, сказал Коррадо. Через несколько месяцев после того как был внедрён RankBrain, он стал третьим по важности сигналом, сказал он[1].

Интерес веб-мастеров к этому новшеству Google подогрел тот факт, что несколько месяцев спустя Gary Illyes отвечая в Твиттере на вопрос, который задал Rand Fishkin, сказал следующее — “RankBrain помогает нам понимать запросы лучше. Нет никакого влияния на сканирование или индексирование и замену чего-либо при ранжировании”.
Gary Illyes твит  о RankBrain

Веб-мастера явно усомнились в подобном ответе Gary Illyes и кроме того, им также хотелось знать, что же является первыми двумя по важности сигналами для целей ранжирования Google.

Так, Danny Sullivan в своей статье[5] утверждает, что обратные ссылки — главный сигнал ранжирования.

Угниченко Дмитрий 10 ноября 2015 года на портале megaindex.org в статье “Поисковый алгоритм RankBrain от Google” написал, что алгоритм третий по важности в ранжировании документов после ссылок и поведенческих факторов.

Я уже писал на Хабрахабр, что сотрудники Google отрицают влияние поведенческих факторов на ранжирование.

Двадцать третьего марта 2016 года на видеоконференции “Q&A with Google” Андрей Липатцев (Search Quality Senior Strategist at Google) отвечая на вопрос Аммона Джонса (Ammon Johns), сказал: “я могу вам сказать, что это. Это контент и ссылки, указывающие на ваш сайт”[7].

Обязательно прочитайте!
Как Google определяет качество контента?
Оценка сайта на качество – читаем патент Google
Как проверить качество ссылок
Ссылочный спам – точка зрения Google

Как работает RankBrain 

RankBrain использует искусственный интеллект, чтобы встроить огромное количество письменного языка в математические сущности — называемые векторами — которые понимает компьютер. Если RankBrain видит незнакомое ему слово или фразу, машина может сделать предположение относительно того, какие слова или фразы могут иметь аналогичный смысл и фильтровать результат. Соответственно, это делает более эффективной обработку никогда ещё ранее не встречавшихся запросов[1].

Для лучшего понимания этого процесса обратимся к патенту Google US9104750 B1.
Как работает алгоритм Google RankBrain

Патентная формула:


Получение первого, второго и третьего термина [в оригинальном запросе — прим. авт.]. Определение отличается ли общее значение запроса из трёх терминов от значения каждого из этих терминов по отдельности[8].

Если в результате ответа на определение установлено, что есть отличие, формируется запрос состоящий из первого, второго, третьего термина оригинального запроса с добавлением дополнительного термина, который отсутствовал в оригинальном запросе[8].

Проверенный поисковый запрос (revised search query) включает первый, второй, третий термин и дополнительный поисковый термин ранее не включённый во фразу[8].

Процесс проиллюстрирован на Рис.1 (FIG.1).

При получении оригинального поискового запроса (на Рис.1 — 105) система определяет, содержит ли он хотя бы одно понятие (термин). Если первоначальный поисковый запрос включает в себя, по меньшей мере одно понятие, собираются используемые данные, связанные с последующими запросами поиска, чтобы определить, существует ли близкий по контекстному употреблению (необязательно синоним) термин-заменитель для поискового термина в оригинальном запросе. Поисковая система (на Рис.1 — 130) может генерировать изменённый запрос путём добавления в первоначальный запрос (на Рис.1 — 105) дополнительных терминов, которые заменяют один или несколько терминов, которые встречаются в исходном запросе 105.

Рассмотрим пример. Откроем браузер Opera и введём запрос “New York Times Puzzle”.

RankBrain - влияние на SERP

Рис.2

Как видим на Рис.2 система заменила в оригинальном запросе термин “Puzzle” на “Crossword”. Следовательно, RankBrain прямо и существенно влияет на результаты поисковой выдачи, поскольку он способен модифицировать оригинальный поисковый запрос. Система в дальнейшем может обрабатывать данные, которые связаны с таким модифицированным запросом, и результаты выдачи могут содержать страницы, которые не содержат терминов из оригинального поискового запроса.
использование слов-заменителей

Рис.2А (FIG. 2A)

Чтобы определить контекст в запросе, поисковая система традиционно может отслеживать только одно или два слова вокруг термина из поискового запроса из-за сложности вычислений (см. Рис. 2А). Концепция (в нашем указанном выше примере — “New York Times”) может включать более двух слов. Правило замены термина в конкретном контексте определённой концепции могут быть определены эмпирически на основе взаимодействия пользователя с данными результата поиска. Например, запрос “Yankees” часто заменяется термином “Baseball”.

Логика замены терминов

Логика замены терминов частично описана в примерах патента[8]:
...если первый термин ("кошка"), система замены (180) может оценить условия ("кошачий" или "банан"), которые являются кандидатами в термины-заменители первоначального термина. Система замены может определить, что одни термины являются заменителями первого термина (как в случае с "кошачьим"), и что другие термины такими не являются (как в случае с "бананом "). Система замены может основывать это определение на правилах, хранящимися в базе данных правил замещения (185). Например, правило подстановки "кошачья" является заменой термина “кошка”, а "банан" не является заменой термина для кошки. В некоторых вариантах осуществления правило подстановки может включать в себя несколько слов оригинального запроса и однословную замену термина, или однословный оригинальный термин запроса и многословную замену из терминов-заменителей. Например, правило заменителя может указать, что "SSN" в качестве термина может заменить "Social Security Number". В другом примере можно указать "For Rent" в качестве замены термина для "Rental". Контекст запроса указывается относительно местоположения для других терминов или без его учёта.

Можно ли оптимизировать сайт под RankBrain?

1. Скорее всего, нет, чем да. Достоверной информации о том как работает RankBrain очень мало. Но, мы можем помочь Google правильно понять о чём мы пишем. Поэтому, нужно взять на вооружение лозунг — “Разметить всё!”.

2. Используйте все уместные для вашего сайта типы структурированных данных. Прочитайте статью Латентно-семантический анализ на Хабрахабр. Для тех, кто любит эксперименты, рекомендую сравнить ваши тексты с текстами конкурентов на семантическое сходство используя метрики lsa.colorado.edu.

3. Кроме использования подсказок, которые Google отображает внизу страницы с результатами поисковой выдачи, учитывайте термины-заменители, которые есть в результатах поиска. Рассмотрим результаты поисковой выдачи по запросу “туфли мужские”.
термины-заменители в SERP

Рис.3

4. В качестве термина-заменителя Google использует в сниппетах и в тайтлах страниц термин “обувь”. Добавьте там, где это уместно, термин “обувь” в текст (описание) и HTML-теги h1, h2, h3, alt.

5. Не заставляйте RankBrain лишний раз искать слово-замену. Старайтесь писать грамотно. Избегайте в тексте жаргонизмов, сленга, нецензурных выражений.

Нужно понимать, что чтобы вы не делали, в любом случае, влияние на RankBrain с этой стороны монитора будет минимально.

Выводы 

Rankbrain — это элемент основного алгоритма поиска Колибри. По моему мнению, этот алгоритм отвечает за подбор релевантной информации для целей ранжирования, распознаёт язык запроса и понимает логику фраз (семантическую связь слов) в запросах.

RankBrain прямо и существенно влияет на результаты поисковой выдачи, поскольку он способен модифицировать оригинальный поисковый запрос.

Контент и ссылки — основные факторы ранжирования для Google. Оптимизация под алгоритм Rankbrain неразрывно связана с улучшением качества сайта (оригинальности и добавленной ценности контента), в том числе ссылочного профиля.

Источники: 

1.Clark, Jack. "Google Turning Its Lucrative Web Search Over to AI Machines". Bloomberg Business. Bloomberg. Retrieved 28 October 2015.
2.Яндекс. Ранжирование и машинное обучение. Источник.
3.A.L. Samuel Some Studies in Machine Learning Using the Game of Checkers // IBM Journal. July 1959. P. 210–229.
4.T.M. Mitchell Machine Learning. McGraw-Hill, 1997.
5.FAQ: All About The New Google RankBrain Algorithm. Danny Sullivan on October 27, 2015 at 7:09 am. searchengineland.com
6.RankBrain Unleashed. Gianluca Fiorelli.Moz.com.
7.Q&A with Google. Прямой эфир: 23 мар. 2016 г.
8.Using concepts as contexts for query term substitutions. US 9104750 B1.Авторы изобретения Kedar Dhamdhere, Thomas Strohmann, P. Pandurang Nayak, Robert Spalek. Первоначальный патентообладатель Google Inc. Патент.
9.Are the robots about to rise? Google's new director of engineering thinks so… Carole Cadwalladr. Saturday 22 February 2014. The Guardian.
10.Курцвейл, Рэймонд. Материал из Википедии — свободной энциклопедии.
Подробнее

Как проверить индексацию сайта — полезные рекомендации

Вопросы, связанные с индексацией сайтов, — "Как проверить индексацию сайта? Почему не все страницы сайта в индексе? Почему мой сайт так долго индексируется?" Их наиболее часто задают на Справочном форуме для веб-мастеров.

Индексирование
Индексирование — это сложный процесс занесения информации о URL и их содержимом в индексные таблицы поисковой системы. На него влияют различные факторы. Поэтому точно спрогнозировать дату (время) и количество проиндексированных страниц невозможно. Обычно если в Search Sonsole добавляется информация о новом сайте данные могут обновляться на протяжении десяти - двадцати дней. Раньше этого срока предполагать, что с сайтом что-то не так, не стоит.

Технические ресурсы Google значительные, но распределении их для индексирования все же имеет свои квоты. Полная индексация страниц сайта не гарантируется. Не стоит ожидать индексации всех страниц сайта ещё и по такой причине.
Мы уже, кажется, имеем контент, проиндексированный по другим URL. Почему мы также должны индексировать ещё эту страницу?
John Mueller,Google
Обязательно проверьте все ли важные и нужные страницы сайта разрешены к индексированию и поисковый бот имеет к ним нормальный доступ. Используйте инструмент Google Search Console под названием "Посмотреть как Googlebot". Также проверьте добавили ли вы в Google Search Console правильную версию сайта.
Возможно вы в Search Sonsole подтвердили «неправильную» версию вашего сайта. Вам нужно добавить сайт в Search Sonsole с правильным «http» или «https» протоколом & возможно с «www». Если вы добавляете альтернативную версию (например, добавив «http://example.com» когда ваш сайт индексируется как «http://www.example.com»), то мы не сможем показать все ваши данные.
John Mueller,Google

От чего зависит скорость индексирования?

Скорость индексирования сайта зависит от многих факторов, точные сроки не определены. Но для значительного ускорения добавления страниц в индекс можно использовать тот же инструмент "Посмотреть как Googlebot". В большинстве случаев после этого страница добавляется в индекс если не мгновенно, то очень быстро.
Как проверить индексацию сайта

Помните для каждого сайта всё очень индивидуально. Частота заходов робота и количество запросов на один заход определяется автоматически.

Индексирование может сильно замедлиться, если:
 - найдены ссылки на несуществующие страницы (идут повторные запросы этих страниц вместо сканирования других);
- найдены ссылки на страницы без содержания;
- слишком долгий отклик сервера (увеличивается пауза между запросами и уменьшается их количество, чтобы не создавать излишнюю нагрузку на сервер);
- CMS сайта генерирует в большом количестве разные ссылки на одно и то же содержание или на пустые страницы.

Почему страницы (сайт) исключены из индекса?

Первое, что нужно проверить, нет ли ошибки в настройке CMS или в заполнении файла robots.txt.

Иногда по невнимательности или по другим причинам веб-мастера в настройках CMS сайта забывают открыть доступ поисковым роботам. В результате в коде страниц сайта появляется мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
Это означает - не индексировать текст, но переходить по ссылкам.
Подобный случай относительно недавно комментировал Джон Мюллер (John Mueller).
Ваш сайт отдаёт (исполняет)  x-robots-tag HTTP заголовок со значением none — это значит что этот URL не должен индексироваться. Вы можете это перепроверить, используя "Посмотреть как Googlebot" в Search Console или использовать следующую командную строку(команду):
$ curl --silent -I http://toddnetworks.ie/ | grep -iE "oboy?"
X-Robots-Tag: none
Удалив (убрав) это (возможно это просто опция в Вашей CMS) и ещё раз добавив url через "Посмотреть как Googlebot" / "отправить в индекс", всё должно заработать как нужно.
John Mueller,Google
Вторая причина — нарушение авторских прав. Проверьте ваш сайт в lumendatabase.org.
Третья причина — как не банально, ссылочный спам.
Обязательно прочитайте:
Ссылочный спам – точка зрения Google
Как проверить качество ссылок
Как бесплатно проверить посещаемость сайта онлайн

Как проверить индексацию сайта

Проверить индексацию сайта можно разными способами и каждый из них дают разные результаты. В связи с этим возникает вопрос о точности оценки и на что ориентироваться.

Для этих целей многие веб-мастера используют оператор "site:". Но можно ли на него ориентироваться?
Можно сделать запрос "site:". Он показывает количество результатов очень приблизительно.
Но когда страниц на сайте не очень много, то можно просто домотать до последней страницы и уж все эти [страницы — прим.авт.] точно в индексе есть, раз выдаются.
Ринат Сафин, Google

В большинстве случаев количество результатов при использовании оператора "site:" почти соответствует значению проиндексированных страниц файла sitemap в Google Search Console.
Если вам нужны более надёжные результаты, прислушайтесь к мнению Андрея Липатцева в отношении использования оператора "site:".
Ориентируйтесь на количество проиндексированных страниц, указанное в разделе Статус Индексирования [Google Search Console — прим.авт.]. Те цифры, которые Вы приводите, свидетельствуют только о количестве проиндексированных страниц, из числа помещённых в sitemap. Это не обязательно одно и то же.
Андрей Липатцев,Google

Смотрите специальный доклад Андрея Липатцева на эту тему.

Раздел Статус Индексирования Google Search Console показывает количество проиндексированных страниц, но не показывает какие именно из них находятся в индексе. Будет ли доступна эта информация в Search Console неизвестно, но об интересе веб-мастеров к ней в Google знают.

Как удалить страницу из индекса

Многие веб-мастера считают что для этого достаточно закрыть страницу в robots.txt.
Это не выход. Такая страница будет и дальше индексироваться только в сниппете появится информация, что страница закрыта в robots.txt.
На самом деле  в код такой страницы без блокировки её в robots.txt нужно добавить мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
В этой статье я хотел максимально подробно рассказать о том как ускорить и проверить индексацию сайта, как удалить страницу из индекса. Если есть вопросы, задавайте в комментариях.
Подробнее

Уникальность текста и жизнь на Марсе

Уникальность текста (контента) сайта влияет на результаты поискового продвижения сайтов. Согласны с этим? Считается, что уникальный контент — чуть ли не половина успеха в ТОП результатов поисковой выдачи.

Веб-мастерам свойственна завышенная оценка качества своего сайта. Потому на SEO-форумах регулярно задают вопрос — "У меня качественный сайт, контент уникальный, почему его даже в ТОП 100 нет?" В такой ситуации нужно успокоится и разобраться в ситуации по существу. Думаю, вы уже читали указанные ниже статьи. Ещё не читали?

Нужно обязательно прочитать!




Уникальность текста — с чем её "едят"?

Вот вы знаете что такое уникальность текста или контента? Думаю, веб-мастера скажут — конечно.

Понимание сводится к тому, что веб-мастера под уникальностью контента подразумевают процентное выражение количества совпадений в результатах поиска. Для этого используют сервисы, описанные в указанных выше статьях. И чем меньше процент совпадений, тем выше уникальность. Вот такая гипотеза.


Да, в этом что-то есть. А давайте зададим себе вопрос, а что Google думает по этому поводу? Ответ наверно разочарует многих.
Уникальность, с точки зрения поисковой системы, — это жизнь на Марсе.
Андрей Липатцев, Google

Смотрим ответ Андрея с 9 минуты 29 секунды этой видеовстречи.


Получается, что веб-мастера и копирайтеры тратят время с целью добиться расчётной, назовем это так, уникальности контента, а Google чихал на это с высокой горы. Есть от чего расстроиться.

Уникальность текста (контента) — "взгляд с Марса"

Уникальность текста (контента) важна для Google, просто он вкладывает в это понятие иной смысл.

Читаем справку Google:
Некоторые веб-мастера предпочитают копировать содержание с более популярных сайтов. При этом они не обращают внимания на релевантность и уникальность этого контента и полагают, что увеличение объёма страниц будет способствовать повышению рейтинга сайта в долгосрочной перспективе. Само по себе такое содержание, пусть даже скопированное с самых популярных и качественных сайтов, не будет представлять ценности для пользователей, если на вашем сайте не будут предоставляться дополнительные материалы или возможности для работы с ним. Лучше потратить время и создать оригинальный контент, который выделит ваш сайт из массы других. Это позволит привлечь постоянных посетителей и обеспечить релевантность при поиске в Google. Для повышения рейтинга сайта в результатах поиска Google очень важно, чтобы на ваших страницах была размещена полезная, а лучше – уникальная информация .
Как видно, Google использует термины "уникальный контент" и "оригинальный контент". Следует обратить внимание на издержки перевода с английского языка на русский. Если открыть ссылку на второй источник, то в нём не упоминаются термины "уникальный контент" или "уникальная информация", но используется термин "неоригинальный".

Буквальный перевод первого предложение раздела "Little or no original content" — "Одним из наиболее важных шагов в улучшении рейтинга вашего сайта в результатах поиска Google является уверенность в том, что он содержит большое количество ценной информации..." Нет тут ничего об уникальной информации. Ну и название раздела говорит само за себя - "... no original content".


Уникальность текста не означает, что это обязательно хороший контент.

Из этого вывод — для Google важен не столько уникальный, сколько оригинальный контент.
Оригинальный контент — это уникальный контент, который содержит ценную информацию (), не описанную или не представленную где-либо ещё. Такой контент, должен описывать как ширину, так и глубину конкретного вопроса.

Как видим уникальность текста (контента) в понимании Google отличается от принятой многими веб-мастерами точки зрения.
Подробнее

Подробно - как бесплатно подобрать ключевые слова


Ключевые слова - это внутренние сигналы, способные сделать страницу более релевантной и лучше ранжируемой.

Учитывая влияние ключевых слов на результаты ранжирования сайтов, в среде вебмастеров начала использоваться SEO - техника под названием Keyword stuffing. Она предусматривает умышленное избыточное и неестественное использование ключевых слов. Ключевыми словами было напичкано всё, что только можно. В итоге Google вынужден был отказаться от использования как фактора ранжирования "keywords" meta tag.

Поисковая оптимизация и ключевые слова

До сих пор можно манипулировать результатами поисковой выдачи используя список ключевых слов. Этим грешат интернет-магазины, размещая SEO-текст, который либо скрывается от глаз пользователя, либо размещается так, что пользователь не обращает на него внимание. В большинстве случаев SEO-текст - это унылая и бессвязная информация, которой замаскирован список ключевых слов. Что интересно, на одной из видеоконференций с вебмастерами представители поисковика признали, что эти "простыни" ключевых слов всё ещё работают. Как Google не пытается с этим бороться, пока окончательная победа на этом "фронте" не одержана.

Я тоже не люблю, когда на сайте размещён такой SEO-текст и не рекомендую использовать. В любой момент за контент-спам можно либо меры получить, либо с Пингвином за лапу поздороваться.

Как бесплатно подобрать ключевые слова?

Как бесплатно подобрать ключевые слова для статьи или для сайта в целом? Какая плотность ключевых слов оптимальна? Ответы на эти вопросы ищут многие вебмастера.

На днях просматривая англоязычный справочный форум для вебмастеров Google, я заметил один вопрос. Автор спрашивал какая плотность ключевых слов оптимальна, что бы это ни считалось как Keyword stuffing. John Mueller ответил на этот вопрос фразой, которую когда-то сказал Matt Cutts:
Подробно - как бесплатно подобрать ключевые слова

Я бы писал ваш контент для пользователей, а не для машин. Лучший способ проверки - взять созданный вами контент и прочитать его вслух другу по телефону. Звучит ли это натурально и ваш друг всё ещё хочет узнать больше?
Есть разные программы и онлайн-инструменты, которые показывают определённые результаты, но однозначного ответа какая плотность ключевых слов является оптимальной нет. Для блоггеров я бы рекомендовал использовать для этих целей инструмент SEO-блоггер онлайн. Он бесплатный и удобный. Ещё используйте инструмент Анализ контента.

Добавьте ключевые слова в title страницы (сайта), h1-h3, мета тег description, в теги <b> и <strong>, в alt и title изображений, в анкорах и url ссылок.

Для продвижения сайта нужна статистика запросов, а именно:
Ключевые слова Яндекс;
Ключевые слова Гугл;
Ключевые слова YouTube.

Ключевые слова Яндекс

Начнём с Яндекс. Ключевые слова для сайта можно подобрать используя бесплатный сервис https://wordstat.yandex.ru .

Яндекс.Вордстат показывает статистику запросов "по словам", "по регионам", "история запросов".

Учитывайте частотность ключевых слов. Базовая часточность включает в себя результаты как собственно самого запроса, так и других запросов. Если вы введёте поисковый запрос в кавычках, результат станет значительно меньше. А если введёте запрос поставив перед каждым словом восклицательный знак (точная часточность ключевых слов) результаты ещё меньше.
ключевые слова яндекс

Ключевые слова Гугл (Google)

Google предлагает использовать инструмент Планировщик ключевых слов.
Войдите в  аккаунт в adwords.
Ключевые слова Гугл

Бесплатно подобрать ключевые слова в Google Keywordplanner проще некуда.

Ключевые слова YouTube

К сожалению, с 1 сентября 2014 прекратил работу Google YouTube Keyword Tool. Вместо него предлагается использовать Google Keywordplanner.

Неофициальный инструмент подбора ключевых слов для YouTube - http://www.keywordtooldominator.com/k/youtube-keyword-tool

Результаты keywordtooldominator меня не впечатлили и для этих целей я использую инструмент, о котором чуть ниже.

Статистика запросов при помощи KW Finder

KW Finder позволяет подобрать ключевые слова, показывает количество поисковых запросов в месяц, SEO-difficulty,  CPC, PPC, динамику во времени, ТОП SERP по запросу с показателями Majestic и так далее.
Статистика запросов

Три нюанса по работе с этим инструментом. Без регистрации в KW Finder доступна ограниченная статистика. При регистрации доступна полная статистика, платная подписка и бесплатная. Бесплатная подписка в KW Finder содержит ограничение по количеству попыток поиска за день.

Но если голова на плечах, это ограничение можно обойти. Используйте https://hola.org Откройте в нём KW Finder. Войдите в аккаунт. Если появится предложение о платной подписке (исчерпали дневной лимит), просто в hola.org снова откройте KW Finder, изменив при этом страну. Пользуйтесь.
Список ключевых слов
Регистрация в KW Finder позволяет сохранять ключевые слова в список. В раскрывающемся списке "Selected add to list" нужно выбрать "Add to a new list" или в уже ранее созданный лист. Список ключевых слов из листа можно экспортировать.

Статистика запросов при помощи Словоёб

Как пользоваться программой Словоёб
"Словоёб" - это бесплатная версия программы Key Collector. Возможностей программы "Словоёб"  достаточно чтобы  бесплатно подобрать ключевые слова и составить качественное семантическое ядро.

Скачайте  и запустите "Словоёб". Создайте новый проект. Предварительно создайте почтовый адрес на yandex.ru, который вам понадобится в работе и используется в настройках программы.
Как пользоваться программой можно посмотреть в видео Андрея Хвостова.

Как пользоваться программой Словоёб

Ещё пару слов о сервисах, которые нам полезны. Это информационные партнёры участников программы Google Top Contributor - SEMrush, SpyWords, Продвигатор.

Вот так выглядит умный подбор запросов в SpyWords.

Умный подбор запросов в SpyWords

А на этом рисунке показан минимум тех возможностей, которыми располагает Продвигатор.
Проверка ключевых слов в Продвигатор

Эти сервисы при отсутствии платной подписки показывают информацию с определёнными ограничениями, но бесплатные версии тоже информативны.

Если вы знаете ещё способы как бесплатно подобрать ключевые слова, пишите в комментариях к статье.
Подробнее

Как бесплатно проверить посещаемость сайта онлайн

Посещаемость сайта (объем трафика) - показатель качества сайта. Статистика своего сайта доступна вебмастеру в полном объёме, чего не скажешь о чужом.

Статистика чужого сайта интересна веб-мастеру по таким причинам:
- при анализе конкурентов;
- для оценки привлекательности сайта и возможности использования как рекламной площадки;
- для оценки качества потенциального ссылочного донора.

Как проверить посещаемость сайта онлайн

Самые популярные системы статистики сайтов - Google Analytics, Яндекс Метрика, LiveInternet.

Если статистика сайта открыта (такое бывает) информацию получить не составляет труда. Но что делать, если статистика закрыта?


На сайте raskruty.ru можно проверить посещаемость сайта списком (до двадцати доменов) по показателям Яндекс Метрики, LiveInternet, Alexa.
Небольшая ремарка. Чем меньше показатель Alexa, тем выше показатель посещаемости сайта. На сайте Alexa доступна информация о самых посещаемых сайтах в разрезе стран и сегментов (категорий).

Узнать посещаемость сайта на SimilarWeb

SimilarWeb - популярный среди вебмастеров ресурс, показывающий, объем трафика, его структуру, сайты-рефералы, гендерный и территориальный срез аудитории сайта.
Узнать посещаемость сайта на SimilarWeb

Статистика сайта (трафик) по SimilarWeb отличается от данных Google Analytics на два - три процента (в большую сторону) и может считаться точным показателем для популярных интернет-ресурсов. Если посещаемость сайта меньше 10000 визитов в месяц, то на показатель Estimated Monthly Visits SimilarWeb лучше не ориентироваться.

Как проверить трафик в SpyWords

SpyWords - один из популярных сервисов анализа конкурентов. Среди прочего он показывает объем поискового трафика с Яндекс и Google.
Как проверить трафик в SpyWords

Данные в этом сервисе обновляются раз в тридцать дней. Впечатление об объёме поискового трафика составить можно.

SpyWords прежде всего интересен своими сервисами "Битва доменов", "Война доменов".

Как проверить посещаемость сайта в SEMrush

SEMrush, как и SpyWords, является сервисом анализа конкурентов, только с более широким инструментарием.

Перед началом анализа нужно правильно выбрать базу данных, например, для русскоязычных сайтов нужно выбрать - RU.
Как проверить посещаемость сайта в SEMrush

SEMrush показывает динамику поискового и рекламного трафика с Google. Это даст возможность оценить привлекательность сайта для рекламодателей и существуют ли в отношении сайта риск получить меры, принятые вручную, или попасть под воздействие алгоритма Пингвин.

Проверка трафика в Ahrefs

Если сказать, что  Ahrefs является одним из самых популярных сервисов для вебмастеров - ничего не сказать.

Три месяца назад  Ahrefs начал активно внедрять новые инструменты, в том числе появился Positions Explorer, который показывает динамику поискового трафика с Google
Проверка трафика в Ahrefs

Пока к этому инструменту подключены базы данных US и UK. База данных  RU пока не подключена.
Positions Explorer интересен в первую очередь тем, кто интересуется американскими и английскими сайтами.

Статистика сайта с помощью кода

Узнайте статистику сайта подставив в ниже указанные ссылки вместо site.ru нужный вам домен.

Для Rambler  http://top100.rambler.ru/?query=site.ru&stat=1
Для LiveInternet http://counter.yadro.ru/values?site=site.ru
Для Alexa http://www.alexa.com/data/details/traffic_details/site.ru

В заключение хочу вам предложить свой инструмент - простенькую открывалку информации о трафике сайта.


Использование на практике

Несмотря на то что Google негативно относится к покупке ссылок, рассмотрим пример, как выбрать на ссылочной бирже хорошего реферального донора.

Устанавливаете фильтр с такими настройками:
- ТИЦ от 700
- Посещаемость в сутки от 10000
- Контекстные ссылки
- Игнорировать площадки, от которых были отказы
- Игнорировать сайты, участвующие в автобиржах
- GoGetLinks траст от 8
- Индексация не ниже  95%
- Ссылочность не выше 10%

Полученный список экспортируете в Excel. Используя инструмент Массовая проверка обратных ссылок от Majestic (доступен только для подписчиков) получаете показатели TF и CF. На их основе определяете Trust Ratio для каждого домена используя эту методику. Сортируете домены по Trust Ratio в порядке возрастания. Из полученного списка удаляете домены, которые ниже установленного вами предела качества. Проверяете посещаемость оставшихся сайтов используя, например, инструмент массовой проверки доменов сервиса  raskruty.ru.

Иногда этот инструмент не показывает информацию по данным Яндекс Метрики и LiveInternet. В этом случае используйте альтернативные сервисы, указанные в статье. Обязательно обратите внимание на динамику поискового трафика от Google используя сервис SEMrush. Этот позволит вам спрогнозировать вероятность того, что отобранные вами домены либо подпали под санкции Google, либо подпадут в ближайшее время.


Надеюсь, вам понравилась моя подборка о том, как бесплатно проверить посещаемость сайта онлайн.
Подробнее

Информация и энтропия - влияние на SERP

Как влияет количество информации и энтропия на результаты поиска (SERP)?  Меня заинтересовал этот вопрос.

Я провёл определённое исследование и делюсь с вами результатами.

Влияют ли информация и энтропия на SERP?

Цель исследования — определить существование взаимосвязи между количеством информации, энтропией и результатами поисковой выдачи Google.

Информация — это алгоритм построения системы, обеспечивающей воспроизведение этой информации, функционально связанной со средой своего местоположения.

Информацио́нная энтропи́я — это мера неопределённости или непредсказуемости информации.[1] Чем больше известно о системе, тем меньше её энтропия. Важно ещё одно обстоятельство. Утрачивая информацию, мы увеличиваем энтропию системы.[2]


В патенте Google я прочитал такую фразу:
Энтропия запросов для одного или более документов может быть проверена и использована в качестве основы для подсчёта очков [в результатах поисковой выдачи (SERP) — авт.]. Например, если конкретный документ появляется как хит для несходных наборов запросов, это может (хотя и не обязательно ) рассматриваться как спам. В этом случае поисковая машина оценивает документ относительно ниже[3].
Есть соответствующие формулы расчёта энтропии и количества информации. Я не стану вас утомлять пояснениями этих формул, кому интересно, .

Информация и энтропия в ТОП30

По результатам исследований, до третей страницы результатов поисковой выдачи добираются пять процентов пользователей. В подтверждение этого тезиса я получил ответ от SEMrush:

Мы собираем данные из Топ 20 результатов, потому что мы считаем, что 99% трафика приходит на сайт с первых 2 страниц выдачи и по-этому мы собираем данные с первых двух страниц.
Mariam Sargsyan, SEMrush Support Specialist

Основываясь на этом я спарсил информацию из ТОП тридцать по десяти произвольно отобранным запросам с целью определить количество информации по каждому из них. Полученный список страниц я разделил на три группы ТОП10, ТОП20 (с одинадцатой по двадцатую позицию SERP) и ТОП30 (с двадцать первой по тридцатую позицию SERP).

Спарсенная информация по каждому запросу проанализирована в сервисе Ahrefs. Для получения показателя "количество информации" использовались данные .

Таблица 1. Количество информации в ТОП десять - ТОП тридцать SERP по отобранным запросам.

Запрос ТОП10 ТОП20 ТОП30
Пластиковые окна 1,63726 1,27698 1,30682
Создание сайтов 1,71728 1,71899 1,65562
Игры для девочек 1,70128 1,37231 1,55045
Фотострана 1,69851 1,38742 1,29286
winrar 1,29286 1,02574 0,88322
Opera скачать 1,67007 1,77992 1,44065
вконтакте 1,50547 1,26409 1,43293
порно бесплатно 1,69693 1,82498 1,73570
фильмы 2015 1,70166 1,65787 1,77839
сводки ополчения 1,58375 1,11856 1,16433

Рисунок 1. Структура количества информации в ТОП10 - ТОП 30.

Как видим, количество информации в ТОП десять составляет 60 процентов, в группе результатов с одинадцатой по двадцатую позицию SERP (ТОП двадцать) — 30 процентов и с двадцать первой по тридцатую позицию SERP (ТОП тридцать) — соответственно 10 процентов. Энтропия меньше всего в ТОП десять. В ТОП двадцать поисковой выдачи энтропия выше, чем в ТОП десять. Самая высокая энтропия в третьей анализируемой группе запросов - в ТОП тридцать.

Первый вывод — довльно логично, что в ТОП десять отражаются результаты поисковой выдачи, в которых количество информации 60 процентов и выше.

Второй вывод — результаты поисковой выдачи из ТОП десять и результаты отражённые с одинадцатой по двадцатую позицию SERP содержат 90 процентов информации и естественно обеспечивают более 90 процентов трафика.

Третий вывод — не обязательно, что Google использует патент "Link-based spam detection". Вероятно энтропия запросов  используется в поисковом алгоритме Google для идентификации спама и влияет на позиции документа (страницы).


1. Информационная энтропия — Википедия.
2. Корогодин В. И., Корогодина В. Л. Информация как основа жизни. – Дубна: Издательский центр «Феникс», 2000. – 208 с.
3. Link-based spam detection. US 7533092 B2.  United States Patent 7,533,092. Berkhin ,  et al. May 12, 2009.
Подробнее

КонсультантПлюс - помощь в защите авторских прав

Нарушение авторских прав в интернет стало довольно распространённым и обыденным явлением.

Яндекс традиционно никак не реагирует на воровство контента.  Google, пожалуй, единственная поисковая система, которая пытается помочь пользователям защитить свои авторские права.

Тематическая статья:
Жалоба на плагиат

Кроме формы подачи жалобы Google придумал алгоритм Пират. В результате информация систематизируется в Chilling Effects и страницы с пиратским контентом либо весь сайт-пират могут быть исключены из индекса Google.

Но порой этого недостаточно. В своё время у меня возник конфликт с forum2x2.ru, который присвоил себе базу одного из моих сайтов. В тот период я серьёзно изучал возможность подачи судебного иска.

КонсультантПлюс - система права

Я решил ознакомится с действующим законодательством РФ по защите авторских прав. Мне на глаза попался сервис -  КонсультантПлюс.

КонсультантПлюс - одна из лучших правовых систем. За многие годы разработчики добились того, что система имеет интуитивно понятный и удобный интерфейс. Быстрый поиск стал более наглядным и удобным. Обратите внимание на примечания по тексту Кодекса и ссылки на судебную практику (синие закладки слева от абазаца).
КонсультантПлюс - система законодательства

Вот так выглядит окно с судебной практикой в КонсультантПлюс.
Судебная практика в КонсультантПлюс

Если вы планируете отстаивать свои авторские права в судах Украины - вам в помощь бесплатная система права Верховной рады и собственно Гражданский кодекс. Не забудьте изучить и Закон Украины "Об авторском праве и смежных правах".

В любом случае, если ваши авторские права нарушены, готовьтесь их защищать, в том числе используя КонсультантПлюс.
Подробнее