Как работает система SpamBrain

Представьте себе огромное море контента, которое ежедневно заполняет интернет. В этом море есть полезная информация, но также много бесполезного или даже вредного материала, который называют спамом. Чтобы мы, обычные пользователи, могли находить качественную информацию, а не тонуть в океане спама, Google разработал систему SpamBrain.

Система SpamBrain была запущена в 2018 году. С момента запуска Google постоянно улучшает её эффективность, что позволило значительно повысить обнаружение и борьбу со спамом. Специалисты со стажем наверняка помнят истерику с так называемыми «медицинскими апдейтами». Вполне вероятно, что тогда именно SpamBrain «постучал в дверь» вашего сайта.

SpamBrain — это система борьбы со спамом, работающая на основе искусственного интеллекта. Она разработана для выявления и снижения количества спама в поисковых результатах.

SpamBrain анализирует огромное количество данных и использует продвинутые алгоритмы машинного обучения для распознавания спамного контента.

SpamBrain нацелен на несколько ключевых типов спама:

Спам со взломанных ресурсов
Спам с бессмысленным, скопированным или автогенерированным текстом
Использование избыточного количества ключевых слов
Маскировка, дорвеи
Ссылочный спам.

Это далеко не полный список того, с чем борется SpamBrain. Он также обладает растущей способностью обнаруживать различные типы угроз и деструктивного контента. Вполне вероятно, что с каждым «Spam Update» фокус «внимания» SpamBrain расширяется. Поэтому логично предположить, что этот алгоритм сейчас также отслеживает «Масштабное злоупотребление контентом» и «Злоупотребление репутацией сайта».

Более подробно об этом можно почитать в Правилах в отношении спама для веб-поиска. Давайте рассмотрим основные компоненты и функции этой системы.

Все, что далее будет написано, является моим мнением, основанном на моем опыте и знаниях и не является официальной информацией о работе SpamBrain.

Основные компоненты системы SpamBrain

Выявление анкорного спама

SpamBrain использует специальный механизм, чтобы классифицировать и наказывать спамера за спам в анкорах. Спам-анкор — это текст, используемый для ссылок, который не имеет реального смысла, массово повторяется или вводит в заблуждение.

Например, если на сайте используются анкоры вроде «заработай миллионы быстро» или «увеличь трафик в 1000 раз», такие анкоры могут быть отмечены как спам.

Идентификация спам-анкорных фраз

Система отслеживает резкие всплески в использовании спам-фраз. Если обнаруживается, что за короткий период на множестве сайтов появляются одинаковые фразы, это может быть сигналом спама. Например, если многие сайты вдруг начинают использовать фразу «лучшие дешевые таблетки», SpamBrain может это заметить и принять меры.

Различие по уровню доверия

SpamBrain учитывает уровень доверия к источнику анкоров. Анкоры от доверенных источников и сомнительных сайтов система анализирует их по-разному. SpamBrain использует информацию о доверии к сайту для более точной оценки спама.

Доверие к сайту (Trust) играет важную роль в том, как Google воспринимает и ранжирует ваш сайт. Важно понимать, что источники высокого качества и доверия могут сильно повлиять на рейтинг вашего сайта. Если ваш сайт часто упоминается на авторитетных ресурсах, это положительно сказывается на его репутации.

Анкоры с сомнительных сайтов подвергаются тщательной проверке на наличие спамных фраз, наполнения ключевыми словами и других манипулятивных тактик. Если такие анкоры классифицируются как спамные, они понижаются в рейтинге и могут быть отмечены как “спамные локализации”.

Анкоры с сайтов с низким уровнем доверия оказывают негативное влияние на рейтинг ссылок, которые они содержат. Это означает, что такие ссылки будут менее значимы для поисковой системы и, следовательно, менее полезны для повышения рейтинга сайтов, на которые они ссылаются.

Что такое Spam Score и SpamRank

Следует сказать, что для этого Google использует два разных, но взаимодополняющих метода оценки спама, — это Spam Score и SpamRank.

Spam Score — это метрика, оценивающая вероятность того, что контент является спамом. Этот показатель используется для определения и классификации спамного контента.

SpamRank — это более сложная метрика, которая оценивает вероятность того, что URL ссылается на известных спамеров. Эта шкала позволяет Google точно определять степень участия страницы в спамоподобном поведении через ее исходящие ссылки.

В то время как Spam Score больше фокусируется на оценке внутреннего содержания документа, SpamRank анализирует внешние связи, что помогает выявлять и наказывать сайты, участвующие в схемах обмена или покупки ссылок.

Это очень важно: Анализ факторов «полезного контента»

Как может работать SpamBrain

Естественно, что нюансы работы SpamBrain засекречены, потому давайте обратимся к научной работе “SpamRank — Fully Automatic Link Spam Detection”, опубликованной группой авторов в 2005 году.

Авторы предложили метод, который использует концепцию персонализированного PageRank для выявления страниц с незаслуженно высоким значением PageRank. Метод был протестирован на выборке из 31 миллиона страниц домена .de, и показал высокую эффективность в обнаружении спамных страниц.

В статье используются такие понятия как “страницы-сторонники”, они же “поддерживающие страницы”. Это страницы, которые прямо или опосредовано ссылаются на целевую страницу “поддерживая” её передавая часть PageRank.

Методология выявляет аномалии в распределении PageRank, таких, как сильная зависимость от низкокачественных страниц или большое количество ссылок от страниц с похожими PageRank значениями.

Шаблоны (критерии) спама, выявленные учеными

Неестественное распределение PageRank сторонников:

У “честных страниц” распределение PageRank сторонников обычно следует степенному закону (power law distribution).
У спам-страниц это распределение часто отклоняется от степенного закона.

Однородность сторонников:

Спам-страницы часто имеют большое количество страниц-сторонников с очень похожими значениями PageRank.
У “честных” страниц обычно более разнообразный набор сторонников.

Низкокачественные сторонники:

Спам-страницы часто получают большую часть своего PageRank от множества страниц с очень низким собственным PageRank.

Несоответствие между количеством и качеством сторонников:

Спам-страницы могут иметь неестественно большое количество сторонников по сравнению с их собственным PageRank.

Клики и фермы ссылок:

Наличие большого количества взаимных ссылок в небольшой группе страниц.

Аномальная структура внутренних ссылок:

Сайты с чрезмерно плотной внутренней структурой ссылок, напоминающей автоматически сгенерированный контент.

В завершение хочу напомнить, что значения метрик сторонних инструментов — Moz Spam Score, DA, DR не имеют к SpamRank или SpamBrain никакого отношения.

ВідViacheslav Varenia

Основные компоненты системы SpamBrain

Что такое Spam Score и SpamRank

Как может работать SpamBrain

Шаблоны (критерии) спама, выявленные учеными

Неестественное распределение PageRank сторонников:

Однородность сторонников:

Низкокачественные сторонники:

Несоответствие между количеством и качеством сторонников:

Клики и фермы ссылок:

Аномальная структура внутренних ссылок:

Від Viacheslav Varenia

Пов’язаний запис

Як працює алгоритм RankEmbed від Google: повний розбір семантичного пошуку

Google FastSearch: як AI-алгоритми змінюють SEO

Alphabet інвестує $85 млрд в інфраструктуру ШІ: деталі нового плану розвитку компанії

Вы Пропустили

OpenAI представила сімейство моделей GPT-5.6

Adobe купує Topaz Labs та Semrush для розвитку ШІ та SEO

Anthropic випускає Claude Fable 5: автономний AI-інженер класу Mythos

OpenAI готується до IPO: аналіз фінансових ризиків та прогнозів