388x60 Ads

⇶ Основы DMCA и работы алгоритма Google Pirate

Основы DMCA и алгоритма Google Pirate

Поиск Google организует и индексирует огромное количество общедоступных веб-страниц в интернете. Во всем мире в поиске Google ежедневно производится более 3,5 миллиарда поисковых запросов, что делает его наиболее широко используемой поисковой системой в мире. Популярность Google имеет ощутимые преимущества для правообладателей, поскольку он помогает более чем миллиарду людей во всём мире найти лицензионные копии контента, который они хотят потреблять[1].

Программа TCRP, внедрённая  Google, позволяет доверенным владельцам авторских прав и агентам по обеспечению безопасности упростить процесс подачи уведомлений об удалении больших объёмов веб-страниц. С 2012 года более семидесяти тысяч различных организаций подали запросы в Google для удаления веб-страниц из результатов поиска аргументируя нарушением отдельными сайтами авторских прав. Из этих семидесяти тысяч только 114 пользователи TCRP. Таким образом, подавляющее большинство уведомлений каждый год приходится на небольшой процент заявителей. Лишь несколько организаций отправляют в Google сотни тысяч (в одном случае более миллиона) уведомлений об удалении url[2].


В интернете более 60 триллионов адресов, но только бесконечно малая часть из них связана с пиратством. Тем не менее Google не хочет включать какие-либо ссылки на материалы, нарушающие авторские права, в свои результаты поиска, и прилагает значительные усилия для предотвращения появления веб-страниц с нарушением правил.

Основные три направления этих усилий можно изложить так:
- Чистые результаты для запросов пользователей, связанных с мультимедиа: фактически, благодаря усилиям инженеров Google, подавляющее большинство запросов, связанных с медиа, которые пользователи ежедневно вводят в поисковую систему, возвращают результаты, которые включают только законные сайты. Тут нужно сделать пометку на то, что это суждение справедливо в основном для выдачи в США и Канаде.
- Замечания по удалению url и дате понижения: Несмотря на то, что подавляющее большинство запросов, связанных с медиа, дают чистые результаты, есть некоторые редкие запросы, в которых результаты включают проблематичные ссылки. Для этих «низкочастотных» запросов Google сотрудничает с владельцами авторских прав для решения проблемы. Во-первых, Google разработал самые современные инструменты, позволяющие правообладателям и их исполнительным агентам эффективно отправлять уведомления об удалении в больших объёмах (десятки тысяч в день) и обрабатывать эти уведомления в среднем в течение шести часов. Во-вторых, Google затем использует эти уведомления для понижения сайтов-нарушителей в результатах поиска.
- Законные альтернативы: Google полагает, что предоставление удобных, убедительных, законных альтернатив является одним из лучших способов борьбы с пиратством. Соответственно, Google запустил ряд инициатив по представлению законных альтернатив пользователям в рамках результатов поиска, в том числе предоставление рекламы по запросам для фильмов и музыки, чтобы связать пользователей с законными способами приобретения контента. Google также сотрудничает с владельцами авторских прав и музыкальными сервисами, чтобы помочь им понять, как использовать методы оптимизации SEO (поисковой оптимизации), чтобы получить предложения о результатах поиска для «низкочастотных» запросов[1].
Обязательно прочитайте!
Как работает алгоритм Google RankBrain
Влияние Better Ads Standards на ранжирование сайтов
Ссылочный спам – точка зрения Google

Интересной является такая тенденция. По словам Google, крупные корпорации злоупотребляют системой для удаления файлов и ссылок на контент, нарушающий авторские права, отправляя миллионы поддельных ссылок в попытке закрыть определённые сайты.

«Значительная часть недавнего увеличения объёмов подачи DMCA для Google Search происходит из уведомлений, которые кажутся дублирующими, ненужными или ошибочными», - заявил Google в своём официальном ответе для U.S. Copyright Office.

«Значительное количество запросов на удаление, отправленных в Google, предназначено для URL-адресов, которые никогда не были в нашем поисковом индексе и поэтому никогда не появлялись в наших результатах поиска»[3].

Другими словами, компании используют возможности DMCA Google, чтобы попросить Google удалить ссылки, которые на самом деле не существуют.

«Например, в январе 2017 года наиболее “плодовитый” заявитель представил уведомления, которые Google выполнил по 16 457 433 URL-адресам. Но при дальнейшей проверке оказалось, что из них 16,450,129 (99,97 процента) в нашем поисковом индексе отсутствовали» [3].

И если вы думаете, что это делает только одна компания, вы ошибаетесь. Опять же, согласно Google, «в общей сложности 99,95% всех URL-адресов, обработанных Google в рамках Программы TCRP в январе 2017 года, не были в нашем индексе»[3].

То, что, по-видимому, происходит, заключается в том, что юристы по интеллектуальной собственности берут все новые фильмы, альбомы, отдельные книги и копируют структуру URL-адресов тысяч разных веб-сайтов для отправки запроса на удаление. Это выглядит как автоматизированный спам правообладателей.

Проверка этих запросов показывает, что они являются явно автоматизированными, поскольку используется один и тот же синтаксис снова и снова для разных веб-сайтов и даже на тех же веб-сайтах, при этом все возможные варианты и комбинации включаются  с целью попасть на настоящий URL-адрес.

Последствия нарушения DMCA

Google с августа 2012 года учитывает в качестве сигнала ранжирования [Google Pirate – прим. авт.] количество действительных уведомлений о нарушении авторских прав. Сайты с большим количеством таких уведомлений могут оказаться ниже в результатах поиска[4].

Давайте вспомним, как повлияло это обновление на ранжирование и трафик торрент-сайтов в 2014 году, основываясь на данных исследования TorrentFreak.

Популярные «пиратские» сайты отмечали резкое падение поискового трафика.
TorrentFreak общался с различными владельцами торрент-сайтов, которые подтверждали, что трафик от Google сильно пострадал от изменений алгоритма. «Ранее на этой неделе [в 2014 году – прим. авт.] весь поисковый трафик упал наполовину»,  – сообщила команда сайта Isohunt.to[5].
Последствия нарушения DMCA
Изображение - TorrentFreak

Снижение иллюстрируется ежедневным сопоставлением трафика до и после внесения изменений, как показано ниже. График показывает значительную потерю трафика, который Isohunt.to исключительно приписывает изменениям в алгоритме Google Pirate. Сайты, которые попали под Google Pirate, в 2016 получили падение поискового трафика в размере 89%[1].

Снижение рейтинга влияет на все сайты, которые имеют относительно высокий процент запросов на удаление DMCA. Когда пользователи Google ищут популярные названия фильмов, музыки или программного обеспечения в сочетании с такими терминами, как «загрузка», «смотреть» и «торрент», эти сайты понижаются в рейтинге.

Обновление алгоритма в 2014 году оказалось гораздо более эффективными, чем предыдущие изменения алгоритма поиска, и затронули все основные «пиратские» сайты.

Ниже представлен обзор видимости [в 2014 году – прим. авт.] нескольких крупных торрент-сайтов в Великобритании и США, основанный на списке из 100 ключевых слов.
Алгоритм Google Pirate
Изображение - TorrentFreak

Как работает алгоритм нам конечно никто не скажет, давайте посмотрим, что на этот счёт написано в патентах Google. Не исключено, что некоторые из этих идей были реализованы при разработке алгоритма.

Если количество поданных жалоб превышает пороговое значение, автоматизированный компонент решения IP может сделать первоначальное определение того, следует ли сразу предположить, является ли жалоба действительной или недействительной на основании прошлой истории жалоб, связанных с подавшей жалобу стороной.

Если часть ранее поданных жалоб, которые были определены как действительные, превышает второй порог (например, 75%), ожидающая жалоба может автоматически считаться действительной. В таком случае, подозрительный контент может быть немедленно удалён из SERP до дальнейшего ручного просмотра.

С другой стороны, если доля прошлых жалоб, которые были действительными, ниже второго порога, не делается никаких предположений относительно подозрительного контента, и содержание может продолжаться показываться до тех пор, пока оно не будет оценено вручную.

Следовательно, Патент предполагает, что автоматически признанные действительные жалобы рассматриваются вручную.

Если доля ранее поданных жалоб, не прошедших успешную проверку, чрезвычайно высока (т. е. большая часть жалоб недействительна), новая жалоба может быть отменена без какого-либо ручного обзора.

Методы, описанные выше, позволяют немедленно обрабатывать и принимать новые жалобы, связанные с IP[6].

Лицензионные переводы тоже часть контента, который охраняется DMCA. Обратите внимание на такой Патент.

Контекст слова или фразы часто играет важную роль в обеспечении точного перевода. В одном варианте делается предположение, что в пределах среднего диапазона достоверности (например, от 50% до 70%) , контент может быть помечен как потенциальное нарушение, так как этот диапазон указывает на то, что для идентификации имеется достаточное сходство, но и достаточно разницы в значительной степени. Например, нелицензированный перевод может быть идентифицирован по схожести между текстом нелицензионного перевода и текстом официальной версии с автопереводом[7].

Достаточное сходство – от 50% до 70% для определения факта нарушения.
Дублированные или почти дублированные документы могут указывать на плагиат или нарушение авторских прав. Одним из важных приложений для обнаружения дубликатов документов является контекст хранения и извлечения информации. Например, для документа из «n» слов желательно иметь 50% -ную вероятность, что изменение n / 10 слов приведёт к тому, что документ не будет использовать общие отпечатки…[8]
Немного запутано конечно, но можно предположить, что документы (страницы) которые содержат меньше 50% собственного оригинального контента, могут быть признанными дублированными. Теоретически на этом основании правообладатель может подать жалобу на удаление такой веб-страницы.

Просмотр вручную такого количества жалоб правообладателей дело весьма затратное. Если процент url, помеченных для удаления, превышает 75% все решения в отношении сайта – нарушителя принимает алгоритм – отключает (понижает) трафик и снижает позиции вплоть до полного исключения из индекса.

Для проверки этой гипотезы были проверены показатели сайтов, представители которых задали соответствующие вопросы на Справочном форуме для веб-мастеров Google и на searchengines.guru. Из пятнадцати сайтов нашей выборки – десять это торрент-сайты.
DMCA - влияние алгоритма Google Pirate
Диапазоны воздействия алгоритма Google Pirate  

Ключевые показатели:
● Процент удалённых url;
● Верхний квартиль - 91,2%
● Медиана - 84,3%
● Нижний квартиль - 75,7%
Выборка, конечно, не репрезентативная, но по этой совокупности можно сделать вывод, что проблемы с алгоритмом Google Pirate возникают в основном у сайтов, процент удаленных url у которых от 75% до 90%.

Есть конечно "аномалии" - сайты с процентом удалённых url за пределами верхнего и нижнего квартилей.

В одном из Патентов Google сказано, что существует некий второй порог (75%), при соответствии или превышении которого ожидающая жалоба может автоматически считаться действительной.

Значение второго порога соответствует показателю нижнего квартеля в нашем примере. Что это нам даёт?
Показатель 75% удалённых url из общего числа заявленных к удалению за всё время могут служить индикатором того, воздействует ли на сайт алгоритм Google Pirate или нет. Как пишет Google, в качестве демотивирующего сигнала он использует количество валидных абуз. Можно предположить, что "количество" означает больше 1000 полученных и утвержденных абуз. При этом, должно наблюдаться падение органического трафика от 50% до 90%. 

Ещё одна поправка. Если общее количество страниц, на которых пожаловался правообладатель, не очень велико (несколько десятков или пару сотен), то решение об их удалении, скорее всего, принимается после ручного обзора. Прямым подтверждением этому может быть письмо от Adsense об отключении показа рекламы на котой выявлены признаки нарушения DMCA.

Алгоритм Google Pirate - борьба с абузами

Способов борьбы с абузами (Google Pirate recovery) не так много. Вот некоторые из них, которые описаны в интернет. - Смена домена. Настроить постраничный 301 редирект на новый домен и закрыть старый сайт от индексирования ботами Google.
- Смена url. Нужно, если это целесообразно, старую страницу закрыть от индексирования ботами Google и/или настроить 301 редирект на новую страницу.
- Удаление незаконного контента. Можно заменить определённый медиа - контент,  например, короткое видео, gif-файлом. Если целесообразно удалить всю страницу, желательно чтобы она отдавала 410 код.
- Блокирование доступа к авторскому контенту из стран правообладателей или их агентов.
- Подача встречного уведомления. В этом есть смысл, если контент спорный (или жалоба безосновательна) и у вас есть доказательства наличия прав на объекты интеллектуальной собственности. 
Заполняйте форму по ссылке, которую Вам прислали , так как Вы не удалили контент, а подаёте встречное уведомление о том, что контент не нарушает авторских прав.
Андрей Липатцев, Google
Это подтверждает то, что встречное уведомление подаётся, если страница со спорным контентом не удалена, иначе нечего оспаривать.

Если заявитель (правообладатель) не будет подавать встречных действий на протяжении следующих 15 дней, оспариваемый контент, в случае его блокировки, должен быть восстановлен[9]. В самом же DMCA сказано, что на это дается от 10 до 14 рабочих дней.

Источники:
[1] Отчёт «How Google Fights Piracy 2016 - Final E-reader version»
[2] "How Google is Fighting Piracy". Sabina Hartnett on July 18, 2016.
[3] Письмо Google в U.S. Copyright Office от 21.02.2017 года.
[4] "An update to our search algorithms".  Amit Singhal, SVP, Engineering. August 10, 2012.
[5]Google’s New Search Downranking Hits Torrent Sites Hard.
[6] Patent "Automated determination of validity of complaints". US 8380571 B1. Publication date  19 Feb 2013. Original Assignee Google Inc.
[7] Patent «Automatic translation of digital graphic novels». WO 2017052820 A1. Publication date   30 Mar 2017. Applicant Google Inc.
[8] Patent «Detecting duplicate and near-duplicate files». US 9275143 B2. Publication date 1 Mar 2016.Original Assignee Google Inc.
[9]Patent "Blocking of Unlicensed Audio Content in Video Files on a Video Hosting Website". US 20110289598 A1. Publication date 24 Nov 2011. Original Assignee Google Inc.




Подпишитесь В закладки НапечататьPrint Friendly and PDF


Вячеслав Вареня
Вячеслав Вареня
Статус: seo-специалист | Контакты


4 коммент.:

Misha Votus комментирует... [Ответить]

Отличная раскрытая тема статьи! Большое спасибо за материал. Как раз пригодился

Вячеслав Вареня комментирует... [Ответить]

@Misha Votus
Я тоже надеюсь, что статья будем многим полезна.

qfurs комментирует... [Ответить]

Если я удалил со страницы ссылку на объект авторского права, то куда писать потом сообщать об этом?

Вячеслав Вареня комментирует... [Ответить]

@qfurs

В вашем случае, как я понимаю, страница не удалена, а удален спорный контент на этой страницы.
Вам нужно подать встречное уведомление, указава url страницы , а так же то, что указанный заявителем объект авторского права уделен.

Отправить комментарий