Борьба с шаблонными сайтами

Борьба с шаблонными сайтами

Недавно я переводил статью о новом продукте DeepSee, который помогает рекламодателям оценить качество издателей. Теперь компания поделилась подробностями работы в одном из своих направлений — определении шаблонных сайтов.

DeepSee.io — это компания, специализирующаяся на выявлении и предотвращении рекламного мошенничества. Они предоставляют платформу для анализа и оценки качества издателей, что помогает рекламодателям избегать размещения рекламы на сайтах низкого качества или мошеннических сайтах.

Шаблонные сайты обычно не отличаются уникальным дизайном и контентом, что является характерной чертой многих MFA-сайтов. Часто они не привлекают особого внимания рекламодателей, утопая в массе других сайтов. Из-за того, что создание таких сайтов становится все проще, модерация на любой платформе становится сложнее.

Измерение уникальности дизайна

Почему шаблонные сайты выглядят одинаково? На этот вопрос можно ответить, анализируя данные о распространенности конкретных вариантов дизайна сайта. Шаблонные сайты обычно создаются с помощью нескольких простых инструментов, таких как WordPress (лидер с большим отрывом) и Squarespace. Подход DeepSee к определению уникальности дизайна прост, но эффективен: фиксируются используемые темы и плагины.

Например, возьмем сайт daysinncollinsville[.]com.

Кроме всего прочего, здесь применяется старый хитрый метод SEO-хакеров. Покупается старый домен с истекшим сроком и уже имеющейся историей и туда загружается шаблонный сайт с нужным контентом.

Данный сайт создан на WordPress и использует только один дополнительный модуль: gp-premium.

DeepSee обнаружили примерно 2000 сайтов, которые также используют только этот плагин. Это делает неуникальность данного сайта очень заметной, поскольку большинство высококачественных сайтов имеют уникальную комбинацию плагинов.

Тема generatepress, которую выбрали создатели сайта, также очень распространена — она используется на более чем 40 000 других сайтах.

Доверие к автору

Как часто вы посещали некачественный сайт и видели, что автором статьи указан admin?

Это явный сигнал о низком качестве контента. Также распространено использование URL сайта в качестве автора. DeepSee ищет что-то похожее на реальное человеческое имя, которое ленивые создатели шаблонов, очевидно, не могут подделать.

Выявление низкокачественного контента

Многие интересуются возможностью обнаружения низкокачественного контента с помощью искусственного интеллекта, однако текущие реализации ИИ не могут надежно выполнить эту задачу. Это не означает, что ИИ не используется в качестве одного из инструментов для определения таких сайтов! DeepSee вдохновляются докладом Generative Models are Unsupervised Predictors of Page Quality: Colossal-Scale Study, выпущенном в 2020 году, который показал возможность обнаружения низкокачественного контента с помощью ИИ, ориентированного на поиск текста, созданного машиной.

Доклад Generative Models are Unsupervised Predictors of Page Quality: Colossal-Scale Study изучает применение больших генеративных языковых моделей, таких как GPT-2, для оценки качества веб-страниц. Исследование показывает, что при обучении в режиме самооценки эти модели могут служить универсальными предсказателями качества текста, быстро определяя показатели качества при ограниченных ресурсах.

Авторы провели качественный и количественный анализ более 500 миллионов веб-статей, что делает данное исследование самым масштабным в этой области. Основной вывод: модели могут эффективно различать высококачественный и низкокачественный контент, что способствует улучшению алгоритмов фильтрации и оценки контента в интернете.

В своем докладе они выделили 4 основных типа контента, в котором ИИ наиболее распространен

  • Переводы текстов
  • Фермы сочинений
  • Сайты о SEO
  • NSFW-контент

NSFW (Not Safe For Work) — это термин, используемый для обозначения контента, который не следует просматривать в общественных местах или на рабочем месте. Такой контент может включать в себя материалы откровенного характера, изображения насилия, грубую лексику или иные неподходящие для публичного просмотра элементы.

DeepSee активно применяют подобный метод определения сгенерированного ИИ контента, что также помогает в общем оценить качество издателя.

Влияние на рынок

Определение и анализ шаблонных сайтов, подобно тому как это делает DeepSee, играют важную роль в обеспечении качества рекламных кампаний. Тщательная оценка уникальности дизайна, доверия к автору и качества контента помогают рекламодателям выбирать площадки для своих рекламных кампаний более осознанно. Благодаря таким сервисам, рынок становится более прозрачным и эффективным, позволяя сосредоточиться на качественных площадках и избегать мошенничества.

Другие материалы на эту тему