Combatiendo Sitios Plantilla

Combatiendo Sitios Plantilla

Recientemente, traduje un artículo sobre un nuevo producto de DeepSee que ayuda a los anunciantes a evaluar la calidad de los editores. Ahora, la empresa ha compartido detalles sobre una de sus iniciativas — identificar sitios de plantillas.

DeepSee.io es una empresa especializada en detectar y prevenir el fraude publicitario. Proporcionan una plataforma para analizar y evaluar la calidad de los editores, ayudando a los anunciantes a evitar colocar anuncios en sitios de baja calidad o fraudulentos.

Los sitios de plantillas generalmente carecen de diseño y contenido únicos, lo cual es característico de muchos sitios MFA. A menudo pasan desapercibidos por los anunciantes, perdiéndose entre numerosos otros sitios. A medida que la creación de estos sitios se vuelve más fácil, la moderación en cualquier plataforma se vuelve más desafiante.

Medición de la Unicidad del Diseño

¿Por qué los sitios de plantillas se ven iguales? Esta pregunta puede responderse analizando datos sobre la prevalencia de opciones específicas de diseño web. Los sitios de plantillas generalmente se crean utilizando algunas herramientas simples como WordPress (el claro líder) y Squarespace. El enfoque de DeepSee para determinar la unicidad del diseño es simple pero efectivo: rastrea los temas y complementos utilizados.

Por ejemplo, tomemos el sitio daysinncollinsville[.]com.

Entre otras cosas, este sitio utiliza un viejo truco de los hackers de SEO. Se compra un dominio expirado con una historia existente y se carga un sitio de plantilla con el contenido deseado.

Este sitio está construido en WordPress y usa solo un complemento adicional: gp-premium.

DeepSee encontró alrededor de 2000 sitios que también usan solo este complemento. Esto hace que la falta de unicidad del sitio sea muy notable, ya que la mayoría de los sitios de alta calidad tienen una combinación única de complementos.

El tema generatepress elegido por los creadores del sitio también es muy común — se usa en más de 40,000 otros sitios.

Confianza en el Autor

¿Con qué frecuencia has visitado un sitio de baja calidad y has visto que el autor se indica como admin?

Esto es una señal clara de baja calidad de contenido. También es común usar la URL del sitio como autor. DeepSee busca algo que se parezca a un nombre humano real, que los creadores de plantillas perezosos obviamente no pueden falsificar.

Detección de Contenido de Baja Calidad

Muchos están interesados en la posibilidad de detectar contenido de baja calidad utilizando inteligencia artificial, pero las implementaciones actuales de IA no pueden realizar esta tarea de manera confiable. ¡Esto no significa que la IA no se use como una de las herramientas para identificar tales sitios! DeepSee se inspira en el informe Generative Models are Unsupervised Predictors of Page Quality: Colossal-Scale Study publicado en 2020, que mostró la posibilidad de detectar contenido de baja calidad utilizando IA enfocada en encontrar texto generado por máquinas.

El informe "Generative Models are Unsupervised Predictors of Page Quality: Colossal-Scale Study" explora la aplicación de grandes modelos de lenguaje generativos, como GPT-2, para evaluar la calidad de las páginas web. El estudio demuestra que, cuando se entrenan en modo de autoevaluación, estos modelos pueden servir como predictores universales de la calidad del texto, identificando rápidamente los indicadores de calidad con recursos limitados.

Los autores realizaron un análisis cualitativo y cuantitativo de más de 500 millones de artículos web, lo que convierte a este estudio en el más grande en esta área. La conclusión principal: los modelos pueden distinguir eficazmente entre contenido de alta calidad y baja calidad, mejorando los algoritmos de filtrado y evaluación de contenido en internet.

En su informe, identificaron cuatro tipos principales de contenido donde la IA es más prevalente:

  • Traducciones de textos
  • Granjas de ensayos
  • Sitios de SEO
  • Contenido NSFW

NSFW (Not Safe For Work) es un término utilizado para denotar contenido que no debe verse en lugares públicos o en el lugar de trabajo. Dicho contenido puede incluir materiales explícitos, imágenes violentas, lenguaje grosero u otros elementos inapropiados para la visualización pública.

DeepSee utiliza activamente este método para identificar contenido generado por IA, lo que también ayuda en la evaluación general de la calidad del editor.

Impacto en el Mercado

Identificar y analizar sitios de plantillas, como lo hace DeepSee, juega un papel importante en garantizar la calidad de las campañas publicitarias. La evaluación cuidadosa de la unicidad del diseño, la confianza en el autor y la calidad del contenido ayuda a los anunciantes a elegir plataformas para sus campañas publicitarias de manera más inteligente. Gracias a estos servicios, el mercado se vuelve más transparente y eficiente, permitiendo centrarse en plataformas de alta calidad y evitar el fraude.

Otros materiales sobre este tema