PubMag está creciendo: 4,000 dominios, noticias, nuevos filtros y mejoras de rendimiento

PubMag está creciendo: 4,000 dominios, noticias, nuevos filtros y mejoras de rendimiento

Durante el último mes se produjeron varios cambios que quiero compartir. La base de datos se amplió, las interfaces mejoraron, los procesos se aceleraron y —cómo no— aparecieron nuevos bugs.

📈 Dinámica de la base y recopilación

  • La base de datos de subastas de header bidding superó los 4000 dominios únicos. ¡Gracias a los piratas!
  • Se han recopilado más de 2000 consultas de búsqueda, de las cuales menos de la mitad han sido procesadas y etiquetadas para las listas blancas — aún queda mucho trabajo por hacer, aunque el proceso ya está casi completamente automatizado.
Listas blancas contextuales

🧩 Mejoras en el constructor de listas blancas

Se ha añadido al interfaz de filtrado una verificación por país a través de dominios .RU. Se planea agregar:

  • Un botón para cargar más dominios según los filtros actuales
  • La opción de ocultar sitios de servicios (Telegram, Wikipedia y similares)
  • Un filtro de sitios con actividad publicitaria confirmada. La actividad se determinará no por la presencia de la biblioteca header-bidding.js, que puede estar oculta, sino por un conjunto de señales. El perfil de monetización en la página de dominios también se actualizará. Por cierto, el objetivo de este perfil es hablar con el visitante en un lenguaje humano, no con informes técnicos. Quizás este enfoque se convierta en el principal.

🕵️ Fechas de actualización y transparencia

Ahora en la página de dominios se muestra la fecha del último informe recibido, lo que permite evaluar la actualidad de la información.

Oficina de etiquetado felino: las consultas de búsqueda en acción

🧠 LibTracker: bibliotecas, sincronización y aceleración

  • Se añadieron más de 100 nuevas bibliotecas a LibTracker (3 veces más que antes), así como sincronizaciones de cookies y soluciones auxiliares.
  • Se optimizó el motor de rastreo — ahora es más rápido y usa los recursos de forma más eficiente.

Top 10 de sitios por cantidad de tecnologías detectadas:

  1. elc-russia.ru — 39
  2. paparazzi.ru — 37
  3. tennis-score.pro — 36
  4. starhit.ru — 37
  5. calend.ru — 35
  6. prigotoovim.ru — 34
  7. maximonline.ru — 34
  8. ngs24.ru — 34
  9. ormatek-com — 34
  10. russian7.ru — 33

En el futuro se planea distinguir con mayor precisión entre bibliotecas reales, sincronizadores de cookies y otras solicitudes auxiliares. De lo contrario, se generan imágenes diferentes para el mismo sitio, como en el caso de “Detskiy Mir”: elc-russia.ru y detmir.ru. Los informes no coinciden, aunque es el mismo sitio.

📰 Noticias y bot de Telegram

La sección de noticias breves recibió varias actualizaciones:

  • Se implementó un bot de Telegram para añadir noticias rápidamente
  • Se actualizó la página principal de noticias
  • Se configuró el etiquetado automático con corrección manual mínima

Tras varias iteraciones de desarrollo, las prioridades del bloque pasaron a ser la estabilidad y la expansión del contenido.

🔐 Autenticación: problemas con Gmail

El acceso mediante Magic Link es inestable para usuarios de Gmail — los correos a menudo no se entregan. Por ahora no se ha encontrado una solución efectiva para este problema.

🏠 Servidor y automatización

  • Se configuró un módulo de control remoto en el servidor doméstico y se lanzó un bot funcional de Telegram para el equipo de AstraLab.
  • Se está preparando la migración de LibTracker al servidor doméstico, siguiendo el ejemplo de HBTracker, para automatizar la recolección de datos.
Funcionamiento autónomo de HBTracker

📊 Charts y páginas de tecnologías

Está finalizando el rediseño del módulo de gráficos. Tras optimizar la base de datos, será posible mostrar la lista completa de sitios para cada tecnología, no solo los últimos 50. Se prevén cambios similares para los datos de LibTracker.

Así transcurrieron finales de abril y comienzos de mayo. ¡Te invito a conversar! ¡Realmente necesito feedback! ¡Dinero y conocimiento para todos!

Resultados de enero y planes para febrero Vacaciones de enero Cómo conecté datos de HBTracker y LibTracker y qué salió de ello Actualización de otoño de herramientas para el análisis publicitario