PubMag растёт: 4000 доменов, новости, новые фильтры и ускорение

PubMag растёт: 4000 доменов, новости, новые фильтры и ускорение

За прошедший месяц произошло несколько изменений, о которых хочу отчитаться. Расширилась база данных, улучшились интерфейсы, ускорились процессы и — куда же без этого — появились новые баги.

📈 Динамика базы и сборов

  • База данных по хедер-биддинг аукционам превысила 4000 уникальных доменов. Спасибо пиратам!
  • Собрано более 2000 поисковых запросов, из которых меньше половины обработано и размечено для вайтлистов — здесь предстоит масштабная работа, хотя процесс уже максимально автоматизирован.
Контекстуальные вайтлисты

🧩 Улучшения в конструкторе вайтлистов

В интерфейс фильтрации добавлена проверка по стране через .RU-домены. Планируется добавить:

  • Кнопку дозагрузки доменов по текущим фильтрам
  • Возможность скрывать сервисные сайты (Telegram, Wikipedia и подобные)
  • Фильтр сайтов с подтверждённой рекламной активностью. Активность будет определяться не наличием библиотеки header-bidding.js, которая может быть скрыта, а совокупностью нескольких сигналов. Профиль монетизации на странице доменов также будет обновлён. Кстати, цель этого профиля — говорить с посетителем на человеческом языке, а не сухими отчётами. Возможно, такой подход станет основным.

🕵️ Даты обновления и прозрачность

Теперь на странице доменов отображается дата получения последнего отчёта, что позволяет оценить актуальность информации.

Бюро кото-разметки: поисковые запросы в дело

🧠 LibTracker: библиотеки, синки и ускорение

  • В LibTracker добавлено более 100 новых библиотек (в 3 раза больше прежнего), куки-синков и вспомогательных решений.
  • Оптимизирован движок обхода — он стал быстрее и эффективнее расходует ресурсы.

Топ-10 сайтов по количеству обнаруженных технологий:

  1. elc-russia.ru — 39
  2. paparazzi.ru — 37
  3. tennis-score.pro — 36
  4. starhit.ru — 37
  5. calend.ru — 35
  6. prigotoovim.ru — 34
  7. maximonline.ru — 34
  8. ngs24.ru — 34
  9. ormatek-com — 34
  10. russian7.ru — 33

В дальнейшем планируется точнее разделять настоящие библиотеки, куки-синки и другие вспомогательные запросы. Иначе получается так, что картина на одном и том же сайте может быть разная и как пример — «Детский мир»: elc-russia.ru и detmir.ru. Отчеты не совпадают, хотя это один и тот же сайт.

📰 Новости и Telegram-бот

Раздел коротких новостей получил обновления:

  • Внедрён Telegram-бот для быстрого добавления новостей
  • Обновлена главная страница новостей
  • Настроено автоматическое тегирование с минимальной ручной корректировкой

После нескольких итераций развития раздела приоритетными стали стабильность работы и расширение контента.

🔐 Авторизация: проблемы с Gmail

Вход через Magic Link работает нестабильно для пользователей Gmail — письма часто не доставляются. Пока не найден способ борьбы с этой проблемой.

🏠 Сервер и автоматизация

  • Настроен модуль удалённого управления на домашнем сервере и запущен рабочий Telegram-бот для команды AstraLab.
  • Готовится перенос LibTracker на домашний сервер по примеру HBTracker для автоматизации сбора данных.
Автономная работа HBTracker

📊 Чарты и страницы технологий

Завершается редизайн модуля чартов. После оптимизации базы появится возможность показывать полные списки сайтов для каждой технологии, а не только последние 50. Аналогичные изменения планируются для данных LibTracker.

Такими были конец апреля — начало мая. Приходите общаться, мне очень нужна обратная связь! Всем денег и знаний!

Итоги января и планы на февраль Январские каникулы Как я связал данные из HBTracker и LibTracker и что из этого получается Осеннее обновление инструментов для анализа рекламы