Автономная работа HBTracker
Дата публикации: 2025-03-06 | Источник: PubMag
Пришло время отчитаться за февраль, который оказался продуктивным месяцем, несмотря на его краткость. Основной фокус был направлен на автоматизацию процессов, оптимизацию работы базы данных и увеличение объема обрабатываемых доменов.
✅ Что получилось в феврале
- Полностью автоматизирован процесс работы HBTracker — сервис теперь работает без ручного вмешательства, обеспечивая непрерывную работу системы даже в мое отсутствие.
- Скорость вывода статистики на сайте — оптимизирована часть сложных запросов, работа продолжается. Разрабатывается система кеширования запросов для снижения нагрузки на базу и ускорения загрузки страниц.
- Поиск решений для увеличения скорости сбора отчетов — выявлена проблема перегрузки базы данных из-за большого количества запросов. Решение пока не найдено. Саппорт хостинга не отвечает, возможно, потребуется внедрить локальную работу с базой данных или промежуточный буфер.
- Добавлена возможность зарегистрироваться на сайте — зарегистрированные пользователи получат расширенный функционал. На данный момент дополнительные возможности в разработке.
- Благодаря парсингу поисковой выдачи удалось увеличить базу доменов до ±300k — однако текущая архитектура может не справиться с дальнейшим ростом.
- Запущена работа по каталогизации издателей. Пока нет решения для автоматизации ручного труда. Для разметки используется таксономия IAB 3.1
- Развитие Battleboard — мониторинг адаптеров продолжается третий месяц, добавлен новый адаптер DynoTech, общее количество адаптеров достигло 61.
❌ Что не получилось в феврале
- Оптимизировать алгоритм сканирования — высокая нагрузка на БД и избыточный расход трафика остаются критическим узким местом.
- Реализовать автоматизированную разметку сайтов по собранным поисковым запросам — все еще в разработке.
- Разработать масштабируемую архитектуру каталогизатора — автоматизация технически возможна, но требует значительных ресурсов.
- Решить проблему быстрого роста базы доменов — текущая база данных уже показывает проблемы с производительностью.
- Существует проблема с кириллическими и смешанными доменами. Решение пока не найдено.
🚀 Цели на март
- Автоматизировать процесс сбора семантики — это повысит эффективность каталогизатора разметки благодаря дополнительному слою информации.
- Создать поиск по доменам — это упростит работу с сайтами.
- Доработка страницы домена — улучшить интерфейс и функционал.
- Улучшение функционала Luminex — добавить вывод результатов парсинга поисковой выдачи
Яндекс и Google. - Дальнейшая оркестрация процессов сканирования — оптимизировать обработку данных.
- Рефакторинг LibTracker — модуль сбора информации о библиотеках не обновлялся с декабря. Необходимо модернизировать бота и расширить его возможности.
- Развитие продуктовой стратегии и формирование бэклога — исправить недочеты прошлых месяцев.
- Добавление новых возможностей для зарегистрированных пользователей — расширить объем доступных данных.
В феврале удалось достичь нового уровня благодаря автоматизации. Однако я снова уперся в ограничения и потребуется либо опять много менять, либо сосредоточиться на функционале. В марте точно будет много оптимизации того что уже есть, а также я постараюсь добавить много нового!
Battleboard: февраль 2025 — два короля и их свита
Итоги января и планы на февраль
Январские каникулы
Как я связал данные из HBTracker и LibTracker и что из этого получается
Осеннее обновление инструментов для анализа рекламы