Создаём пет-проект по аналитике с GitHub Actions: часть 2

Автор продолжает разбирать GitHub Actions на примере пет-проекта аналитики: ежедневный сбор метрик -каналов и базовая визуализация. Главный итог — показан каркас для регулярного обновления данных и демонстрации результата.

  • Фокус части — выбор темы проекта и источника данных, а также логика сбора и представления результатов.
  • «Хороший» проект описывается как задача с реальными данными, использованием нескольких инструментов (например, SQL, Python, Git, Excel), наличием проблемы и применимых выводов.
  • Пример постановки — мониторинг Telegram-каналов (рост, охваты, частота публикаций, темы, вовлечённость, ключевые слова, наличие реклам), но в этой части разбирается только сбор числа подписчиков и немного визуализации.
  • Для Telegram сравниваются варианты Telethon и парсинг HTML-страниц; в опыте автора сбор через Telethon приводил к разлогированию и блокировке аккаунта примерно на 30 минут из-за повторяющихся запросов.
  • В результате выбран парсинг HTML-страниц Telegram-каналов и показан каркас проекта: ежедневный запуск, сохранение данных в CSV и пример графика динамики подписчиков за последние 30 дней.

Почему это важно: Связка планировщика в репозитории и скриптов превращает разрозненные шаги в повторяемый процесс: от получения данных до графика. Такой каркас регулярного сбора данных помогает сделать портфолио-проект ближе к реальности и понятнее для ревью. Также это демонстрирует практику упаковки результата в формат, который удобно читать.

На что обратить внимание: В тексте описан сбор только числа подписчиков, поэтому интерпретации ограничены и без дополнительных метрик остаются поверхностными. В постановке задачи подразумевается ежедневный сбор без необходимости глубоко уходить в историю, и это влияет на выбор метода. Также отмечается, что повторяющиеся запросы могут приводить к ограничениям доступа, поэтому устойчивость источника и сценария сбора выступает важным допущением.

Читайте также

  1. Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
  2. Как в Авито обеспечивают self-service разработки и деплоя витрин
  3. Создание максимально стабильной автоматизированной торговой системы: от бэктеста до реального бота
  4. Автоматизация деплоя с GitHub Actions: пошаговое руководство для начинающих
  5. Новые навыки для Claude Code: systematic-debugging, senior-devops, senior-prompt-engineer
Ключевые инсайты из новости (по версии ChatGPT)
  • Выбор метода сбора данных из Telegram: Telethon vs парсинг HTML-страниц: В одном из примеров сравниваются два подхода к сбору данных из Telegram: через Python-библиотеку Telethon (официальный/аккаунтный сценарий) и через парсинг публичных HTML-страниц канала. По описанному опыту, повторяющиеся запросы и регулярный сбор могут приводить к разлогированию и временным ограничениям аккаунта, поэтому для ежедневного мониторинга без глубокой истории автор склоняется к HTML-парсингу как более простому сценарию.
    [Сбор данных / Telegram]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!