Data Forge: Собираем весь современный дата-стек на своем ноутбуке одной командой

Data Forge — pre-конфигурированная «песочница» для дата-инженеров, запускающая полный современный стек одной командой в Docker. За 5–10 минут поднимаются ~12 контейнеров и автоматически связываются между собой. Стек включает: PostgreSQL; Kafka с Debezium (CDC) и ksqlDB для стриминга; Spark с JupyterLab для batch-обработки; MinIO (S3) как data lake; Trino для федеративных SQL-запросов; dbt для T в ELT; Great Expectations для контроля качества данных; Airflow для оркестрации; Superset для BI.

  • Цель: снизить порог входа, ускорить обучение, прототипирование и отладку пайплайнов на ноутбуке.
  • Сценарии: отслеживание изменений в Postgres → CDC в Kafka → обработка PySpark → запись Parquet в MinIO → запросы в Trino → дашборды в Superset; запуск по расписанию через Airflow.
  • Доступ: localhost (например, JupyterLab — 8888, Superset — 8088, MinIO — 9001).
  • Ограничения: не для продакшена; требовательность к ресурсам (минимум 16 ГБ ОЗУ, рекомендуется 32 ГБ); на слабых машинах — частичный запуск сервисов.
  • Ключевая ценность: «одна команда» (docker compose up -d) вместо долгой ручной сборки стека.
Ключевые инсайты из новости (по версии ChatGPT)
  • Data Forge: локальная дата-песочница одной командой: Pre-конфигурированный OSS-стек для прототипирования: за 5–10 минут поднимает около 12 контейнеров и автоматически связывает их. Подходит для обучающих сред, быстрых POC и отладки пайплайнов на ноутбуке.
    [Инструмент]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!