Data Forge: Собираем весь современный дата-стек на своем ноутбуке одной командой

05.10.2025 •

Data Forge — pre-конфигурированная «песочница» для дата-инженеров, запускающая полный современный стек одной командой в Docker. За 5–10 минут поднимаются ~12 контейнеров и автоматически связываются между собой. Стек включает: PostgreSQL; Kafka с Debezium (CDC) и ksqlDB для стриминга; Spark с JupyterLab для batch-обработки; MinIO (S3) как data lake; Trino для федеративных SQL-запросов; dbt для T в ELT; Great Expectations для контроля качества данных; Airflow для оркестрации; Superset для BI.

Цель: снизить порог входа, ускорить обучение, прототипирование и отладку пайплайнов на ноутбуке.
Сценарии: отслеживание изменений в Postgres → CDC в Kafka → обработка PySpark → запись Parquet в MinIO → запросы в Trino → дашборды в Superset; запуск по расписанию через Airflow.
Доступ: localhost (например, JupyterLab — 8888, Superset — 8088, MinIO — 9001).
Ограничения: не для продакшена; требовательность к ресурсам (минимум 16 ГБ ОЗУ, рекомендуется 32 ГБ); на слабых машинах — частичный запуск сервисов.
Ключевая ценность: «одна команда» (docker compose up -d) вместо долгой ручной сборки стека.

Ключевые инсайты из новости (по версии ChatGPT)

Data Forge: локальная дата-песочница одной командой: Pre-конфигурированный OSS-стек для прототипирования: за 5–10 минут поднимает около 12 контейнеров и автоматически связывает их. Подходит для обучающих сред, быстрых POC и отладки пайплайнов на ноутбуке.
[Инструмент]

Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться

Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.

#Хабр #etl #data-integration #docker-deploy #open-source-infrastructure #apache-superset #kafka #postgresql #data-visualization #cdc #event-driven-architecture #apache-airflow #dbt #trino #minio #apache-spark #debezium #data-engineering #local-data-stack

← Назад в ленту Читать оригинал →

✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!