Data Forge: Собираем весь современный дата-стек на своем ноутбуке одной командой
Data Forge — pre-конфигурированная «песочница» для дата-инженеров, запускающая полный современный стек одной командой в Docker. За 5–10 минут поднимаются ~12 контейнеров и автоматически связываются между собой. Стек включает: PostgreSQL; Kafka с Debezium (CDC) и ksqlDB для стриминга; Spark с JupyterLab для batch-обработки; MinIO (S3) как data lake; Trino для федеративных SQL-запросов; dbt для T в ELT; Great Expectations для контроля качества данных; Airflow для оркестрации; Superset для BI.
- Цель: снизить порог входа, ускорить обучение, прототипирование и отладку пайплайнов на ноутбуке.
- Сценарии: отслеживание изменений в Postgres → CDC в Kafka → обработка PySpark → запись Parquet в MinIO → запросы в Trino → дашборды в Superset; запуск по расписанию через Airflow.
- Доступ: localhost (например, JupyterLab — 8888, Superset — 8088, MinIO — 9001).
- Ограничения: не для продакшена; требовательность к ресурсам (минимум 16 ГБ ОЗУ, рекомендуется 32 ГБ); на слабых машинах — частичный запуск сервисов.
- Ключевая ценность: «одна команда» (docker compose up -d) вместо долгой ручной сборки стека.
Читайте также
Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
«Вам нужны партнеры, а не подрядчики»: как запустить ИИ-проект, который принесет реальную пользу бизнесу
Создание максимально стабильной автоматизированной торговой системы: от бэктеста до реального бота
Лучшие практики работы с агентами для написания кода
Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
Ключевые инсайты из новости (по версии ChatGPT)
- Data Forge: локальная дата-песочница одной командой: Pre-конфигурированный OSS-стек для прототипирования: за 5–10 минут поднимает около 12 контейнеров и автоматически связывает их. Подходит для обучающих сред, быстрых POC и отладки пайплайнов на ноутбуке.
[Инструмент]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!