Живое знание как процессный движок для импорта данных
Статья описывает «живое знание» как управляемый движок импорта данных, где решения принимают детерминированные правила, а LLM выступает ассистентом. В центре — Онто как модель знаний (DatasetSignature, DatasetClass, PipelineTemplate, RecognitionResult), MCP как оркестратор шагов и связка MinIO → Airflow (единый DAG csv_ingest_pg) → Postgres. Подход “storage-first” и presigned PUT/GET исключают проксирование тяжёлых данных, снижают TCO и риски.
- Сигнатуры датасетов (нормализованный хедер, хэши, типы, PII-флаги) обеспечивают воспроизводимость и авто-маршрутизацию; класс не найден — создаётся draft с порогами и объяснимостью (matchedBy, score).
- Один универсальный DAG (profile → DDL → COPY → отчёт) заменяет «зоопарк» скриптов; параметры (sep, encoding, target) приходят из знаний.
- Качество гарантируется самопроверками (например, совпадение структуры строк ≥95%) и политиками no-overwrite; PII управляется на уровне шаблонов.
- Экономика: бОльшая часть труда — в переиспользуемых классах/шаблонах; MVP возможен за 3 дня одним экспертом, далее масштабирование — через пополнение Онто, а не переписывание конвейера.
Практическая ценность для корп-среды: трассируемость («почему так»), предсказуемость (порог/джаккард/хэши), снижение MTTR и затрат на поддержку. LLM применён для генерации болванок, документации и диагностики, но не принимает критических решений.
Читайте также
Сделано нейросетью: кому обязательна маркировка ИИ-контента и как она регулируется в России и мире
Большие языковые модели избыточны для некоторых маркетинговых задач. На смену приходят малые модели
Как ставка по вкладу Сбера менялась в зависимости от баланса карты
Как я выстроил систему для работы с контентом
Голливуд становится всё страннее; факты и фантомы
Ключевые инсайты из новости (по версии ChatGPT)
- Storage-first и presigned-загрузка: Тяжёлые файлы никогда не проксируются через сервер: загрузка идёт напрямую в S3-совместимое хранилище по presigned PUT/GET. Это снижает сетевые риски, затраты и упрощает эксплуатацию импорта.
[Архитектура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!