Hybrid RAG для бизнеса: умный поиск по документам без облака и утечки данных

Разбор self-hosted Hybrid RAG для корпоративного поиска по документам: система совмещает смысловой и точный поиск, rerank и локальные LLM, чтобы отвечать по архивам без передачи данных в облако.

Hybrid RAG нужен там, где корпоративная база состоит не из одного чистого FAQ, а из договоров, регламентов, переписки, PDF, Word-файлов, сканов и таблиц. В таких архивах запрос может одновременно требовать понимания смысла и точного совпадения по коду, числу или артикулу, поэтому одного семантического поиска недостаточно.

До генерации ответа система сначала ищет релевантные фрагменты: dense- и sparse-векторы строятся через BAAI/bge-m3, Qdrant выполняет гибридный поиск, RRF объединяет результаты, а cross-encoder проверяет, действительно ли найденный текст отвечает на вопрос. Модель получает не весь архив, а уже отфильтрованный контекст, поэтому может ссылаться на конкретный документ и страницу или честно сказать, что данных недостаточно.

Для локального контура предлагается стек из Docling, Qwen2.5-VL, Qdrant, FastEmbed, bge-reranker-v2-m3, LangGraph, Haystack и Langfuse. Практический компромисс — стартовать с Qwen2.5-32B на одной L40S: это дешевле, чем 72B на двух A100, и, по оценке автора, даёт около 90% качества флагманской версии на большинстве реальных задач.

Коротко

  • Hybrid RAG рассчитан на смешанные архивы: PDF, Word, сканы, таблицы, двуязычные документы и запросы с кодами или числами.
  • В пайплайне dense/sparse поиск в Qdrant объединяется через RRF, затем cross-encoder проверяет топ-фрагменты на соответствие вопросу.
  • Docling нормализует сканы и layout, а Qwen2.5-VL локально читает рукописные пометки, маркировку и сложные таблицы.
  • Self-hosted reranker добавляет 150–400 мс задержки; облачный Voyage AI быстрее, но требует отправлять данные во внешний API.
  • LangGraph описывает логику живого запроса, Haystack нужен для eval-тестов до production, Langfuse — для локального трейсинга.

FAQ

Зачем компании нужен Hybrid RAG, если уже есть классическая СЭД, поиск по SharePoint или обычный корпоративный AI-ассистент?

Он нужен, когда документы разнородные, часть данных хранится в сканах и таблицах, а вопросы требуют одновременно смысла и точного совпадения. Обычный поиск и простой RAG хуже справляются с такими запросами.

Чем локальный Hybrid RAG отличается от подключения ChatGPT или другого облачного AI-сервиса к корпоративным документам?

Ключевое отличие — данные не покидают периметр компании при индексировании, поиске и генерации ответа. Это важно для банков, медицины, таможни и юридических сценариев.

Почему в архитектуре используются и LangGraph, и Haystack, если оба инструмента связаны с RAG-пайплайнами?

LangGraph управляет логикой запроса в реальном времени: повторный поиск, пороги rerank, ответ при нехватке данных. Haystack используется до production для оценки качества изменений на контрольных вопросах.

Читайте также

  1. Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot
  2. Дружба Linux и Windows, или как поиграться с ИИ-моделями на втором компьютере без видеокарты
  3. Как я локально тестировал новый Qwen 3.6 и Gemma 4
  4. Как Meta* убила Llama, чтобы спасти свой ИИ-бизнес
  5. Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
Ключевые инсайты из новости (по версии ChatGPT)
  • Когда нужен Hybrid RAG вместо обычного RAG: Обычный RAG подходит для однородной базы: FAQ, регламентов или чистых текстовых документов на одном языке. Hybrid RAG полезен для корпоративных архивов, где смешаны договоры, регламенты, переписка, таблицы, сканы и запросы с точными сущностями вроде кодов, чисел и артикулов.
    [AI / RAG / Корпоративный поиск]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!