Hybrid RAG для бизнеса: умный поиск по документам без облака и утечки данных

17.04.2026 • Хабр

Разбор self-hosted Hybrid RAG для корпоративного поиска по документам: система совмещает смысловой и точный поиск, rerank и локальные LLM, чтобы отвечать по архивам без передачи данных в облако.

Hybrid RAG нужен там, где корпоративная база состоит не из одного чистого FAQ, а из договоров, регламентов, переписки, PDF, Word-файлов, сканов и таблиц. В таких архивах запрос может одновременно требовать понимания смысла и точного совпадения по коду, числу или артикулу, поэтому одного семантического поиска недостаточно.

До генерации ответа система сначала ищет релевантные фрагменты: dense- и sparse-векторы строятся через BAAI/bge-m3, Qdrant выполняет гибридный поиск, RRF объединяет результаты, а cross-encoder проверяет, действительно ли найденный текст отвечает на вопрос. Модель получает не весь архив, а уже отфильтрованный контекст, поэтому может ссылаться на конкретный документ и страницу или честно сказать, что данных недостаточно.

Для локального контура предлагается стек из Docling, Qwen2.5-VL, Qdrant, FastEmbed, bge-reranker-v2-m3, LangGraph, Haystack и Langfuse. Практический компромисс — стартовать с Qwen2.5-32B на одной L40S: это дешевле, чем 72B на двух A100, и, по оценке автора, даёт около 90% качества флагманской версии на большинстве реальных задач.

Коротко

Hybrid RAG рассчитан на смешанные архивы: PDF, Word, сканы, таблицы, двуязычные документы и запросы с кодами или числами.
В пайплайне dense/sparse поиск в Qdrant объединяется через RRF, затем cross-encoder проверяет топ-фрагменты на соответствие вопросу.
Docling нормализует сканы и layout, а Qwen2.5-VL локально читает рукописные пометки, маркировку и сложные таблицы.
Self-hosted reranker добавляет 150–400 мс задержки; облачный Voyage AI быстрее, но требует отправлять данные во внешний API.
LangGraph описывает логику живого запроса, Haystack нужен для eval-тестов до production, Langfuse — для локального трейсинга.

FAQ

Зачем компании нужен Hybrid RAG, если уже есть классическая СЭД, поиск по SharePoint или обычный корпоративный AI-ассистент?

Он нужен, когда документы разнородные, часть данных хранится в сканах и таблицах, а вопросы требуют одновременно смысла и точного совпадения. Обычный поиск и простой RAG хуже справляются с такими запросами.

Чем локальный Hybrid RAG отличается от подключения ChatGPT или другого облачного AI-сервиса к корпоративным документам?

Ключевое отличие — данные не покидают периметр компании при индексировании, поиске и генерации ответа. Это важно для банков, медицины, таможни и юридических сценариев.

Почему в архитектуре используются и LangGraph, и Haystack, если оба инструмента связаны с RAG-пайплайнами?

LangGraph управляет логикой запроса в реальном времени: повторный поиск, пороги rerank, ответ при нехватке данных. Haystack используется до production для оценки качества изменений на контрольных вопросах.

PubMag

Hybrid RAG для бизнеса: умный поиск по документам без облака и утечки данных

Коротко

FAQ

Зачем компании нужен Hybrid RAG, если уже есть классическая СЭД, поиск по SharePoint или обычный корпоративный AI-ассистент?

Чем локальный Hybrid RAG отличается от подключения ChatGPT или другого облачного AI-сервиса к корпоративным документам?

Почему в архитектуре используются и LangGraph, и Haystack, если оба инструмента связаны с RAG-пайплайнами?

Читайте также