Hybrid RAG для бизнеса: умный поиск по документам без облака и утечки данных
Hybrid RAG нужен там, где корпоративная база состоит не из одного чистого FAQ, а из договоров, регламентов, переписки, PDF, Word-файлов, сканов и таблиц. В таких архивах запрос может одновременно требовать понимания смысла и точного совпадения по коду, числу или артикулу, поэтому одного семантического поиска недостаточно.
До генерации ответа система сначала ищет релевантные фрагменты: dense- и sparse-векторы строятся через BAAI/bge-m3, Qdrant выполняет гибридный поиск, RRF объединяет результаты, а cross-encoder проверяет, действительно ли найденный текст отвечает на вопрос. Модель получает не весь архив, а уже отфильтрованный контекст, поэтому может ссылаться на конкретный документ и страницу или честно сказать, что данных недостаточно.
Для локального контура предлагается стек из Docling, Qwen2.5-VL, Qdrant, FastEmbed, bge-reranker-v2-m3, LangGraph, Haystack и Langfuse. Практический компромисс — стартовать с Qwen2.5-32B на одной L40S: это дешевле, чем 72B на двух A100, и, по оценке автора, даёт около 90% качества флагманской версии на большинстве реальных задач.
Коротко
- Hybrid RAG рассчитан на смешанные архивы: PDF, Word, сканы, таблицы, двуязычные документы и запросы с кодами или числами.
- В пайплайне dense/sparse поиск в Qdrant объединяется через RRF, затем cross-encoder проверяет топ-фрагменты на соответствие вопросу.
- Docling нормализует сканы и layout, а Qwen2.5-VL локально читает рукописные пометки, маркировку и сложные таблицы.
- Self-hosted reranker добавляет 150–400 мс задержки; облачный Voyage AI быстрее, но требует отправлять данные во внешний API.
- LangGraph описывает логику живого запроса, Haystack нужен для eval-тестов до production, Langfuse — для локального трейсинга.
FAQ
Зачем компании нужен Hybrid RAG, если уже есть классическая СЭД, поиск по SharePoint или обычный корпоративный AI-ассистент?
Он нужен, когда документы разнородные, часть данных хранится в сканах и таблицах, а вопросы требуют одновременно смысла и точного совпадения. Обычный поиск и простой RAG хуже справляются с такими запросами.
Чем локальный Hybrid RAG отличается от подключения ChatGPT или другого облачного AI-сервиса к корпоративным документам?
Ключевое отличие — данные не покидают периметр компании при индексировании, поиске и генерации ответа. Это важно для банков, медицины, таможни и юридических сценариев.
Почему в архитектуре используются и LangGraph, и Haystack, если оба инструмента связаны с RAG-пайплайнами?
LangGraph управляет логикой запроса в реальном времени: повторный поиск, пороги rerank, ответ при нехватке данных. Haystack используется до production для оценки качества изменений на контрольных вопросах.
Читайте также
Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot
Дружба Linux и Windows, или как поиграться с ИИ-моделями на втором компьютере без видеокарты
Как я локально тестировал новый Qwen 3.6 и Gemma 4
Как Meta* убила Llama, чтобы спасти свой ИИ-бизнес
Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
- Когда нужен Hybrid RAG вместо обычного RAG: Обычный RAG подходит для однородной базы: FAQ, регламентов или чистых текстовых документов на одном языке. Hybrid RAG полезен для корпоративных архивов, где смешаны договоры, регламенты, переписка, таблицы, сканы и запросы с точными сущностями вроде кодов, чисел и артикулов.
[AI / RAG / Корпоративный поиск]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Разбор self-hosted Hybrid RAG для корпоративного поиска по документам: система совмещает смысловой и точный поиск, rerank и локальные LLM, чтобы отвечать по архивам без передачи данных в облако.