Retrieval-Augmented Generation (RAG): глубокий технический обзор

31.07.2025 •

Материал даёт практическую карту по Retrieval-Augmented Generation (RAG) — архитектуре, совмещающей поиск и генерацию для актуальных и проверяемых ответов. Подход предложен в 2020 году как альтернатива «запеканию» знаний в параметры LLM: данные хранятся во внешней базе и подтягиваются на лету.

Архитектура: офлайн-ингест и индексирование (разбиение на фрагменты с оверлэпом, эмбеддинги), векторные БД (Faiss, Milvus, Qdrant, Pinecone, Weaviate, Chroma, pgVector/OpenSearch), онлайн-retrieval (top-K, HNSW, гибридный поиск, re-rank), генерация ответов LLM. Примеры стеков и кода даны для LangChain и LlamaIndex; также упомянуты Haystack, Transformers и OpenAI API.

Best practices: качественные доменные эмбеддинги, двухступенчатый поиск (vector→rerank), регулярная переиндексация, контроль размера контекста (сжатие, ChunkRAG/LongRAG, модели с длинным окном), оптимизация латентности (настройки индексов, кеш, асинхронность), цитирование источников.
Оценка качества: RAGAS (accuracy, relevance, context precision/recall) для автоматизированной метрики.
Безопасность и комплаенс: self-hosted RAG, разграничение доступа, журналирование выборок.
Стратегия: когда выбирать RAG vs. fine-tuning; гибрид (дообучение стиля + RAG для фактов).
Тренды: Agentic RAG, Multimodal RAG, contextual compression, ReAct/Astute RAG.

PubMag

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Читайте также