Материал даёт практическую карту по Retrieval-Augmented Generation (RAG) — архитектуре, совмещающей поиск и генерацию для актуальных и проверяемых ответов. Подход предложен в 2020 году как альтернатива «запеканию» знаний в параметры LLM: данные хранятся во внешней базе и подтягиваются на лету.Архитектура: офлайн-ингест и индексирование (разбиение на фрагменты с оверлэпом, эмбеддинги), векторные БД (Faiss, Milvus, Qdrant, Pinecone, Weaviate, Chroma, pgVector/OpenSearch), онлайн-retrieval (top-K, HNSW, гибридный поиск, re-rank), генерация ответов LLM. Примеры стеков и кода даны для LangChain и LlamaIndex; также упомянуты Haystack, Transformers и OpenAI API.Best practices: качественные доменные эмбеддинги, двухступенчатый поиск (vector→rerank), регулярная переиндексация, контроль размера контекста (сжатие, ChunkRAG/LongRAG, модели с длинным окном), оптимизация латентности (настройки индексов, кеш, асинхронность), цитирование источников.Оценка качества: RAGAS (accuracy, relevance, context precision/recall) для автоматизированной метрики.Безопасность и комплаенс: self-hosted RAG, разграничение доступа, журналирование выборок.Стратегия: когда выбирать RAG vs. fine-tuning; гибрид (дообучение стиля + RAG для фактов).Тренды: Agentic RAG, Multimodal RAG, contextual compression, ReAct/Astute RAG.