Команда рассказывает, как за 1,5 года выстроила LLM-инфраструктуру и ИИ-агентов вокруг PostgreSQL: от «RAG на одной 1×A100 80GB в VK Cloud» до продового AskPostgres на сервере 2×A100 и подготовки к апгрейду на 8×H200 (план — запуск моделей уровня Qwen3-235B и дообучение меньших моделей под узкие задачи).Ключевой вывод: выбор «самой сильной модели» вторичен — важнее контекст-менеджмент, агентная архитектура, инструменты и измерение поведения системы. В качестве базовых компонентов описаны RAG/Graph-RAG и агентный слой на MCP с формальными ограничениями вывода.Retrieval: индексация документации и знаний в pgvector, эмбеддер BGE-M3 (dense+sparse) вместо связки BM25+dense.Инструменты: ReAct-агент через MCP ходит в PostgreSQL, web-поиск и SQL-executor; для кода строят граф знаний в Apache AGE.Инференс: уход от Ollama к vLLM; при сравнении с SGLang/TensorRT-LLM решающими стали поддержка широкого спектра моделей с Hugging Face, CPU-инференс и активность комьюнити.Эксперименты: fine-tuning делают только при наличии мощностей/данных/бенчмарка; методологию обкатывают на Qwen-0.6B (SFT+GRPO), тестировали QLoRA на Qwen2.5-14B для стабилизации формата.Прод-метрики: в многопользовательском тесте среднее время ответа с поиском по документации ~18 с, p95 ~60 с; ресурсы маршрутизируют через LiteLLM, логирование перевели на PostgreSQL после проблем с утечкой памяти в LangFuse.