Выбор LLM и фреймворка для ИИ-агентов
Команда рассказывает, как за 1,5 года выстроила LLM-инфраструктуру и ИИ-агентов вокруг PostgreSQL: от «RAG на одной 1×A100 80GB в
VK Cloud» до продового AskPostgres на сервере 2×A100 и подготовки к апгрейду на 8×H200 (план — запуск моделей уровня Qwen3-235B и дообучение меньших моделей под узкие задачи).
Ключевой вывод: выбор «самой сильной модели» вторичен — важнее контекст-менеджмент, агентная архитектура, инструменты и измерение поведения системы. В качестве базовых компонентов описаны RAG/Graph-RAG и агентный слой на MCP с формальными ограничениями вывода.
- Retrieval: индексация документации и знаний в pgvector, эмбеддер BGE-M3 (dense+sparse) вместо связки BM25+dense.
- Инструменты: ReAct-агент через MCP ходит в PostgreSQL, web-поиск и SQL-executor; для кода строят граф знаний в Apache AGE.
- Инференс: уход от Ollama к vLLM; при сравнении с SGLang/TensorRT-LLM решающими стали поддержка широкого спектра моделей с Hugging Face, CPU-инференс и активность комьюнити.
- Эксперименты: fine-tuning делают только при наличии мощностей/данных/бенчмарка; методологию обкатывают на Qwen-0.6B (SFT+GRPO), тестировали QLoRA на Qwen2.5-14B для стабилизации формата.
- Прод-метрики: в многопользовательском тесте среднее время ответа с поиском по документации ~18 с, p95 ~60 с; ресурсы маршрутизируют через LiteLLM, логирование перевели на PostgreSQL после проблем с утечкой памяти в LangFuse.
Читайте также
Новый релиз Ollama 0.15.5
Заглянуть под капот ИИ-агентов: новый инструмент раскрывает «магию» Claude Code
Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)
ИИ-наставник для онбординга: как собрать ИИ-агента для адаптации новых сотрудников в компании
Протокольные войны agentic-commerce приходят в e-commerce; Perplexity говорит, что реклама подрывает доверие к AI
Ключевые инсайты из новости (по версии ChatGPT)
- Принцип проектирования: модель вторична, контекст и архитектура первичны: При выборе LLM для продовой системы решающим фактором становится не «самая умная модель», а то, как устроены контекст-менеджмент, инструменты, память и измерение поведения агента. Даже сильная модель деградирует без правильной работы с контекстом и контрактов вызова инструментов; поэтому сначала проектируется система, а модель — сменный компонент.
[Агентная архитектура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!