Выбор LLM и фреймворка для ИИ-агентов

Команда рассказывает, как за 1,5 года выстроила LLM-инфраструктуру и ИИ-агентов вокруг PostgreSQL: от «RAG на одной 1×A100 80GB в Cloud» до продового AskPostgres на сервере 2×A100 и подготовки к апгрейду на 8×H200 (план — запуск моделей уровня Qwen3-235B и дообучение меньших моделей под узкие задачи).

Ключевой вывод: выбор «самой сильной модели» вторичен — важнее контекст-менеджмент, агентная архитектура, инструменты и измерение поведения системы. В качестве базовых компонентов описаны RAG/Graph-RAG и агентный слой на MCP с формальными ограничениями вывода.

  • Retrieval: индексация документации и знаний в pgvector, эмбеддер BGE-M3 (dense+sparse) вместо связки BM25+dense.
  • Инструменты: ReAct-агент через MCP ходит в PostgreSQL, web-поиск и SQL-executor; для кода строят граф знаний в Apache AGE.
  • Инференс: уход от Ollama к vLLM; при сравнении с SGLang/TensorRT-LLM решающими стали поддержка широкого спектра моделей с Hugging Face, CPU-инференс и активность комьюнити.
  • Эксперименты: fine-tuning делают только при наличии мощностей/данных/бенчмарка; методологию обкатывают на Qwen-0.6B (SFT+GRPO), тестировали QLoRA на Qwen2.5-14B для стабилизации формата.
  • Прод-метрики: в многопользовательском тесте среднее время ответа с поиском по документации ~18 с, p95 ~60 с; ресурсы маршрутизируют через LiteLLM, логирование перевели на PostgreSQL после проблем с утечкой памяти в LangFuse.

Читайте также

  1. Базовый RAG-компонент для локального семантического поиска на Python
  2. Что меня беспокоит в агентской разработке: заметки инженера в 2026 году
  3. Ваш ноутбук пока не готов к LLM, но скоро это изменится
  4. Новый агент Optable призван снизить нагрузку на планирование рекламы у паблишеров
  5. Список дел в формате RPG, экспресс-чтение по 5 минут в день и ещё 8 российских стартапов
Ключевые инсайты из новости (по версии ChatGPT)
  • Принцип проектирования: модель вторична, контекст и архитектура первичны: При выборе LLM для продовой системы решающим фактором становится не «самая умная модель», а то, как устроены контекст-менеджмент, инструменты, память и измерение поведения агента. Даже сильная модель деградирует без правильной работы с контекстом и контрактов вызова инструментов; поэтому сначала проектируется система, а модель — сменный компонент.
    [Агентная архитектура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!