От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

25.05.2026 • Хабр

Кейс LLMStart.ru для Айтона: бот-консультант по 1С:УНФ прошёл путь от простого RAG-прототипа до клиентского AI-агента в продакшне. Главная логика проекта — сначала данные, датасеты и метрики, потом усложнение архитектуры.

Айтон обрабатывает большой поток вопросов по 1С:УНФ: около 6 тыс. обращений в день и до 100 тыс. в месяц, причём примерно половина требует реальной работы консультанта, а 40–50% таких вопросов повторяются. Первый PoC не пытались делать мини-версией будущего продукта: оставили простую RAG-цепочку с поиском по базе знаний, ответом через LLM, источниками и обратной связью в Telegram, а ключевые усилия направили на валидационный датасет, автоматические метрики и мониторинг запросов.

Данные собрали из реальных диалогов поддержки и базы знаний: около 25 тыс. сообщений превратились в 618 окон контекста, 1 985 черновых пар вопрос-ответ и 972 пары после фильтрации по стандартному функционалу 1С:УНФ. Для оценки прототипа сделали 110 проверочных пар, использовали LangFuse для трассировки и Ragas для метрик; прогон стоил около $1.54, Faithfulness был около 0.8, Answer Correctness — 0.53, а дополнительный тест Айтона для найма консультантов бот прошёл успешно.

После реальной эксплуатации прямой RAG расширили до агента: добавили память и context engineering, работу со скриншотами через мультимодальную модель, уточняющие вопросы через системный промпт, суб-агента для проверки несуществующего функционала и расширение базы через транскрипции видеоуроков. Агент собран на LangChain 1.0, в финальной версии использует Gemini 3.1 Pro, а качество оценивается не только базовыми RAG-метриками, но и метриками выбора инструментов, уточнений, Hit Rate@k, MRR, FuzzyToolCallF1 и verdict_l1_accuracy; сейчас сервис выведен наружу с биллингом и собственной монетизацией.

Коротко

Айтон получает около 6 тыс. вопросов в день по 1С:УНФ, а 40–50% реально обрабатываемых обращений повторяются.
PoC строили как простой RAG с поиском по базе знаний, источниками, Telegram-интерфейсом и оценкой качества с первого дня.
Валидация опиралась на 25 тыс. сообщений поддержки, 500 документов базы знаний и 110 проверочных пар вопрос-ответ.
Переход к агенту понадобился для памяти диалога, скриншотов, уточнений, внешнего поиска и проверки отсутствующего функционала.
Агент работает на LangChain 1.0, использует LangFuse и Ragas, а в финальной версии под капотом указан Gemini 3.1 Pro.

FAQ

Зачем Айтону понадобился AI-консультант по 1С:УНФ, если в компании уже была база знаний и штат консультантов?

Компания столкнулась с большим потоком типовых вопросов, общей очередью без приоритизации и долгим обучением новых консультантов. Бот должен был снять рутину и ускорить доступ к знаниям.

Почему проект начали с простого RAG-прототипа, а не сразу с полноценного агента со всеми сценариями?

Команда проверяла центральную гипотезу: достаточно ли LLM и поиска по базе знаний для рабочих ответов консультантам. Историю диалога, скриншоты и крайние случаи отложили, чтобы не смешивать проверку гипотезы с разработкой продукта.

Какие сценарии заставили перейти от прямого RAG-пайплайна к агентной архитектуре с инструментами и памятью?

Реальная эксплуатация выявила многошаговые диалоги, скриншоты, неоднозначную терминологию, запросы о несуществующем функционале и пробелы в базе знаний. Эти задачи требовали памяти, уточнений, мультимодальности и выбора инструментов.

PubMag

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Коротко

FAQ

Зачем Айтону понадобился AI-консультант по 1С:УНФ, если в компании уже была база знаний и штат консультантов?

Почему проект начали с простого RAG-прототипа, а не сразу с полноценного агента со всеми сценариями?

Какие сценарии заставили перейти от прямого RAG-пайплайна к агентной архитектуре с инструментами и памятью?

Читайте также