От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Кейс LLMStart.ru для Айтона: бот-консультант по 1С:УНФ прошёл путь от простого RAG-прототипа до клиентского AI-агента в продакшне. Главная логика проекта — сначала данные, датасеты и метрики, потом усложнение архитектуры.

Айтон обрабатывает большой поток вопросов по 1С:УНФ: около 6 тыс. обращений в день и до 100 тыс. в месяц, причём примерно половина требует реальной работы консультанта, а 40–50% таких вопросов повторяются. Первый PoC не пытались делать мини-версией будущего продукта: оставили простую RAG-цепочку с поиском по базе знаний, ответом через LLM, источниками и обратной связью в Telegram, а ключевые усилия направили на валидационный датасет, автоматические метрики и мониторинг запросов.

Данные собрали из реальных диалогов поддержки и базы знаний: около 25 тыс. сообщений превратились в 618 окон контекста, 1 985 черновых пар вопрос-ответ и 972 пары после фильтрации по стандартному функционалу 1С:УНФ. Для оценки прототипа сделали 110 проверочных пар, использовали LangFuse для трассировки и Ragas для метрик; прогон стоил около $1.54, Faithfulness был около 0.8, Answer Correctness — 0.53, а дополнительный тест Айтона для найма консультантов бот прошёл успешно.

После реальной эксплуатации прямой RAG расширили до агента: добавили память и context engineering, работу со скриншотами через мультимодальную модель, уточняющие вопросы через системный промпт, суб-агента для проверки несуществующего функционала и расширение базы через транскрипции видеоуроков. Агент собран на LangChain 1.0, в финальной версии использует Gemini 3.1 Pro, а качество оценивается не только базовыми RAG-метриками, но и метриками выбора инструментов, уточнений, Hit Rate@k, MRR, FuzzyToolCallF1 и verdict_l1_accuracy; сейчас сервис выведен наружу с биллингом и собственной монетизацией.

Коротко

  • Айтон получает около 6 тыс. вопросов в день по 1С:УНФ, а 40–50% реально обрабатываемых обращений повторяются.
  • PoC строили как простой RAG с поиском по базе знаний, источниками, Telegram-интерфейсом и оценкой качества с первого дня.
  • Валидация опиралась на 25 тыс. сообщений поддержки, 500 документов базы знаний и 110 проверочных пар вопрос-ответ.
  • Переход к агенту понадобился для памяти диалога, скриншотов, уточнений, внешнего поиска и проверки отсутствующего функционала.
  • Агент работает на LangChain 1.0, использует LangFuse и Ragas, а в финальной версии под капотом указан Gemini 3.1 Pro.

FAQ

Зачем Айтону понадобился AI-консультант по 1С:УНФ, если в компании уже была база знаний и штат консультантов?

Компания столкнулась с большим потоком типовых вопросов, общей очередью без приоритизации и долгим обучением новых консультантов. Бот должен был снять рутину и ускорить доступ к знаниям.

Почему проект начали с простого RAG-прототипа, а не сразу с полноценного агента со всеми сценариями?

Команда проверяла центральную гипотезу: достаточно ли LLM и поиска по базе знаний для рабочих ответов консультантам. Историю диалога, скриншоты и крайние случаи отложили, чтобы не смешивать проверку гипотезы с разработкой продукта.

Какие сценарии заставили перейти от прямого RAG-пайплайна к агентной архитектуре с инструментами и памятью?

Реальная эксплуатация выявила многошаговые диалоги, скриншоты, неоднозначную терминологию, запросы о несуществующем функционале и пробелы в базе знаний. Эти задачи требовали памяти, уточнений, мультимодальности и выбора инструментов.

Читайте также

  1. Память на миллион токенов, а толку ноль: как ИИ-агента спасали от «тупости»
  2. Самохостный AI-агент на почте, systemd и LLM
  3. Тестируем MVP в 4 раза быстрее: как нейросети изменили жизнь предпринимателей
  4. Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов
  5. Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
Ключевые инсайты из новости (по версии ChatGPT)
  • PoC для RAG-системы должен проверять одну центральную гипотезу: При запуске LLM-ассистента не стоит сразу делать уменьшенную копию будущего продукта со всеми сценариями. В кейсе Айтона первый этап проверял только то, дают ли LLM и поиск по базе знаний ответы уровня, достаточного для работы консультантов; историю диалога, скриншоты и крайние случаи сознательно отложили.
    [AI / RAG / PoC]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!