ИИ-агенты: как мы сделали DeepResearch по корпоративным данным и кодовой базе
- Задача: внешние DeepResearch-режимы (
ChatGPT,
Perplexity,
Gemini) не имеют доступа к корпоративным данным; поэтому сделана внутренняя версия Deep Agent Yandex Team Ru для сотрудников. - Эффект через 3 месяца: типичный ответ на внутренний вопрос ускорился с 10–20 минут до 30–60 секунд; оценка экономии — около 240 рабочих часов в день.
- Техническая схема: бэкенд DeepAgent обращается к локально поднятому поиску и инструменту поиска по внутренней Вики; агент сам решает, когда искать и когда отвечать, через системный промпт.
- Оценка качества: введены «корзинки» вопросов (простые и сложные, где ручной поиск занимает 20–60 минут) и автоматическая проверка LLM-as-a-judge с регулярной ручной перепроверкой.
- Рост качества: используются few-shot примеры в промпте и полное логирование запросов/ошибок; позже добавлено дообучение на отобранных траекториях действий разных LLM.
- Дальше: автор описывает планы расширить агент на инфраструктурные источники (Kubernetes, дашборды, графики, логи, Nirvana-графы) и длинные сценарии; цель — «единое окно» для сотрудников.
Почему это важно: кейс показывает, что ценность DeepResearch часто упирается в доступ к корпоративным данным и качество поиска по внутренним источникам, а не только в «умение говорить». Отдельно подчёркнуты практики эвалов и логирования как способ держать качество под контролем при частых изменениях системы.
На что обратить внимание: в тексте разделяются RAG, фиксированные AI workflow и агентный подход — различие связано с тем, кто выбирает шаги и инструменты при ответе. В описании качества много опоры на «корзинки» и на проверяемого LLM-судью, что задаёт рамки для сравнения версий. Также отдельно отмечена разница между Tool Calling и Code Execution как влияющая на скорость, ресурсы и устойчивость ответа.
Читайте также
Как оптимизация промптов превратилась из шаманства в инженерную дисциплину
Гибридная RAG-база знаний за 15 минут — почему пришлось собрать собственную облегчённую версию RAG и в чем опасность RAG-фреймворков
Четыре проекта на Kwork, которые автор отклонил, и почему
Московский суд оштрафовал Telegram на 35 млн рублей
Собираем LLM-агента на Python
Ключевые инсайты из новости (по версии ChatGPT)
- Критерий необходимости корпоративного DeepResearch: Практический триггер для запуска внутреннего DeepResearch формулируется так: внешние режимы (например, в ChatGPT) не могут отвечать на вопросы о внутренних делах компании, потому что не имеют доступа к корпоративным источникам. В статье этот разрыв связывается с тем, что знания распределены по Вики, документации, почте и чатам, которые недоступны внешним моделям.
[Регламент: когда строить внутренний AI-поиск]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!
В Яндексе описали, как собрали внутренний DeepResearch (DeepAgent) для ответа на сложные вопросы по корпоративным данным и кодовой базе. Через три месяца автор отмечает сокращение времени поиска и заметную экономию рабочих часов.