ИИ-агенты: как мы сделали DeepResearch по корпоративным данным и кодовой базе

22.01.2026 • Хабр

В Яндексе описали, как собрали внутренний DeepResearch (DeepAgent) для ответа на сложные вопросы по корпоративным данным и кодовой базе. Через три месяца автор отмечает сокращение времени поиска и заметную экономию рабочих часов.

Задача: внешние DeepResearch-режимы (ChatGPT, Perplexity, Gemini) не имеют доступа к корпоративным данным; поэтому сделана внутренняя версия Deep Agent Yandex Team Ru для сотрудников.
Эффект через 3 месяца: типичный ответ на внутренний вопрос ускорился с 10–20 минут до 30–60 секунд; оценка экономии — около 240 рабочих часов в день.
Техническая схема: бэкенд DeepAgent обращается к локально поднятому поиску и инструменту поиска по внутренней Вики; агент сам решает, когда искать и когда отвечать, через системный промпт.
Оценка качества: введены «корзинки» вопросов (простые и сложные, где ручной поиск занимает 20–60 минут) и автоматическая проверка LLM-as-a-judge с регулярной ручной перепроверкой.
Рост качества: используются few-shot примеры в промпте и полное логирование запросов/ошибок; позже добавлено дообучение на отобранных траекториях действий разных LLM.
Дальше: автор описывает планы расширить агент на инфраструктурные источники (Kubernetes, дашборды, графики, логи, Nirvana-графы) и длинные сценарии; цель — «единое окно» для сотрудников.

Почему это важно: кейс показывает, что ценность DeepResearch часто упирается в доступ к корпоративным данным и качество поиска по внутренним источникам, а не только в «умение говорить». Отдельно подчёркнуты практики эвалов и логирования как способ держать качество под контролем при частых изменениях системы.

На что обратить внимание: в тексте разделяются RAG, фиксированные AI workflow и агентный подход — различие связано с тем, кто выбирает шаги и инструменты при ответе. В описании качества много опоры на «корзинки» и на проверяемого LLM-судью, что задаёт рамки для сравнения версий. Также отдельно отмечена разница между Tool Calling и Code Execution как влияющая на скорость, ресурсы и устойчивость ответа.

PubMag

ИИ-агенты: как мы сделали DeepResearch по корпоративным данным и кодовой базе

Читайте также