Память на миллион токенов, а толку ноль: как ИИ-агента спасали от «тупости»

26.05.2026 • Хабр

Кейс LLMStart.ru про корпоративного ИИ-консультанта по 1С:УНФ показывает, что миллионное контекстное окно не спасает агента, если память забита старыми результатами поиска. Главный вывод: качество и стоимость зависят не от размера окна, а от управления контекстом.

Бот для компании Айтон помогает внутренним консультантам и клиентам работать с 1С:Управление нашей фирмой: принимает текстовые вопросы и скриншоты, ищет инструкции в базе знаний и при необходимости вызывает отдельного эксперта для поиска свежей информации. В стеке используются Python, FastAPI, LangChain, Qdrant, Langfuse, OpenRouter, Gemini 3.1 Pro для основного агента и Gemini 3 Flash для лёгких задач вроде пересказа.

Главная проблема оказалась не в самой переписке, а в инструментальных вызовах. На каждый клиентский вопрос агент делает 2–4 тяжёлых запроса в базу знаний, один такой результат занимает около тысячи токенов, а в среднем 93% одного цикла приходится на результаты поиска. К 15-му шагу диалога 83% контекста занимают устаревшие поисковые выгрузки, а самые тяжёлые сессии без оптимизации доходят до 200 тысяч токенов уже на 19-м шаге.

Авторы сравнили четыре режима на сценарии из 40 реальных вопросов: baseline, только очистка результатов поиска, trimming + clearing и summary + clearing. Обрезка сократила контекст до 15.1K токенов, но подняла стоимость сессии до $1.33 из-за поломки префиксного кэша; суммаризация с очисткой дала 12.9K токенов и снизила стоимость до $0.87. Поэтому для коротких внутренних диалогов оставили обрезку, для длинных клиентских — суммаризацию, очистку поисковых результатов включили всегда, а свежую проверку фактов вынесли в изолированного субагента без общей истории.

Коротко

В кейсе разобрали более 300 реальных сессий ИИ-консультанта по 1С:УНФ и структуру токенов в каждом цикле вопрос-ответ.
В среднем один цикл занимает около 2000 токенов, при этом 93% приходится на результаты поиска, а не на диалог пользователя с ботом.
К 15-му шагу диалога 83% контекста уже занимают устаревшие поисковые выгрузки, которые мешают текущему ответу.
На тесте из 40 вопросов summary + clearing снизил итоговую стоимость до $0.87, а trimming + clearing поднял её до $1.33.
Изолированный эксперт-субагент получает только конкретный вопрос, ищет свежие факты и не тащит мусор в память основного агента.

FAQ

Зачем чистить контекст ИИ-агента, если у современных моделей уже есть окна на миллион токенов и больше?

Большое окно не означает, что модель одинаково хорошо работает со всем объёмом текста. В кейсе старые результаты поиска создавали шум, ухудшали фокус агента и делали качество зависимым от конкретной модели.

Почему обрезка истории может увеличить стоимость сессии, хотя она сокращает количество токенов в запросе?

Обрезка меняет начало переписки и ломает префиксный кэш провайдера. Из-за этого меньше токенов может считаться по более дорогому тарифу, а итоговая стоимость растёт.

Как в кейсе распределили разные способы управления памятью между внутренними консультантами и клиентами?

Для коротких вопросов сотрудников оставили обрезку истории, потому что контекст не успевает разрастись. Для длинных клиентских диалогов включили суммаризацию, а очистку результатов поиска держат постоянно.

PubMag

Память на миллион токенов, а толку ноль: как ИИ-агента спасали от «тупости»

Коротко

FAQ

Зачем чистить контекст ИИ-агента, если у современных моделей уже есть окна на миллион токенов и больше?

Почему обрезка истории может увеличить стоимость сессии, хотя она сокращает количество токенов в запросе?

Как в кейсе распределили разные способы управления памятью между внутренними консультантами и клиентами?

Читайте также