RLM: почему LLM-агент забывает цель и как это исправить
- Материал перечисляет 10 проблем LLM-приложений и показывает, как RLM пытается обходить их без модификации модели.
- RLM описывается как способ использовать любую LLM через Python REPL: данные остаются в Python, а модель пишет код и вызывает sub-LLM для отдельных шагов.
- Приводится сравнение схем: «огромный контекст → LLM → ответ» и «данные в Python → код → sub-LLM → ответ».
- Идея приписывается Alex Zhang (октябрь 2025); отдельно упоминается production-ready реализация.
- Для проблемы Context Rot говорится, что на 150K токенов модель работает заметно хуже, чем на 10K, из-за «размывания» внимания.
- В части про стоимость заявляется экономия токенов в 10–50 раз при работе с большими документами за счёт обработки только релевантных чанков; также упоминается RLM-Toolkit как бесплатный проект под Apache 2.0 с поддержкой 75+ провайдеров.
Почему это важно: Подход переносит работу с контекстом из промпта в вычисление: модель генерирует код, который выбирает релевантные фрагменты и агрегирует результаты. Это помогает не тащить весь документ в запрос и уменьшать влияние «шумных» промежуточных шагов на финальный ответ. В тексте это связывают с качеством ответов, приватностью данных и стоимостью токенов.
На что обратить внимание: Эффект RLM опирается на то, как формируются чанки, критерии релевантности и итоговые summary, потому что именно они попадают в финальный синтез. В примере про goal drift ключевой приём — каждый sub-LLM со свежим контекстом, но это увеличивает число вызовов и может менять цену и сложность трассировки. Отдельно описаны механики верификации фактов через внешние источники и локальная обработка, когда модели показываются только агрегаты.
Читайте также
Собираем LLM-агента на Python
Гибридная RAG-база знаний за 15 минут — почему пришлось собрать собственную облегчённую версию RAG и в чем опасность RAG-фреймворков
Claude Code изнутри: как устроены ИИ-агенты для разработки
Что меня беспокоит в агентской разработке: заметки инженера в 2026 году
Четыре проекта на Kwork, которые автор отклонил, и почему
- RLM (Recursive Language Model): паттерн «данные в Python → код → sub-LLM → ответ»: RLM описывается как способ использовать LLM через Python REPL, где исходные данные держатся вне промпта, а модель генерирует код и делегирует подзадачи sub-LLM. Практический смысл паттерна — уменьшать зависимость качества от размера контекста и получать ответы через выборку/агрегацию релевантных фрагментов, а не через «всё в одном промпте».
[LLM-инженерия / Архитектуры]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
В материале на
Хабре разбирается подход RLM (Recursive Language Model): использование LLM через Python REPL и рекурсивные sub-вызовы. Идея в том, чтобы снизить проблемы длинного контекста и удерживать цель в многошаговых сценариях без изменения самой модели.