Как устроена память у нейросетей и почему ChatGPT вас не запоминает
На
Хабре вышла объёмная статья, объясняющая, как на самом деле устроена память у LLM в SaaS-сервисах вроде
ChatGPT,
Gemini и
Claude. Автор разобрал по уровням, как модель запоминает (и забывает) информацию: от контекстного окна и KV-кеша до сессионной, чатовой и глобальной памяти. Основной вывод — у пользователя нет прямого контроля над запоминаемыми данными, но платформа собирает метаданные, подмешивает их в промпты и строит персонализацию в обход самой LLM.
Особое внимание уделено архитектуре памяти:
- контекстное окно — слайдинг-буфер до ~128k токенов;
- KV-кеш — внутренняя оптимизация скорости генерации;
- глобальная память — набор фактов о пользователе (имя, стиль общения, интересы);
- проектная и внешняя память — документы и базы знаний, подключаемые через API или воркспейс.
Также разобраны практические советы: как формулировать промпты, избегать линейного "засорения" диалога и когда лучше перезапустить чат, чтобы получить более точный ответ.
Статья объясняет, почему LLM "забывает" сказанное ранее, несмотря на кажущуюся последовательность, и как на самом деле работает память в современных AI-продуктах. Рекомендуется к прочтению всем, кто активно использует нейросети в работе.
Читайте также
Claude Code изнутри: как устроены ИИ-агенты для разработки
Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
Лучшие практики работы с агентами для написания кода
Архитектурный подход к контролю согласованности в LLM
300 дней с AI-агентами: от руководителя к Full Cycle Engineer