Как устроена память у нейросетей и почему ChatGPT вас не запоминает
На Хабре вышла объёмная статья, объясняющая, как на самом деле устроена память у LLM в SaaS-сервисах вроде
ChatGPT,
Gemini и
Claude. Автор разобрал по уровням, как модель запоминает (и забывает) информацию: от контекстного окна и KV-кеша до сессионной, чатовой и глобальной памяти. Основной вывод — у пользователя нет прямого контроля над запоминаемыми данными, но платформа собирает метаданные, подмешивает их в промпты и строит персонализацию в обход самой LLM.
Особое внимание уделено архитектуре памяти:
- контекстное окно — слайдинг-буфер до ~128k токенов;
- KV-кеш — внутренняя оптимизация скорости генерации;
- глобальная память — набор фактов о пользователе (имя, стиль общения, интересы);
- проектная и внешняя память — документы и базы знаний, подключаемые через API или воркспейс.
Также разобраны практические советы: как формулировать промпты, избегать линейного "засорения" диалога и когда лучше перезапустить чат, чтобы получить более точный ответ.
Статья объясняет, почему LLM "забывает" сказанное ранее, несмотря на кажущуюся последовательность, и как на самом деле работает память в современных AI-продуктах. Рекомендуется к прочтению всем, кто активно использует нейросети в работе.