Как устроена память у нейросетей и почему ChatGPT вас не запоминает
На
Хабре вышла объёмная статья, объясняющая, как на самом деле устроена память у LLM в SaaS-сервисах вроде
ChatGPT,
Gemini и
Claude. Автор разобрал по уровням, как модель запоминает (и забывает) информацию: от контекстного окна и KV-кеша до сессионной, чатовой и глобальной памяти. Основной вывод — у пользователя нет прямого контроля над запоминаемыми данными, но платформа собирает метаданные, подмешивает их в промпты и строит персонализацию в обход самой LLM.
Особое внимание уделено архитектуре памяти:
- контекстное окно — слайдинг-буфер до ~128k токенов;
- KV-кеш — внутренняя оптимизация скорости генерации;
- глобальная память — набор фактов о пользователе (имя, стиль общения, интересы);
- проектная и внешняя память — документы и базы знаний, подключаемые через API или воркспейс.
Также разобраны практические советы: как формулировать промпты, избегать линейного "засорения" диалога и когда лучше перезапустить чат, чтобы получить более точный ответ.
Статья объясняет, почему LLM "забывает" сказанное ранее, несмотря на кажущуюся последовательность, и как на самом деле работает память в современных AI-продуктах. Рекомендуется к прочтению всем, кто активно использует нейросети в работе.
Читайте также
Claude 4 вышел вперед, Codex от OpenAI уличили в ошибках, Meta теряет учёных: обзор новостей ИИ
MIT и Кембридж: ChatGPT снижает креативность и память — как этого избежать
Архитектура LLM-агентов: планирование, память и инструменты на практике
ИИ, который программирует и эволюционирует сам: Sakana AI анонсировала Darwin Gödel Machine
Мой первый AI-агент: личный опыт создания и реальность работы