Как я пытался сжимать смыслы вместо байтов

Автор попытался «сжимать смыслы» технической документации, чтобы уместить её в контекст Claude, и сделал прототип SemanticZip. Эксперимент показал: модель «распаковывает» ядро как генерацию и может добавлять несуществующие факты.

  • Исходная документация: 847 страниц (около 1,2 млн токенов) при контекстном окне 200 тыс.
  • Прототип SemanticZip дал «сжатие» 14x и QA-верификацию 94% на контрольных вопросах.
  • При «распаковке» LLM генерировала разные версии текста и добавляла детали, которых не было в оригинале (пример: про PostgreSQL и репликацию master-slave).
  • В тесте с документом на 50 фактов и 10 вопросами QA-верификация была 90%, но 12 из 40 непроверенных фактов исказились или потерялись, и появились 8 новых «фактов».
  • При извлечении «ядра» из одного документа пять запусков дали пять разных наборов, включая непостоянное попадание параметров вроде SESSION_TTL=24h.
  • По итогу автор пришёл к выводу, что SemanticZip — это скорее вариация RAG, а классический RAG лучше тем, что хранит и возвращает оригинальные фрагменты текста.

Почему это важно: Для архиваторов вроде 7-Zip «распаковка» должна быть обратимой и детерминированной, а у LLM восстановление превращается в творческую реконструкцию. В практических задачах это означает риск «правдоподобных» деталей, которые не подтверждены исходником. QA-подход проверяет, что сохранилось, но не выявляет то, что модель добавила сверх текста.

На что обратить внимание: В тексте подчёркивается разница между «ядром фактов» и тем, что модель сочтёт выводимым по умолчанию, поэтому итог зависит от контекста и формулировок. В экономике решения важны не только токены «потом», но и цена предварительной обработки: 6–8 вызовов API на документ автор сравнивает с альтернативой большого контекста. Как следующий шаг описываются практики: секционирование с хранением оригинала, явная приоритизация и поиск по документу вместо попытки пересказать его целиком.

Коротко

  • История про SemanticZip показывает разницу между «обратимым архивом» и реконструкцией: без исходника модель заполняет пробелы правдоподобно, но не гарантированно верно.
  • В подобных задачах критичен контроль «добавленного сверх исходника»: в тексте показано, что новые детали выглядят органично и ускользают без сравнения.
  • Вместо попыток «сжать всё» автор описывает рабочий паттерн: иерархически делить документ, хранить оригинальные секции и подгружать их по необходимости.
  • Ещё один вывод из текста: явная приоритизация разделов (важное/справочное/легаси) снижает нагрузку на контекст лучше, чем универсальная компрессия.
  • Подход «вопросы вместо контекста» встраивается как инструментальный режим: модель получает поиск по документу и запрашивает нужные места, а не пересказывает всё сразу.

FAQ

Зачем эта история про попытку «сжимать смыслы» важна тем, кто загружает большие документы в контекст LLM (например, Claude) и рассчитывает на точность?

Автор показывает, что «распаковка» из выделенного ядра приводит к генерации нового текста и может добавлять выдуманные факты, поэтому результат нельзя считать оригиналом.

Почему цифры «сжатие 14x» и «верификация 94%» в тексте не означают, что восстановленная документация совпадает с исходной байт-в-байт?

Проверка строилась на контрольных вопросах: она подтверждает, что часть смысла сохранилась, но не ловит добавленные моделью детали и не гарантирует детерминированного восстановления.

Сколько обращений к API примерно требовал процесс «сжатия/распаковки» и к какому выводу по экономике автор пришёл в итоге?

По описанию выходило 6–8 вызовов API на документ, и автор считает, что по стоимости это сопоставимо с использованием модели с большим контекстом.

Какие более «скучные» практики работы с длинной документацией автор выбрал после провала SemanticZip, чтобы получать нужные части исходного текста?

Он описывает иерархическое разбиение на секции с хранением оригинала, явную приоритизацию разделов и подход «вопросы вместо контекста» через поиск по документу.

Читайте также

  1. Как кодинг-агенты используют инструменты, память и контекст репозитория, чтобы писать код лучше
  2. Когда ИИ не понимает бизнес-контексты
  3. Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
  4. Возвращаем к жизни связку OpenClaw и Claude
  5. Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
Ключевые инсайты из новости (по версии ChatGPT)
  • «Сжатие смыслов» как генерация вместо восстановления: Попытка «сжимать смыслы» и затем «распаковывать» документ через LLM приводит не к восстановлению исходного текста, а к генерации нового, правдоподобного варианта. Даже при одинаковом «ядре» повторные распаковки дают разные структуры и формулировки, а модель может добавлять детали, которых не было в оригинале.
    [LLM: ограничения и риски]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!