Как я пытался сжимать смыслы вместо байтов
- Исходная документация: 847 страниц (около 1,2 млн токенов) при контекстном окне 200 тыс.
- Прототип SemanticZip дал «сжатие» 14x и QA-верификацию 94% на контрольных вопросах.
- При «распаковке» LLM генерировала разные версии текста и добавляла детали, которых не было в оригинале (пример: про PostgreSQL и репликацию master-slave).
- В тесте с документом на 50 фактов и 10 вопросами QA-верификация была 90%, но 12 из 40 непроверенных фактов исказились или потерялись, и появились 8 новых «фактов».
- При извлечении «ядра» из одного документа пять запусков дали пять разных наборов, включая непостоянное попадание параметров вроде SESSION_TTL=24h.
- По итогу автор пришёл к выводу, что SemanticZip — это скорее вариация RAG, а классический RAG лучше тем, что хранит и возвращает оригинальные фрагменты текста.
Почему это важно: Для архиваторов вроде 7-Zip «распаковка» должна быть обратимой и детерминированной, а у LLM восстановление превращается в творческую реконструкцию. В практических задачах это означает риск «правдоподобных» деталей, которые не подтверждены исходником. QA-подход проверяет, что сохранилось, но не выявляет то, что модель добавила сверх текста.
На что обратить внимание: В тексте подчёркивается разница между «ядром фактов» и тем, что модель сочтёт выводимым по умолчанию, поэтому итог зависит от контекста и формулировок. В экономике решения важны не только токены «потом», но и цена предварительной обработки: 6–8 вызовов API на документ автор сравнивает с альтернативой большого контекста. Как следующий шаг описываются практики: секционирование с хранением оригинала, явная приоритизация и поиск по документу вместо попытки пересказать его целиком.
Коротко
- История про SemanticZip показывает разницу между «обратимым архивом» и реконструкцией: без исходника модель заполняет пробелы правдоподобно, но не гарантированно верно.
- В подобных задачах критичен контроль «добавленного сверх исходника»: в тексте показано, что новые детали выглядят органично и ускользают без сравнения.
- Вместо попыток «сжать всё» автор описывает рабочий паттерн: иерархически делить документ, хранить оригинальные секции и подгружать их по необходимости.
- Ещё один вывод из текста: явная приоритизация разделов (важное/справочное/легаси) снижает нагрузку на контекст лучше, чем универсальная компрессия.
- Подход «вопросы вместо контекста» встраивается как инструментальный режим: модель получает поиск по документу и запрашивает нужные места, а не пересказывает всё сразу.
FAQ
Зачем эта история про попытку «сжимать смыслы» важна тем, кто загружает большие документы в контекст LLM (например, Claude) и рассчитывает на точность?
Автор показывает, что «распаковка» из выделенного ядра приводит к генерации нового текста и может добавлять выдуманные факты, поэтому результат нельзя считать оригиналом.
Почему цифры «сжатие 14x» и «верификация 94%» в тексте не означают, что восстановленная документация совпадает с исходной байт-в-байт?
Проверка строилась на контрольных вопросах: она подтверждает, что часть смысла сохранилась, но не ловит добавленные моделью детали и не гарантирует детерминированного восстановления.
Сколько обращений к API примерно требовал процесс «сжатия/распаковки» и к какому выводу по экономике автор пришёл в итоге?
По описанию выходило 6–8 вызовов API на документ, и автор считает, что по стоимости это сопоставимо с использованием модели с большим контекстом.
Какие более «скучные» практики работы с длинной документацией автор выбрал после провала SemanticZip, чтобы получать нужные части исходного текста?
Он описывает иерархическое разбиение на секции с хранением оригинала, явную приоритизацию разделов и подход «вопросы вместо контекста» через поиск по документу.
Читайте также
Как кодинг-агенты используют инструменты, память и контекст репозитория, чтобы писать код лучше
Когда ИИ не понимает бизнес-контексты
Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
Возвращаем к жизни связку OpenClaw и Claude
Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
- «Сжатие смыслов» как генерация вместо восстановления: Попытка «сжимать смыслы» и затем «распаковывать» документ через LLM приводит не к восстановлению исходного текста, а к генерации нового, правдоподобного варианта. Даже при одинаковом «ядре» повторные распаковки дают разные структуры и формулировки, а модель может добавлять детали, которых не было в оригинале.
[LLM: ограничения и риски]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор попытался «сжимать смыслы» технической документации, чтобы уместить её в контекст Claude, и сделал прототип SemanticZip. Эксперимент показал: модель «распаковывает» ядро как генерацию и может добавлять несуществующие факты.