Как мы заставили LLM понимать юридические документы лучше юристов: история создания универсального промта

Кейс: команда заменила классические NLP-пайплайны (переобучение >10 часов на добавление одного поля) универсальным промтом LLM для извлечения данных из судебных решений и доверенностей. Промт строго структурирован из пяти блоков (роль/контекст, постановка задачи, формат/JSON-схема, имя поля, примеры) и ориентирован на машиночитаемый вывод. Верификация результата встроена в процесс: документ нумеруется по строкам, модель возвращает номер строки; смещение «±1 строка» компенсируется расширением зоны проверки.

  • Few-shot (3–5 примеров) резко повышает точность: без примеров падение на 30–40% по сравнению с zero-shot.
  • Ошибки извлечения: ~8% для судебных документов и вдвое выше для доверенностей (~16%); цель — верифицировать хотя бы одно корректное вхождение поля.
  • Русскоязычные промты показывают сопоставимое качество с англоязычными; ablation-study выявила критические секции промта.
  • Цензура облачных LLM: GigaChat отклонял 3–4% файлов, YandexGPT — 1–3%; режим structured output base стабилизирует формат ответа.
  • Локальные модели требуют дорогой инфраструктуры (например, NVIDIA Quadro RTX 8000, 46 ГБ), что повышает TCO.
  • Длинный контекст и составные файлы снижают качество на 8–10% (needle-in-a-haystack); планируется поддержка дубликатов полей и мультиязычности.
Ключевые инсайты из новости (по версии ChatGPT)
  • Шаблон универсального промта для экстракции полей: Эффективный промт состоит из пяти блоков: роль модели, чёткая постановка задачи, формат вывода (JSON), явное имя целевого поля и короткие примеры. Такая структура уменьшает вариативность ответов и обеспечивает машиночитаемый результат без пост-нормализации.
    [Промт-инжиниринг]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!