Как оптимизация промптов превратилась из шаманства в инженерную дисциплину

09.02.2026 • Хабр

В тексте описано, как оптимизация промптов для LLM из набора приёмов превратилась в формализованную инженерную задачу. Главный вывод: улучшения держатся только на измерении и отборе.

Оптимизация промптов описана как поиск в дискретном пространстве, где целевая функция включает точность, стоимость, соответствие формату (JSON) и латентность.
Ключевые инженерные барьеры: отсутствие градиентов (API как «чёрный ящик»), недоступность или низкая полезность logprobs, комбинаторный рост вариантов текста.
Подходы сгруппированы в три класса: эволюционные, программные и генеративно-эвристические.
В эволюционных примерах: MetaPrompt и TextGrad используют цикл Generate → Critique → Refine; HRPO (arXiv:2305.17126) предлагает кластеризацию ошибок и «системные» правки.
GEPA описана как эволюция по Парето-фронтиру и заявлена как превосходящая RL-методы при 35× меньшем числе вызовов API.
В программных и эвристических примерах: DSPy (arXiv:2310.03714) с оптимизаторами MIPRO/MIPROv2; OPRO (arXiv:2309.03409) подбирает следующий промпт по истории «промпт→оценка», APE (arXiv:2211.01910) — loop генерации и отбора по метрике.

Почему это важно: Автор предлагает смотреть на промпт как на объект оптимизации в условиях чёрного ящика, где важны не только точность, но и стоимость токенов, формат и задержка. промпт — параметр модели, поэтому подходы с датасетом и метриками проще переносить и сравнивать между задачами. В тексте отдельно подчёркнута проблема нестабильности между версиями моделей.

На что обратить внимание: В обзоре отмечено, что часть API скрывает или обесценивает logprobs, поэтому некоторые старые методы оказываются менее применимыми. Также подчеркнут риск «хаков» при подборе промптов без валидации на отложенной выборке и дрейф при смене модели (пример gpt-4-o → gpt-5.1). Отдельно упомянут эффект потери инструкций в длинном контексте и то, что улучшение через AI Studio без метрик остаётся перефразированием.

Коротко

Автор описывает сдвиг от «заклинаний» к инженерной практике: LLM чувствительны к формулировкам, токены дорогие, а ручная настройка «на глазок» нестабильна.
В тексте подчёркнут дрейф при смене версии модели (пример: gpt-4-o → gpt-5.1): обычно это означает необходимость регулярных регрессионных прогонов и пересборки промптов.
OPRO и APE могут находить «хаки» на тесте: на практике это часто даёт красивую метрику, но ломается на реальных данных без отложенной выборки и контроля ошибок.
Отдельная мысль про «улучшение в AI Studio»: без метрик и сравнения попыток модель оптимизирует правдоподобие формулировки, а не качество решения задачи.
В финале упомянута связка Agenta + LLM Studio + Langfuse/Opik: это сигнал про важность трейсов, оценок и видимости стоимости токенов при итерациях.

FAQ

Зачем это важно тем, кто использует LLM в продуктах и автоматизации, если промпты можно просто переписать вручную и «улучшить формулировку»?

В тексте говорится, что без метрик и цикла Generate → Evaluate → Compare → Select улучшение превращается в перефразирование и хуже обобщается. Кроме того, оптимизированные промпты хрупкие и могут деградировать при смене версии модели.

Какие три класса методов оптимизации промптов выделяются в обзоре и чем они в общем отличаются друг от друга по механике улучшения?

Описаны эволюционные, программные и генеративно-эвристические подходы. Они различаются тем, как предлагается следующий вариант и как устроены оценка и отбор кандидатов.

Какие ошибки при оптимизации промптов автор считает самыми частыми и почему они приводят к деградации качества при смене модели или переносе в продакшен?

В тексте выделены оптимизация без валидации и дрейф моделей: промпт может «вылизаться» под один датасет или одну версию и ломаться дальше. Также упомянуто, что в длинных контекстах инструкции могут теряться.

PubMag

Как оптимизация промптов превратилась из шаманства в инженерную дисциплину

Коротко

FAQ

Зачем это важно тем, кто использует LLM в продуктах и автоматизации, если промпты можно просто переписать вручную и «улучшить формулировку»?

Какие три класса методов оптимизации промптов выделяются в обзоре и чем они в общем отличаются друг от друга по механике улучшения?

Какие ошибки при оптимизации промптов автор считает самыми частыми и почему они приводят к деградации качества при смене модели или переносе в продакшен?

Читайте также