Бенчмарк Tau²: как переписывание промпта подняло точность GPT 5 mini на 22%
Команда Tau² показала, что «грамматика» промпта способна заметно поднять метрики агентной LLM без смены модели. На компактном телеком-бенчмарке telecom_small (20 сценариев, 2 прогона; 40 симуляций) базовая точность ChatGPT 5 mini составила 55%.
После переписывания политик и инструкций (с помощью Claude) под малую модель — решающие деревья, пошаговые процедуры, явные предусловия и бинарные развилки, чёткие вызовы инструментов, обработка ошибок и post-fix проверки — pass^k вырос: при k=1 с 0,55 до 0,675 (+22,73%), при k=2 с 0,40 до 0,50 (+25%). Невыполнимых задач осталось 3 против 6.
Контекст: 5 mini почти вдвое быстрее по задержке, держит выше пропускную способность, даёт 85–95% качества старшей GPT-5 и стоит в 5 раз дешевле; для сравнения, флагманская GPT-5 ~97% на этом бенчмарке, o3 — 58%, GPT-4.1 — 34%.
Вывод: инженерия промптов в формате «чек-листов» позволяет «разблокировать» кейсы в агентных взаимодействиях и снизить стоимость качества без апгрейда модели. Tau² имитирует реальные домены (телеком, ритейл, авиаперевозки) и подходит для регрессионного контроля LLM-агентов и A/B-тестов политик.
Читайте также
Как тимлид заменил десятки вкладок на файловую систему и Claude Code
Когда, зачем и как правильно начинать новую сессию в Claude Code
Как научить LLM исправлять код без лишних изменений
«ИИ, найди факты, а я подумаю»: почему гибридный подход не работает для форсайта
Как в рабочий чат добавили ИИ-ассистента и что из этого вышло
- Метрика надежности агентов pass^k: pass^k измеряет долю задач, решаемых агентом при k повторных попытках. Метрика подходит для оценки стабильности после правок промптов и политик и используется как основной индикатор надежности в регрессионных тестах.
[Метрики]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться