Бенчмарк Tau²: как переписывание промпта подняло точность GPT 5 mini на 22%
Команда Tau² показала, что «грамматика» промпта способна заметно поднять метрики агентной LLM без смены модели. На компактном телеком-бенчмарке telecom_small (20 сценариев, 2 прогона; 40 симуляций) базовая точность
ChatGPT 5 mini составила 55%.
После переписывания политик и инструкций (с помощью
Claude) под малую модель — решающие деревья, пошаговые процедуры, явные предусловия и бинарные развилки, чёткие вызовы инструментов, обработка ошибок и post-fix проверки — pass^k вырос: при k=1 с 0,55 до 0,675 (+22,73%), при k=2 с 0,40 до 0,50 (+25%). Невыполнимых задач осталось 3 против 6.
Контекст: 5 mini почти вдвое быстрее по задержке, держит выше пропускную способность, даёт 85–95% качества старшей GPT-5 и стоит в 5 раз дешевле; для сравнения, флагманская GPT-5 ~97% на этом бенчмарке, o3 — 58%, GPT-4.1 — 34%.
Вывод: инженерия промптов в формате «чек-листов» позволяет «разблокировать» кейсы в агентных взаимодействиях и снизить стоимость качества без апгрейда модели. Tau² имитирует реальные домены (телеком, ритейл, авиаперевозки) и подходит для регрессионного контроля LLM-агентов и A/B-тестов политик.
Читайте также
Claude Code изнутри: как устроены ИИ-агенты для разработки
Лучшие практики работы с агентами для написания кода
Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
А король-то голый! Как написать свой Claude Code в 200 строках кода
Новые навыки для Claude Code: systematic-debugging, senior-devops, senior-prompt-engineer
- Метрика надежности агентов pass^k: pass^k измеряет долю задач, решаемых агентом при k повторных попытках. Метрика подходит для оценки стабильности после правок промптов и политик и используется как основной индикатор надежности в регрессионных тестах.
[Метрики]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться