Бенчмарк Tau²: как переписывание промпта подняло точность GPT 5 mini на 22%

29.09.2025 • Хабр

Команда Tau² показала, что «грамматика» промпта способна заметно поднять метрики агентной LLM без смены модели. На компактном телеком-бенчмарке telecom_small (20 сценариев, 2 прогона; 40 симуляций) базовая точность ChatGPT 5 mini составила 55%.

После переписывания политик и инструкций (с помощью Claude) под малую модель — решающие деревья, пошаговые процедуры, явные предусловия и бинарные развилки, чёткие вызовы инструментов, обработка ошибок и post-fix проверки — pass^k вырос: при k=1 с 0,55 до 0,675 (+22,73%), при k=2 с 0,40 до 0,50 (+25%). Невыполнимых задач осталось 3 против 6.

Контекст: 5 mini почти вдвое быстрее по задержке, держит выше пропускную способность, даёт 85–95% качества старшей GPT-5 и стоит в 5 раз дешевле; для сравнения, флагманская GPT-5 ~97% на этом бенчмарке, o3 — 58%, GPT-4.1 — 34%.

Вывод: инженерия промптов в формате «чек-листов» позволяет «разблокировать» кейсы в агентных взаимодействиях и снизить стоимость качества без апгрейда модели. Tau² имитирует реальные домены (телеком, ритейл, авиаперевозки) и подходит для регрессионного контроля LLM-агентов и A/B-тестов политик.

PubMag

Бенчмарк Tau²: как переписывание промпта подняло точность GPT 5 mini на 22%

Читайте также