Бенчмарк Tau²: как переписывание промпта подняло точность GPT 5 mini на 22%

Команда Tau² показала, что «грамматика» промпта способна заметно поднять метрики агентной LLM без смены модели. На компактном телеком-бенчмарке telecom_small (20 сценариев, 2 прогона; 40 симуляций) базовая точность 5 mini составила 55%.

После переписывания политик и инструкций (с помощью ) под малую модель — решающие деревья, пошаговые процедуры, явные предусловия и бинарные развилки, чёткие вызовы инструментов, обработка ошибок и post-fix проверки — pass^k вырос: при k=1 с 0,55 до 0,675 (+22,73%), при k=2 с 0,40 до 0,50 (+25%). Невыполнимых задач осталось 3 против 6.

Контекст: 5 mini почти вдвое быстрее по задержке, держит выше пропускную способность, даёт 85–95% качества старшей GPT-5 и стоит в 5 раз дешевле; для сравнения, флагманская GPT-5 ~97% на этом бенчмарке, o3 — 58%, GPT-4.1 — 34%.

Вывод: инженерия промптов в формате «чек-листов» позволяет «разблокировать» кейсы в агентных взаимодействиях и снизить стоимость качества без апгрейда модели. Tau² имитирует реальные домены (телеком, ритейл, авиаперевозки) и подходит для регрессионного контроля LLM-агентов и A/B-тестов политик.

Ключевые инсайты из новости (по версии ChatGPT)
  • Метрика надежности агентов pass^k: pass^k измеряет долю задач, решаемых агентом при k повторных попытках. Метрика подходит для оценки стабильности после правок промптов и политик и используется как основной индикатор надежности в регрессионных тестах.
    [Метрики]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!