Команда Tau² показала, что «грамматика» промпта способна заметно поднять метрики агентной LLM без смены модели. На компактном телеком-бенчмарке telecom_small (20 сценариев, 2 прогона; 40 симуляций) базовая точность ChatGPT 5 mini составила 55%.После переписывания политик и инструкций (с помощью Claude) под малую модель — решающие деревья, пошаговые процедуры, явные предусловия и бинарные развилки, чёткие вызовы инструментов, обработка ошибок и post-fix проверки — pass^k вырос: при k=1 с 0,55 до 0,675 (+22,73%), при k=2 с 0,40 до 0,50 (+25%). Невыполнимых задач осталось 3 против 6.Контекст: 5 mini почти вдвое быстрее по задержке, держит выше пропускную способность, даёт 85–95% качества старшей GPT-5 и стоит в 5 раз дешевле; для сравнения, флагманская GPT-5 ~97% на этом бенчмарке, o3 — 58%, GPT-4.1 — 34%.Вывод: инженерия промптов в формате «чек-листов» позволяет «разблокировать» кейсы в агентных взаимодействиях и снизить стоимость качества без апгрейда модели. Tau² имитирует реальные домены (телеком, ритейл, авиаперевозки) и подходит для регрессионного контроля LLM-агентов и A/B-тестов политик.