Исследователи Google и MIT в работе Towards a Science of Scaling Agent Systems проверили, когда мультиагентные системы (MAS) лучше одиночного агента (SAS) в «агентных» задачах. В экспериментах — 180 конфигураций, 4 бенчмарка, 5 архитектур (SAS + independent/centralized/decentralized/hybrid), 3 семейства LLM (OpenAI, Google, Anthropic) при паритете инструментов, промптов и токен-бюджетов. Качество: Finance-Agent при centralized даёт до +80.9% к SAS; BrowseComp-Plus — до +9.2%; Workbench близок к нейтрали. PlanCraft (Minecraft) у всех MAS падает на −39%…−70% (плохо параллелится, координация не добавляет информации). Токен-накладные: +58% (independent), +263% (decentralized), +285% (centralized), до +515% (hybrid) — бюджет уходит в «переговоры». Ошибки: independent усиливал каскады в 17.2 раза относительно SAS; centralized сдерживал их лучше (до 4.4 раза) за счёт проверки через оркестратор. Выбор подхода: метрика «полезности команды» (R²=0.513) и порог: если SAS уже решает задачу на ≥45%, координация часто даёт убывающую/отрицательную отдачу; больше инструментов — выше координационные потери при фиксированном бюджете. Вывод: MAS стоит применять там, где задача декомпозируется и допускает независимую верификацию; для строго последовательных сценариев команда часто становится медленнее, дороже и иногда хуже.