Мульти-модельная оркестрация LLM: архитектура маршрутизации, которая снизила затраты в 117 раз
Статья описывает, как AI-команда DNA IT построила мульти-модельную оркестрацию LLM для генерации образовательных курсов и радикально улучшила юнит-экономику. Исходно при 10 000 курсах в месяц и ~500 генераций на курс использование премиум-моделей (Sonnet 4.5 / GPT-5) давало $2,63 за курс и до $315,6 тыс. в год, а при 100 000 курсах — уже миллионы долларов при целевом бюджете около $0,30 за курс.
Вместо догадок команда прогнала 11 моделей (Qwen3 235B, Kimi K2,
DeepSeek V3,
Grok 4 Fast, GPT-4o,
Gemini Flash и др.) по 4 типам сценариев (метаданные/контент на EN/RU), сделав 12 000+ API-вызовов за 2 недели (~$500). Оценка строилась по схеме ModelEvaluation: экспертный скор качества, валидация по таксономии Блума, семантическое сходство через Jina-embeddings, стабильность и ключевая метрика «качество за доллар».
Бенчмарки показали, что крупные и специализированные модели могут быть в 42–157 раз дешевле премиум-класа при умеренной потере качества, а специализация по задаче и языку даёт лучший результат, чем одна «универсальная» модель. Ключевое открытие — правило 60–70: качественные метаданные определяют 60–70% итогового качества контента, поэтому стоит инвестировать в дорогую модель на фазе метаданных и использовать более дешёвые модели для генерации уроков.
Поверх этого построен маршрутизатор, который по типу задачи, языку и «сложности» выбирает оптимальную модель и эскалационную цепочку, плюс слой валидации (Bloom’s, семантика, схема) и автоматическая эскалация при сбоях. Финальный микс трафика (70% Qwen3 235B, 15% Kimi K2, 10% Grok 4 Fast, 5% MiniMax M2) дал средневзвешенную стоимость $0,00188 за генерацию — в 117 раз дешевле премиума при сохранении ~92% качества и улучшении метрики «качество/$» в 107 раз. Инвестиции $500 в исследование окупаются с ROI до 4 853x в первый год.
Читайте также
Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
Чат-бот с LLM в облаке: опыт НГУ и пошаговая инструкция по запуску
Виртуальные ассистенты: обзор самых «умных» нейросетей для ответов на вопросы
Apple проиграла гонку ИИ — теперь начинается настоящий вызов
OpenAI запустила образовательный режим для ChatGPT
- Ловушка прототипа в экономике LLM: Стоимость LLM на прототипе (десятки или сотни задач в месяц) может казаться приемлемой, но при масштабировании на порядки вверх превращается в неконтролируемые миллионы долларов в год. Для любых AI-функций в PubMag и смежных проектах юнит-экономику нужно считать сразу на целевых объёмах использования, а не на уровне пилота.
[Метрики и юнит-экономика AI]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться