Мульти-модельная оркестрация LLM: архитектура маршрутизации, которая снизила затраты в 117 раз

Статья описывает, как AI-команда DNA IT построила мульти-модельную оркестрацию LLM для генерации образовательных курсов и радикально улучшила юнит-экономику. Исходно при 10 000 курсах в месяц и ~500 генераций на курс использование премиум-моделей (Sonnet 4.5 / GPT-5) давало $2,63 за курс и до $315,6 тыс. в год, а при 100 000 курсах — уже миллионы долларов при целевом бюджете около $0,30 за курс.

Вместо догадок команда прогнала 11 моделей (Qwen3 235B, Kimi K2, V3, 4 Fast, GPT-4o, Flash и др.) по 4 типам сценариев (метаданные/контент на EN/RU), сделав 12 000+ API-вызовов за 2 недели (~$500). Оценка строилась по схеме ModelEvaluation: экспертный скор качества, валидация по таксономии Блума, семантическое сходство через Jina-embeddings, стабильность и ключевая метрика «качество за доллар».

Бенчмарки показали, что крупные и специализированные модели могут быть в 42–157 раз дешевле премиум-класа при умеренной потере качества, а специализация по задаче и языку даёт лучший результат, чем одна «универсальная» модель. Ключевое открытие — правило 60–70: качественные метаданные определяют 60–70% итогового качества контента, поэтому стоит инвестировать в дорогую модель на фазе метаданных и использовать более дешёвые модели для генерации уроков.

Поверх этого построен маршрутизатор, который по типу задачи, языку и «сложности» выбирает оптимальную модель и эскалационную цепочку, плюс слой валидации (Bloom’s, семантика, схема) и автоматическая эскалация при сбоях. Финальный микс трафика (70% Qwen3 235B, 15% Kimi K2, 10% Grok 4 Fast, 5% MiniMax M2) дал средневзвешенную стоимость $0,00188 за генерацию — в 117 раз дешевле премиума при сохранении ~92% качества и улучшении метрики «качество/$» в 107 раз. Инвестиции $500 в исследование окупаются с ROI до 4 853x в первый год.

Читайте также

  1. Мой опыт настройки и использования ИИ-инструментов в разработке
  2. Миллениал и вайб-кодинг: как я делаю ИИ-анализатор новостей по инструкциям ChatGPT (Часть 3) + демо
  3. Глубокое чтение с ИИ-подсказками: как LLM изменят то, как мы читаем
  4. Кейс Т-Банка для позиции AI-продакт-менеджера
  5. Google тестирует плавный переход от поиска к диалогу с ИИ
Ключевые инсайты из новости (по версии ChatGPT)
  • Ловушка прототипа в экономике LLM: Стоимость LLM на прототипе (десятки или сотни задач в месяц) может казаться приемлемой, но при масштабировании на порядки вверх превращается в неконтролируемые миллионы долларов в год. Для любых AI-функций в PubMag и смежных проектах юнит-экономику нужно считать сразу на целевых объёмах использования, а не на уровне пилота.
    [Метрики и юнит-экономика AI]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!