Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B

Переход к MoE (Mixture of Experts) меняет профиль ресурсов при локальном запуске LLM: меньше требований к VRAM, больше — к обычной RAM. В MoE на шаге генерации активируется лишь часть экспертов (напр., у GPT-OSS-120B — 4 из 128), что эквивалентно ~24× меньшим вычислениям против Dense-аналогов при сопоставимом общем размере модели. Ключ к ускорению без апгрейда железа — грамотное распределение тензоров между CPU и GPU.

В llama.cpp параметр -cmoe/--cpu-moe оставляет MoE-параметры (FFN-«экспертов») на CPU, а общие тензоры внимания/слои — на GPU; альтернативно -ncmoe N задаёт, сколько слоёв вернуть на CPU. Подход даёт существенный прирост скорости и экономит VRAM.

  • Практика: при той же ~23 ГБ VRAM скорость выросла на 80% (с 18.9 t/s до 34 t/s); при «экономном» -cmoe и ~3 ГБ VRAM — прирост 29%.
  • Тюнинг: -fa 1 (оптимизации внимания), -ub 4096 -b 4096 (ускорение PP при наличии VRAM), квант KV-кэша -ctk q8_0 -ctv q8_0.
  • Архитектурные нюансы: модели с общими слоями/экспертами (напр., V3.1, Llama-4-Maverick) ускоряются лучше; у Qwen3 полезно добавлять спекулятивное декодирование.

Итог: крупные MoE-LLM можно запускать локально на одной видеокарте (в т.ч. AMD через Vulkan/ROCm), упираясь прежде всего в объём RAM; VRAM используется эффективнее за счёт вынесения именно «общих» тензоров на GPU.

Читайте также

  1. Открываем RAG и интернет для LM Studio
  2. Делаем свой ChatGPT за $10 в месяц: разворачиваем LLM на облаке. Подробный гайд на VPS + API-обертка
  3. Основы аналитики и ML простым языком. Часть 1
  4. Мошенническая «десятина» Meta; ИИ выбивает скидки у SaaS
  5. OpenAI заключила 7-летний контракт с Amazon на $38 млрд для ИИ-вычислений
Ключевые инсайты из новости (по версии ChatGPT)
  • MoE: упор на RAM, а не на VRAM: У MoE-LLM на генерацию активируется лишь часть экспертов, поэтому модель эффективнее использует VRAM, а «узким местом» становится системная RAM. Это позволяет запускать крупные MoE-модели на одной видеокарте при достаточном объёме оперативной памяти.
    [Архитектура моделей]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!