Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B

01.11.2025 •

Переход к MoE (Mixture of Experts) меняет профиль ресурсов при локальном запуске LLM: меньше требований к VRAM, больше — к обычной RAM. В MoE на шаге генерации активируется лишь часть экспертов (напр., у GPT-OSS-120B — 4 из 128), что эквивалентно ~24× меньшим вычислениям против Dense-аналогов при сопоставимом общем размере модели. Ключ к ускорению без апгрейда железа — грамотное распределение тензоров между CPU и GPU.

В llama.cpp параметр -cmoe/--cpu-moe оставляет MoE-параметры (FFN-«экспертов») на CPU, а общие тензоры внимания/слои — на GPU; альтернативно -ncmoe N задаёт, сколько слоёв вернуть на CPU. Подход даёт существенный прирост скорости и экономит VRAM.

Практика: при той же ~23 ГБ VRAM скорость выросла на 80% (с 18.9 t/s до 34 t/s); при «экономном» -cmoe и ~3 ГБ VRAM — прирост 29%.
Тюнинг: -fa 1 (оптимизации внимания), -ub 4096 -b 4096 (ускорение PP при наличии VRAM), квант KV-кэша -ctk q8_0 -ctv q8_0.
Архитектурные нюансы: модели с общими слоями/экспертами (напр., DeepSeek V3.1, Llama-4-Maverick) ускоряются лучше; у Qwen3 полезно добавлять спекулятивное декодирование.

Итог: крупные MoE-LLM можно запускать локально на одной видеокарте (в т.ч. AMD через Vulkan/ROCm), упираясь прежде всего в объём RAM; VRAM используется эффективнее за счёт вынесения именно «общих» тензоров на GPU.

Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B

Читайте также