Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B
Переход к MoE (Mixture of Experts) меняет профиль ресурсов при локальном запуске LLM: меньше требований к VRAM, больше — к обычной RAM. В MoE на шаге генерации активируется лишь часть экспертов (напр., у GPT-OSS-120B — 4 из 128), что эквивалентно ~24× меньшим вычислениям против Dense-аналогов при сопоставимом общем размере модели. Ключ к ускорению без апгрейда железа — грамотное распределение тензоров между CPU и GPU.
В llama.cpp параметр -cmoe/--cpu-moe оставляет MoE-параметры (FFN-«экспертов») на CPU, а общие тензоры внимания/слои — на GPU; альтернативно -ncmoe N задаёт, сколько слоёв вернуть на CPU. Подход даёт существенный прирост скорости и экономит VRAM.
- Практика: при той же ~23 ГБ VRAM скорость выросла на 80% (с 18.9 t/s до 34 t/s); при «экономном»
-cmoeи ~3 ГБ VRAM — прирост 29%. - Тюнинг:
-fa 1(оптимизации внимания),-ub 4096 -b 4096(ускорение PP при наличии VRAM), квант KV-кэша-ctk q8_0 -ctv q8_0. - Архитектурные нюансы: модели с общими слоями/экспертами (напр.,
DeepSeek V3.1, Llama-4-Maverick) ускоряются лучше; у Qwen3 полезно добавлять спекулятивное декодирование.
Итог: крупные MoE-LLM можно запускать локально на одной видеокарте (в т.ч. AMD через Vulkan/ROCm), упираясь прежде всего в объём RAM; VRAM используется эффективнее за счёт вынесения именно «общих» тензоров на GPU.
Читайте также
Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)
Как выбрать между облаком, арендой GPU и своим железом для LLM-систем
Российские нейросети наращивают веб-аудиторию
Почему страницы сайта выпадают из индекса
Снижение затрат на LLM API через децентрализованную инференс-сеть: практический опыт
- MoE: упор на RAM, а не на VRAM: У MoE-LLM на генерацию активируется лишь часть экспертов, поэтому модель эффективнее использует VRAM, а «узким местом» становится системная RAM. Это позволяет запускать крупные MoE-модели на одной видеокарте при достаточном объёме оперативной памяти.
[Архитектура моделей]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться