Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B
Переход к MoE (Mixture of Experts) меняет профиль ресурсов при локальном запуске LLM: меньше требований к VRAM, больше — к обычной RAM. В MoE на шаге генерации активируется лишь часть экспертов (напр., у GPT-OSS-120B — 4 из 128), что эквивалентно ~24× меньшим вычислениям против Dense-аналогов при сопоставимом общем размере модели. Ключ к ускорению без апгрейда железа — грамотное распределение тензоров между CPU и GPU.
В llama.cpp параметр -cmoe/--cpu-moe оставляет MoE-параметры (FFN-«экспертов») на CPU, а общие тензоры внимания/слои — на GPU; альтернативно -ncmoe N задаёт, сколько слоёв вернуть на CPU. Подход даёт существенный прирост скорости и экономит VRAM.
- Практика: при той же ~23 ГБ VRAM скорость выросла на 80% (с 18.9 t/s до 34 t/s); при «экономном»
-cmoeи ~3 ГБ VRAM — прирост 29%. - Тюнинг:
-fa 1(оптимизации внимания),-ub 4096 -b 4096(ускорение PP при наличии VRAM), квант KV-кэша-ctk q8_0 -ctv q8_0. - Архитектурные нюансы: модели с общими слоями/экспертами (напр., DeepSeek V3.1, Llama-4-Maverick) ускоряются лучше; у Qwen3 полезно добавлять спекулятивное декодирование.
Итог: крупные MoE-LLM можно запускать локально на одной видеокарте (в т.ч. AMD через Vulkan/ROCm), упираясь прежде всего в объём RAM; VRAM используется эффективнее за счёт вынесения именно «общих» тензоров на GPU.
Читайте также
Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
ИИ для управления проектами. Для чего его на самом деле применяют российские организации
Renga API: автоматизируем автоматизацию с помощью ИИ-агентов
Возвращаем к жизни связку OpenClaw и Claude
- MoE: упор на RAM, а не на VRAM: У MoE-LLM на генерацию активируется лишь часть экспертов, поэтому модель эффективнее использует VRAM, а «узким местом» становится системная RAM. Это позволяет запускать крупные MoE-модели на одной видеокарте при достаточном объёме оперативной памяти.
[Архитектура моделей]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться