Переход к MoE (Mixture of Experts) меняет профиль ресурсов при локальном запуске LLM: меньше требований к VRAM, больше — к обычной RAM. В MoE на шаге генерации активируется лишь часть экспертов (напр., у GPT-OSS-120B — 4 из 128), что эквивалентно ~24× меньшим вычислениям против Dense-аналогов при сопоставимом общем размере модели. Ключ к ускорению без апгрейда железа — грамотное распределение тензоров между CPU и GPU.В llama.cpp параметр -cmoe/--cpu-moe оставляет MoE-параметры (FFN-«экспертов»)