Локальный запуск GLM-5.1
GLM-5.1 получила 744 млрд параметров, из которых 40 млрд активны, и контекстное окно 200K. По описанию разработчика, модель улучшили для кода, логических задач и работы с инструментами; в опубликованной таблице она обычно немного обходит GLM-5 и заметно прибавляет в задачах на код и инструменты, хотя не становится безусловным лидером по всем бенчмаркам.
Полная версия требует 1,65 ТБ хранения, поэтому практический путь здесь — GGUF-кванты от Unsloth: 2-битная версия занимает 220 ГБ, 1-битная — 200 ГБ. Сборка UD-IQ2_M заявлена для Mac с 256 ГБ оперативной памяти и для ПК с одной видеокартой на 24 ГБ и 256 ГБ памяти через MoE offloading; для 8-битной версии нужно уже 805 ГБ памяти, а для GGUF отдельно предупреждают: CUDA 13.2 лучше не использовать, потому что ухудшается качество ответов.
Запуск предлагают в трёх вариантах: через Unsloth Studio с веб-интерфейсом, через llama.cpp в CLI и серверном режиме, либо через OpenAI-совместимый API на базе llama-server. У модели по умолчанию включён режим рассуждения, его можно отключить через enable_thinking=false; отдельно показан и сценарий вызова функций, где модель получает описания Python-функций и возвращает tool_calls для внешнего цикла исполнения.
Коротко
- GLM-5.1 от Z.ai — открытая модель на 744 млрд параметров с 40 млрд активных параметров и контекстным окном 200K, заточенная под код, логику и работу с инструментами.
- Полная модель требует 1,65 ТБ хранения, а GGUF-версии от Unsloth заметно снижают порог: 2-битная занимает 220 ГБ, 1-битная — 200 ГБ.
- UD-IQ2_M рассчитана на Mac с 256 ГБ ОЗУ или ПК с одной GPU на 24 ГБ и 256 ГБ памяти через MoE offloading; для 8-битной версии нужно 805 ГБ памяти.
- Для GGUF отдельно дано предупреждение: CUDA 13.2 использовать не стоит, потому что эта версия ухудшает качество ответов модели при локальном запуске.
- GLM-5.1 можно поднять через Unsloth Studio, llama.cpp или OpenAI-совместимый сервер; по умолчанию у модели включён режим рассуждения и доступен tool calling.
FAQ
Зачем вообще поднимать GLM-5.1 локально, если для неё нужны сотни гигабайт памяти и такой запуск явно не рассчитан на обычный ноутбук?
Локальный запуск нужен тем, кому важны открытые веса, контроль над окружением и работа модели без внешнего API. В описанном сценарии это связано с кодингом, tool calling и возможностью поднять собственный совместимый сервер.
Чем быстрый запуск через Unsloth Studio отличается от сборки через llama.cpp и в каком случае имеет смысл идти именно во второй вариант?
Unsloth Studio даёт готовый интерфейс и упрощает старт с GGUF-версией. llama.cpp нужен, когда модель хотят запускать из CLI, поднимать сервер, настраивать OpenAI-совместимый API и подключать инструменты.
Какие ограничения у локального запуска GLM-5.1 прямо следуют из описанных команд и требований к железу, а не из общих ожиданий от LLM?
Даже квантованные версии требуют очень много памяти и аккуратного выбора сборки под доступные VRAM и RAM. Отдельно отмечено, что CUDA 13.2 для GGUF лучше не использовать, а режим рассуждения по умолчанию может потребовать явного отключения.
Читайте также
- Порог локального запуска больших MoE-моделей через GGUF: Даже сверхкрупную открытую модель можно запускать локально не только в полной сборке, но и в сильно квантованном GGUF-виде. Для GLM-5.1 это означает резкое снижение требований по хранению и памяти: вместо 1,65 ТБ у квантованных версий заявлены 200–220 ГБ, а рабочий сценарий возможен на Mac с 256 ГБ ОЗУ или на ПК с одной GPU на 24 ГБ и 256 ГБ памяти через MoE offloading.
[Локальная AI-инфраструктура]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться

Z.ai выпустила открытую модель GLM-5.1, а публикация разбирает её локальный запуск через Unsloth Studio, llama.cpp и OpenAI-совместимый API. В одном месте собраны практические детали: объём модели, варианты квантования, требования к железу, режимы запуска и работа с tool calling.