Локальный запуск GLM-5.1

11.04.2026 • Хабр

Z.ai выпустила открытую модель GLM-5.1, а публикация разбирает её локальный запуск через Unsloth Studio, llama.cpp и OpenAI-совместимый API. В одном месте собраны практические детали: объём модели, варианты квантования, требования к железу, режимы запуска и работа с tool calling.

GLM-5.1 получила 744 млрд параметров, из которых 40 млрд активны, и контекстное окно 200K. По описанию разработчика, модель улучшили для кода, логических задач и работы с инструментами; в опубликованной таблице она обычно немного обходит GLM-5 и заметно прибавляет в задачах на код и инструменты, хотя не становится безусловным лидером по всем бенчмаркам.

Полная версия требует 1,65 ТБ хранения, поэтому практический путь здесь — GGUF-кванты от Unsloth: 2-битная версия занимает 220 ГБ, 1-битная — 200 ГБ. Сборка UD-IQ2_M заявлена для Mac с 256 ГБ оперативной памяти и для ПК с одной видеокартой на 24 ГБ и 256 ГБ памяти через MoE offloading; для 8-битной версии нужно уже 805 ГБ памяти, а для GGUF отдельно предупреждают: CUDA 13.2 лучше не использовать, потому что ухудшается качество ответов.

Запуск предлагают в трёх вариантах: через Unsloth Studio с веб-интерфейсом, через llama.cpp в CLI и серверном режиме, либо через OpenAI-совместимый API на базе llama-server. У модели по умолчанию включён режим рассуждения, его можно отключить через enable_thinking=false; отдельно показан и сценарий вызова функций, где модель получает описания Python-функций и возвращает tool_calls для внешнего цикла исполнения.

Коротко

GLM-5.1 от Z.ai — открытая модель на 744 млрд параметров с 40 млрд активных параметров и контекстным окном 200K, заточенная под код, логику и работу с инструментами.
Полная модель требует 1,65 ТБ хранения, а GGUF-версии от Unsloth заметно снижают порог: 2-битная занимает 220 ГБ, 1-битная — 200 ГБ.
UD-IQ2_M рассчитана на Mac с 256 ГБ ОЗУ или ПК с одной GPU на 24 ГБ и 256 ГБ памяти через MoE offloading; для 8-битной версии нужно 805 ГБ памяти.
Для GGUF отдельно дано предупреждение: CUDA 13.2 использовать не стоит, потому что эта версия ухудшает качество ответов модели при локальном запуске.
GLM-5.1 можно поднять через Unsloth Studio, llama.cpp или OpenAI-совместимый сервер; по умолчанию у модели включён режим рассуждения и доступен tool calling.

FAQ

Зачем вообще поднимать GLM-5.1 локально, если для неё нужны сотни гигабайт памяти и такой запуск явно не рассчитан на обычный ноутбук?

Локальный запуск нужен тем, кому важны открытые веса, контроль над окружением и работа модели без внешнего API. В описанном сценарии это связано с кодингом, tool calling и возможностью поднять собственный совместимый сервер.

Чем быстрый запуск через Unsloth Studio отличается от сборки через llama.cpp и в каком случае имеет смысл идти именно во второй вариант?

Unsloth Studio даёт готовый интерфейс и упрощает старт с GGUF-версией. llama.cpp нужен, когда модель хотят запускать из CLI, поднимать сервер, настраивать OpenAI-совместимый API и подключать инструменты.

Какие ограничения у локального запуска GLM-5.1 прямо следуют из описанных команд и требований к железу, а не из общих ожиданий от LLM?

Даже квантованные версии требуют очень много памяти и аккуратного выбора сборки под доступные VRAM и RAM. Отдельно отмечено, что CUDA 13.2 для GGUF лучше не использовать, а режим рассуждения по умолчанию может потребовать явного отключения.

PubMag

Локальный запуск GLM-5.1

Коротко

FAQ

Зачем вообще поднимать GLM-5.1 локально, если для неё нужны сотни гигабайт памяти и такой запуск явно не рассчитан на обычный ноутбук?

Чем быстрый запуск через Unsloth Studio отличается от сборки через llama.cpp и в каком случае имеет смысл идти именно во второй вариант?

Какие ограничения у локального запуска GLM-5.1 прямо следуют из описанных команд и требований к железу, а не из общих ожиданий от LLM?

Читайте также