Локальный запуск GLM-5.1

Z.ai выпустила открытую модель GLM-5.1, а публикация разбирает её локальный запуск через Unsloth Studio, llama.cpp и OpenAI-совместимый API. В одном месте собраны практические детали: объём модели, варианты квантования, требования к железу, режимы запуска и работа с tool calling.

GLM-5.1 получила 744 млрд параметров, из которых 40 млрд активны, и контекстное окно 200K. По описанию разработчика, модель улучшили для кода, логических задач и работы с инструментами; в опубликованной таблице она обычно немного обходит GLM-5 и заметно прибавляет в задачах на код и инструменты, хотя не становится безусловным лидером по всем бенчмаркам.

Полная версия требует 1,65 ТБ хранения, поэтому практический путь здесь — GGUF-кванты от Unsloth: 2-битная версия занимает 220 ГБ, 1-битная — 200 ГБ. Сборка UD-IQ2_M заявлена для Mac с 256 ГБ оперативной памяти и для ПК с одной видеокартой на 24 ГБ и 256 ГБ памяти через MoE offloading; для 8-битной версии нужно уже 805 ГБ памяти, а для GGUF отдельно предупреждают: CUDA 13.2 лучше не использовать, потому что ухудшается качество ответов.

Запуск предлагают в трёх вариантах: через Unsloth Studio с веб-интерфейсом, через llama.cpp в CLI и серверном режиме, либо через OpenAI-совместимый API на базе llama-server. У модели по умолчанию включён режим рассуждения, его можно отключить через enable_thinking=false; отдельно показан и сценарий вызова функций, где модель получает описания Python-функций и возвращает tool_calls для внешнего цикла исполнения.

Коротко

  • GLM-5.1 от Z.ai — открытая модель на 744 млрд параметров с 40 млрд активных параметров и контекстным окном 200K, заточенная под код, логику и работу с инструментами.
  • Полная модель требует 1,65 ТБ хранения, а GGUF-версии от Unsloth заметно снижают порог: 2-битная занимает 220 ГБ, 1-битная — 200 ГБ.
  • UD-IQ2_M рассчитана на Mac с 256 ГБ ОЗУ или ПК с одной GPU на 24 ГБ и 256 ГБ памяти через MoE offloading; для 8-битной версии нужно 805 ГБ памяти.
  • Для GGUF отдельно дано предупреждение: CUDA 13.2 использовать не стоит, потому что эта версия ухудшает качество ответов модели при локальном запуске.
  • GLM-5.1 можно поднять через Unsloth Studio, llama.cpp или OpenAI-совместимый сервер; по умолчанию у модели включён режим рассуждения и доступен tool calling.

FAQ

Зачем вообще поднимать GLM-5.1 локально, если для неё нужны сотни гигабайт памяти и такой запуск явно не рассчитан на обычный ноутбук?

Локальный запуск нужен тем, кому важны открытые веса, контроль над окружением и работа модели без внешнего API. В описанном сценарии это связано с кодингом, tool calling и возможностью поднять собственный совместимый сервер.

Чем быстрый запуск через Unsloth Studio отличается от сборки через llama.cpp и в каком случае имеет смысл идти именно во второй вариант?

Unsloth Studio даёт готовый интерфейс и упрощает старт с GGUF-версией. llama.cpp нужен, когда модель хотят запускать из CLI, поднимать сервер, настраивать OpenAI-совместимый API и подключать инструменты.

Какие ограничения у локального запуска GLM-5.1 прямо следуют из описанных команд и требований к железу, а не из общих ожиданий от LLM?

Даже квантованные версии требуют очень много памяти и аккуратного выбора сборки под доступные VRAM и RAM. Отдельно отмечено, что CUDA 13.2 для GGUF лучше не использовать, а режим рассуждения по умолчанию может потребовать явного отключения.

Читайте также

  1. Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot
  2. Как писать промпты для разработки: опыт, который экономит часы
  3. Возвращаем к жизни связку OpenClaw и Claude
  4. Нано-NAS из смартфона
  5. Как я переделал свой мини-ПК и зачем мне это было нужно
Ключевые инсайты из новости (по версии ChatGPT)
  • Порог локального запуска больших MoE-моделей через GGUF: Даже сверхкрупную открытую модель можно запускать локально не только в полной сборке, но и в сильно квантованном GGUF-виде. Для GLM-5.1 это означает резкое снижение требований по хранению и памяти: вместо 1,65 ТБ у квантованных версий заявлены 200–220 ГБ, а рабочий сценарий возможен на Mac с 256 ГБ ОЗУ или на ПК с одной GPU на 24 ГБ и 256 ГБ памяти через MoE offloading.
    [Локальная AI-инфраструктура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!