Локальные LLM на слабом железе: что ставить, как запускать и чего ждать

25.04.2026 • Хабр

Практический разбор показывает, какие локальные LLM можно запустить на слабом ПК через Ollama: от моделей для 2–4 ГБ RAM до вариантов для 8–16 ГБ. Главная идея — квантизация и простая установка сделали локальные модели доступными без профессионального GPU, но скорость и качество сильно зависят от железа и размера модели.

Квантизация уменьшает веса с 32 бит до 4 бит, поэтому 7B-модель стала занимать 4–5 ГБ вместо 14 и весит в 3–4 раза меньше при минимальной потере качества. Ollama упрощает запуск: устанавливается одной командой, сама использует NVIDIA, AMD или Apple Metal при наличии GPU, а без него работает на CPU. Модели ставятся и запускаются командами вроде ollama run smollm2:1.7b, ollama run phi4-mini или ollama run qwen3:8b.

Модели разделены на три уровня железа. Для 2–4 ГБ RAM подходят быстрые, но ограниченные варианты вроде smollm2:1.7b, qwen3:0.6b, qwen3:1.7b и tinyllama; для 6–8 ГБ RAM — phi4-mini, phi3.5, llama3.2, gemma3:4b-it-qat, qwen3:4b и deepseek-r1:1.5b; для 8–16 ГБ RAM — qwen3:8b, qwen2.5-coder:7b, mistral-small и gemma3:12b-it-qat. Важное разделение — не только по размеру, но и по задачам: простая классификация, работа с русским текстом, код, изображения, длинный контекст или многошаговые рассуждения.

Краш-тест на Windows, CPU без видеокарты и Ollama v0.20.4 показал ожидаемый разрыв между скоростью и качеством. smollm2 работает быстро, но ошиблась в простой арифметике, разделив остаток яблок на трёх человек вместо двух; phi4-mini корректно решила задачу и написала аккуратную Python-функцию; qwen3:8b отвечает подробнее и держит логику, но на CPU даёт около 4–5 токенов в секунду. Поэтому локальные LLM на слабом железе полезны скорее для нишевых и ознакомительных задач, а не как полноценная замена облачным моделям.

Коротко

Квантизация снизила вес 7B-моделей с 14 ГБ до 4–5 ГБ, поэтому их стало реалистично запускать локально без профессионального GPU.
Ollama ставится одной командой, сама находит GPU при наличии и может запускать модели на CPU без ручной настройки окружения.
Для 2–4 ГБ RAM подходят маленькие модели для простых задач; для 6–8 ГБ и 8–16 ГБ доступны варианты с длинным контекстом и кодом.
Тест на CPU показал: qwen3:8b умнее и подробнее, но работает на скорости около 4–5 токенов в секунду.
Быстрые маленькие модели могут ошибаться даже на простой логике: smollm2 неверно решила задачу с яблоками и двумя друзьями.

FAQ

Зачем вообще запускать локальные LLM на слабом компьютере, если облачные модели обычно быстрее и сильнее?

Локальный запуск полезен для тестов, обучения, небольших автоматизаций и задач, где важны автономность и отсутствие ручной настройки сложного окружения.

Какая роль у Ollama в запуске локальных моделей и почему в разборе используется именно этот инструмент?

Ollama убирает большую часть технической рутины: устанавливается просто, сам подхватывает GPU при наличии и скачивает модели при первом запуске.

Можно ли считать маленькие локальные модели полноценной заменой облачным LLM для сложных рабочих задач?

Нет. По тесту они подходят для нишевых сценариев и ознакомления, но слабые модели ошибаются, а более сильные на CPU отвечают медленно.

PubMag

Локальные LLM на слабом железе: что ставить, как запускать и чего ждать

Коротко

FAQ

Зачем вообще запускать локальные LLM на слабом компьютере, если облачные модели обычно быстрее и сильнее?

Какая роль у Ollama в запуске локальных моделей и почему в разборе используется именно этот инструмент?

Можно ли считать маленькие локальные модели полноценной заменой облачным LLM для сложных рабочих задач?

Читайте также