Локальные LLM на слабом железе: что ставить, как запускать и чего ждать
Квантизация уменьшает веса с 32 бит до 4 бит, поэтому 7B-модель стала занимать 4–5 ГБ вместо 14 и весит в 3–4 раза меньше при минимальной потере качества. Ollama упрощает запуск: устанавливается одной командой, сама использует NVIDIA, AMD или Apple Metal при наличии GPU, а без него работает на CPU. Модели ставятся и запускаются командами вроде ollama run smollm2:1.7b, ollama run phi4-mini или ollama run qwen3:8b.
Модели разделены на три уровня железа. Для 2–4 ГБ RAM подходят быстрые, но ограниченные варианты вроде smollm2:1.7b, qwen3:0.6b, qwen3:1.7b и tinyllama; для 6–8 ГБ RAM — phi4-mini, phi3.5, llama3.2, gemma3:4b-it-qat, qwen3:4b и
deepseek-r1:1.5b; для 8–16 ГБ RAM — qwen3:8b, qwen2.5-coder:7b,
mistral-small и gemma3:12b-it-qat. Важное разделение — не только по размеру, но и по задачам: простая классификация, работа с русским текстом, код, изображения, длинный контекст или многошаговые рассуждения.
Краш-тест на Windows, CPU без видеокарты и Ollama v0.20.4 показал ожидаемый разрыв между скоростью и качеством. smollm2 работает быстро, но ошиблась в простой арифметике, разделив остаток яблок на трёх человек вместо двух; phi4-mini корректно решила задачу и написала аккуратную Python-функцию; qwen3:8b отвечает подробнее и держит логику, но на CPU даёт около 4–5 токенов в секунду. Поэтому локальные LLM на слабом железе полезны скорее для нишевых и ознакомительных задач, а не как полноценная замена облачным моделям.
Коротко
- Квантизация снизила вес 7B-моделей с 14 ГБ до 4–5 ГБ, поэтому их стало реалистично запускать локально без профессионального GPU.
- Ollama ставится одной командой, сама находит GPU при наличии и может запускать модели на CPU без ручной настройки окружения.
- Для 2–4 ГБ RAM подходят маленькие модели для простых задач; для 6–8 ГБ и 8–16 ГБ доступны варианты с длинным контекстом и кодом.
- Тест на CPU показал: qwen3:8b умнее и подробнее, но работает на скорости около 4–5 токенов в секунду.
- Быстрые маленькие модели могут ошибаться даже на простой логике: smollm2 неверно решила задачу с яблоками и двумя друзьями.
FAQ
Зачем вообще запускать локальные LLM на слабом компьютере, если облачные модели обычно быстрее и сильнее?
Локальный запуск полезен для тестов, обучения, небольших автоматизаций и задач, где важны автономность и отсутствие ручной настройки сложного окружения.
Какая роль у Ollama в запуске локальных моделей и почему в разборе используется именно этот инструмент?
Ollama убирает большую часть технической рутины: устанавливается просто, сам подхватывает GPU при наличии и скачивает модели при первом запуске.
Можно ли считать маленькие локальные модели полноценной заменой облачным LLM для сложных рабочих задач?
Нет. По тесту они подходят для нишевых сценариев и ознакомления, но слабые модели ошибаются, а более сильные на CPU отвечают медленно.
Читайте также
- Квантизация как способ запускать LLM без профессионального GPU: Сжатие весов модели с 32-битной до 4-битной точности делает локальный запуск заметно доступнее: 7B-модель может занимать 4-5 ГБ вместо 14 ГБ. Для внутренних AI-инструментов это означает, что часть задач можно тестировать на обычных рабочих машинах, если заранее учитывать потерю скорости и возможное снижение качества.
[AI-инфраструктура]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться

Практический разбор показывает, какие локальные LLM можно запустить на слабом ПК через Ollama: от моделей для 2–4 ГБ RAM до вариантов для 8–16 ГБ. Главная идея — квантизация и простая установка сделали локальные модели доступными без профессионального GPU, но скорость и качество сильно зависят от железа и размера модели.