Эксперимент: запуск DeepSeek R1 671B и работа с контекстом 160k на домашнем ПК — разбор, оптимизация и выводы

В авторском разборе эксперимента на впервые подробно показан запуск масштабной модели R1 (671B параметров) в локальных условиях на игровом ПК с ограниченными ресурсами. Классическая R1 требует 700 ГБ в FP8, но здесь тестируется экстремально компактный квант IQ1_S_R4 размером 130 ГБ, что позволяет запустить её на системах с 128/192 ГБ RAM и одной GPU (4060 Ti 16ГБ или 4090 24ГБ).

  • Запуск производится через специализированный форк ik_llama.cpp с поддержкой современных методов квантования (R4, iq4_ks), что позволяет достигать разумного качества даже при миниатюрном размере модели.
  • Демонстрируется приём разнесения тензоров между GPU/CPU через -ot для существенного ускорения инференса, а также работа с MLA (Multi-head Latent Attention) — ключевой технологией DeepSeek, снижающей требования к памяти на длинных контекстах.
  • Эксперимент подтверждает, что при грамотной оптимизации пользовательский ПК способен обрабатывать и держать в памяти до 80–160 тысяч токенов (на 4090 — до 80к контекста, на Llama4 Maverick — до 210к), при этом даже экстремальные кванты обеспечивают связные и точные ответы по огромному контексту (например, пересказ и цитирование по книге на 100к+ токенов).
  • В тесте детально разобраны бенчмарки производительности (PP/tg), архитектурные особенности MoE-моделей, практики запуска и квантования, а также сравнительный анализ DeepSeek, Llama 4 и Gemma3 для обработки длинных последовательностей.
  • Результаты: ускорение MoE-моделей через -ot, SWA и MLA-кеширование позволяют энтузиастам запускать SOTA-модели на обычных домашних машинах, а уровень качества у мини-квантов DeepSeek R1 оказывается выше ожиданий.

Материал будет полезен инженерам, ML-энтузиастам, интеграторам и специалистам AdTech, занимающимся локальным запуском LLM на своих ресурсах.

← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!