Эксперимент: запуск DeepSeek R1 671B и работа с контекстом 160k на домашнем ПК — разбор, оптимизация и выводы
В авторском разборе эксперимента на
Хабре впервые подробно показан запуск масштабной модели
DeepSeek R1 (671B параметров) в локальных условиях на игровом ПК с ограниченными ресурсами. Классическая R1 требует 700 ГБ в FP8, но здесь тестируется экстремально компактный квант IQ1_S_R4 размером 130 ГБ, что позволяет запустить её на системах с 128/192 ГБ RAM и одной GPU (4060 Ti 16ГБ или 4090 24ГБ).
- Запуск производится через специализированный форк ik_llama.cpp с поддержкой современных методов квантования (R4, iq4_ks), что позволяет достигать разумного качества даже при миниатюрном размере модели.
- Демонстрируется приём разнесения тензоров между GPU/CPU через
-otдля существенного ускорения инференса, а также работа с MLA (Multi-head Latent Attention) — ключевой технологией DeepSeek, снижающей требования к памяти на длинных контекстах. - Эксперимент подтверждает, что при грамотной оптимизации пользовательский ПК способен обрабатывать и держать в памяти до 80–160 тысяч токенов (на 4090 — до 80к контекста, на Llama4 Maverick — до 210к), при этом даже экстремальные кванты обеспечивают связные и точные ответы по огромному контексту (например, пересказ и цитирование по книге на 100к+ токенов).
- В тесте детально разобраны бенчмарки производительности (PP/tg), архитектурные особенности MoE-моделей, практики запуска и квантования, а также сравнительный анализ DeepSeek, Llama 4 и Gemma3 для обработки длинных последовательностей.
- Результаты: ускорение MoE-моделей через -ot, SWA и MLA-кеширование позволяют энтузиастам запускать SOTA-модели на обычных домашних машинах, а уровень качества у мини-квантов DeepSeek R1 оказывается выше ожиданий.
Материал будет полезен инженерам, ML-энтузиастам, интеграторам и специалистам AdTech, занимающимся локальным запуском LLM на своих ресурсах.
Читайте также
Как начинающему аналитику эффективно собирать требования
Эволюция управления продуктом: ключевые инструменты и фреймворки 2024–2025
Китай инвестирует до $98 млрд в искусственный интеллект к 2025 году
10-кратное ускорение дизайн-процессов с помощью ChatGPT: кейсы и практики
Перевод текста с помощью нейросетей и сервисов: тестирование современных моделей
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!