Как я собрал LLM-печку на четырёх GPU и что она умеет

Домашняя LLM-сборка на четырёх RTX 3090/3090 Ti показывает, что серьёзный локальный инференс можно поднять на потребительском железе. Главная ценность — практический опыт: как подключить 4 GPU, что реально ускоряется, где появляются ограничения и сколько стоит постоянная работа агентов.

Финальная конфигурация собрана вокруг ASUS ROG STRIX x870E-e, Ryzen 9950x, 192 ГБ RAM, блока питания на 2 кВт и четырёх видеокарт RTX 3090/3090 Ti с суммарными 96 ГБ VRAM. Система работает на Windows 11 без WSL, для инференса используется llama.cpp, для агентского кодинга — Opencode. Корпус Fractal Design Meshify 2 XL удалось закрыть без «Франкенштейна», но охлаждение пришлось строить серьёзно: в сборке 16 вентиляторов и несколько радиаторов СЖО.

Главный технический приём — подключение дополнительных GPU через M2 → PCI-e x4 адаптеры и райзеры, потому что на плате физически мало PCI-e слотов. Рабочей оказалась не любая комбинация: адаптеру нужно SATA-питание, часть райзеров давала нестабильность, а иногда помогало снижение режима M2-слота до PCI-e Gen3. При медленной шине оптимальным для llama.cpp стал не row split, а layer split: модель делится по слоям, поэтому нагрузка на обмен между картами небольшая, но рост числа GPU даёт доступ к более крупным моделям, а не линейный прирост скорости.

В стресс-тесте система потребляла 1700–1850 Вт, выше 1900 Вт автор не видел, а на длительном инференсе потребление обычно не превышало 750 Вт. 96 ГБ видеопамяти позволяют запускать qwen3.6-27b, qwen3.6-35B-A10B и Gemma-31B с большим контекстом без квантования, а более крупные модели — с квантованием; фаворитом автора стала Qwen3.5-122B-A10B-Q5_K_S с контекстом 160 тыс. токенов. Выгрузка части слоёв в RAM на потребительском ПК оказалась медленной: для моделей на 159–228 ГБ скорость генерации держалась около 3,5 токена в секунду, поэтому большой объём обычной RAM не заменяет VRAM.

Коротко

  • Сборка использует 2×RTX 3090 и 2×RTX 3090 Ti: суммарно 96 ГБ VRAM для локального запуска LLM и агентского кодинга.
  • Дополнительные GPU подключены через M2 → PCI-e x4 адаптеры; стабильность зависит от питания, райзеров и режима PCI-e.
  • Для llama.cpp при медленной шине лучше подошло разделение модели по слоям, а не row split с активным обменом между GPU.
  • На инференсе сборка редко превышает 750 Вт и выдерживает длительную работу, но стресс-тест доходил до 1700–1850 Вт.
  • Попытка использовать RAM для крупных моделей дала низкую скорость: около 3,5 токена в секунду на моделях весом 159–228 ГБ.

FAQ

Зачем собирать домашний ПК для локального запуска LLM, если можно пользоваться Claude, OpenRouter или другими облачными сервисами?

Автору важны отсутствие лимитов, контроль над данными и возможность экспериментировать с агентским кодингом без счетов за токены. Экономика спорная из-за высокой цены железа, но операционные расходы на инференс оказались ниже облачных расчётов в его сценарии.

Почему четыре RTX 3090/3090 Ti не дают линейного роста скорости генерации токенов в локальных LLM?

При layer split видеокарты работают как последовательный пайплайн по слоям модели. Дополнительные GPU позволяют загрузить более крупную модель или больший контекст, но сама генерация может даже замедляться из-за увеличения числа слоёв.

Какие модели автор считает наиболее практичными для такой домашней конфигурации с 96 ГБ VRAM?

Для небольших моделей с большим контекстом он называет qwen3.6-27b, qwen3.6-35B-A10B и Gemma-31B. В качестве текущего фаворита выделяет Qwen3.5-122B-A10B-Q5_K_S с контекстом 160 тыс. токенов.

Читайте также

  1. Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
  2. Qwen3.6 27B MTP добавляет около 0,3 ГБ веса и ускоряет генерацию примерно в 2 раза: с 60 до 130 t/s без потерь
  3. Capacitor: от веба к мобильным приложениям. Часть 4. Интегрируем локальную LLM в проект
  4. Как я локально тестировал новый Qwen 3.6 и Gemma 4
  5. Новый релиз Ollama 0.15.5
Ключевые инсайты из новости (по версии ChatGPT)
  • Локальный LLM-инференс на потребительском multi-GPU железе: Для внутренней AI-инфраструктуры можно рассматривать не только серверы и HEDT-платформы, но и мощные потребительские ПК с несколькими GPU. Конфигурация с 4 RTX 3090/3090 Ti даёт 96 ГБ VRAM и позволяет запускать рабочие LLM с большим контекстом локально, но требует ручной настройки питания, охлаждения, райзеров и распределения модели.
    [AI-инфраструктура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!