Личное облако на Proxmox: нейросети, LLM и эмбеддинги

17.11.2025 •

Статья описывает практический кейс превращения домашнего сервера на Proxmox в личное облако для LLM и embedding моделей на базе Intel iGPU.

Автор использует Asus NUC с процессором Intel двенадцатого поколения, 12 ядрами CPU, встроенной графикой Iris Xe и NPU, поверх ранее настроенной сети с VLAN, OPNSense, Suricata и вынесенным на сервер инстансом Mastodon.

Ключевая цель — пробросить Intel GPU с хоста Proxmox в LXC контейнер, а затем в Docker, чтобы запустить OpenVINO Model Server и обслуживать embedding запросы по HTTP, совместимые с популярными API.

Пошаговая установка драйверов Intel и репозиториев на Proxmox и в LXC, настройка групп render и video, отключение AppArmor для поддержки nested Docker.
Поиск и выбор embedding модели на Hugging Face, конвертация BAAI/bge-large-en-v1.5 в формат OpenVINO через контейнер openvino/model_server с квантизацией до int8 и отдельной конвертацией токенизатора.
Настройка конфигурации моделей и Mediapipe графа, сбор docker-compose с пробросом /dev/dri, переменными RENDER_GID и YOUR_UID, запуск OVMS образа latest-gpu.
Тестирование API конфигурации и endpoint v3/embeddings через curl, проверка статуса модели и мониторинг загрузки GPU утилитой intel_gpu_top.

В результате пользователь получает недорогую и управляемую локальную инфраструктуру для RAG сценариев, тегирования медиаконтента и интеграции через MCP с любыми внешними LLM, не передавая исходные данные в облачные сервисы.

Личное облако на Proxmox: нейросети, LLM и эмбеддинги

Читайте также