Личное облако на Proxmox: нейросети, LLM и эмбеддинги
Статья описывает практический кейс превращения домашнего сервера на Proxmox в личное облако для LLM и embedding моделей на базе Intel iGPU.
Автор использует Asus NUC с процессором Intel двенадцатого поколения, 12 ядрами CPU, встроенной графикой Iris Xe и NPU, поверх ранее настроенной сети с VLAN, OPNSense, Suricata и вынесенным на сервер инстансом Mastodon.
Ключевая цель — пробросить Intel GPU с хоста Proxmox в LXC контейнер, а затем в Docker, чтобы запустить OpenVINO Model Server и обслуживать embedding запросы по HTTP, совместимые с популярными API.
- Пошаговая установка драйверов Intel и репозиториев на Proxmox и в LXC, настройка групп render и video, отключение AppArmor для поддержки nested Docker.
- Поиск и выбор embedding модели на Hugging Face, конвертация BAAI/bge-large-en-v1.5 в формат OpenVINO через контейнер openvino/model_server с квантизацией до int8 и отдельной конвертацией токенизатора.
- Настройка конфигурации моделей и Mediapipe графа, сбор docker-compose с пробросом /dev/dri, переменными RENDER_GID и YOUR_UID, запуск OVMS образа latest-gpu.
- Тестирование API конфигурации и endpoint v3/embeddings через curl, проверка статуса модели и мониторинг загрузки GPU утилитой intel_gpu_top.
В результате пользователь получает недорогую и управляемую локальную инфраструктуру для RAG сценариев, тегирования медиаконтента и интеграции через MCP с любыми внешними LLM, не передавая исходные данные в облачные сервисы.
Читайте также
- Домашний inference-узел на Proxmox с Intel iGPU: Мини ПК Asus NUC с процессором Intel двенадцатого поколения, встроенной графикой Iris Xe и 12 ядрами CPU можно использовать как недорогой inference-узел для эмбеддингов и компактных LLM. Конфигурация с Proxmox, LXC и Docker позволяет запускать несколько AI сервисов одновременно и покрывать задачи RAG, тегирования контента и внутренних ассистентов без аренды облака.
[AI-инфраструктура]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Хабр