Личное облако на Proxmox: нейросети, LLM и эмбеддинги

Статья описывает практический кейс превращения домашнего сервера на Proxmox в личное облако для LLM и embedding моделей на базе Intel iGPU.

Автор использует Asus NUC с процессором Intel двенадцатого поколения, 12 ядрами CPU, встроенной графикой Iris Xe и NPU, поверх ранее настроенной сети с VLAN, OPNSense, Suricata и вынесенным на сервер инстансом Mastodon.

Ключевая цель — пробросить Intel GPU с хоста Proxmox в LXC контейнер, а затем в Docker, чтобы запустить OpenVINO Model Server и обслуживать embedding запросы по HTTP, совместимые с популярными API.

  • Пошаговая установка драйверов Intel и репозиториев на Proxmox и в LXC, настройка групп render и video, отключение AppArmor для поддержки nested Docker.
  • Поиск и выбор embedding модели на Hugging Face, конвертация BAAI/bge-large-en-v1.5 в формат OpenVINO через контейнер openvino/model_server с квантизацией до int8 и отдельной конвертацией токенизатора.
  • Настройка конфигурации моделей и Mediapipe графа, сбор docker-compose с пробросом /dev/dri, переменными RENDER_GID и YOUR_UID, запуск OVMS образа latest-gpu.
  • Тестирование API конфигурации и endpoint v3/embeddings через curl, проверка статуса модели и мониторинг загрузки GPU утилитой intel_gpu_top.

В результате пользователь получает недорогую и управляемую локальную инфраструктуру для RAG сценариев, тегирования медиаконтента и интеграции через MCP с любыми внешними LLM, не передавая исходные данные в облачные сервисы.

Читайте также

  1. RAG и Ragas: как обучить AI-помощника без галлюцинаций
  2. Как я переделал свой мини-ПК и зачем мне это было нужно
  3. Вам нужна RAM, а не VRAM: параметр -cmoe для локального запуска больших MoE-LLM. Ускоряем GPT-OSS-120B
  4. Интенсивный курс «AI-агенты» от Google. День 5: AgentOps и вывод агентов в продакшн
  5. Как за вечер собрать простую RAG-систему на PHP с Neuron AI
Ключевые инсайты из новости (по версии ChatGPT)
  • Домашний inference-узел на Proxmox с Intel iGPU: Мини ПК Asus NUC с процессором Intel двенадцатого поколения, встроенной графикой Iris Xe и 12 ядрами CPU можно использовать как недорогой inference-узел для эмбеддингов и компактных LLM. Конфигурация с Proxmox, LXC и Docker позволяет запускать несколько AI сервисов одновременно и покрывать задачи RAG, тегирования контента и внутренних ассистентов без аренды облака.
    [AI-инфраструктура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!