Делаем свой ChatGPT за $10 в месяц: разворачиваем LLM на облаке. Подробный гайд на VPS + API-обертка
Пошаговый гайд по развёртыванию «своего
ChatGPT» на VPS с Ollama показывает, как обойти риски облачных ИИ-сервисов (конфиденциальность, геоблокировки, лимиты) и получить локальный бот с API совместимым с OpenAI. Автор трезво корректирует маркетинговое обещание: инстанса «за $10» не хватает — для Mistral-7B-Instruct в q4 требуется минимум 4 vCPU и 8 ГБ ОЗУ (сама модель потребляет ≈5,3 ГБ RAM). Для ультралёгких сценариев подойдут Gemma-2B/TinyLlama, баланс качества и мультиязычности дают Phi-3 Mini, Gemma-3:4B, Qwen 2.5 4B; лидер среди 7B — Mistral 7B.
- Развёртывание: apt-обновления → установка Ollama → загрузка модели → запуск и проверка через curl/Postman и Python (OpenAI SDK с кастомным base_url).
- UI: Open WebUI в Docker (host-network), смена endpoint на http://localhost:11434.
- Продакшен-нюансы: reverse-proxy (nginx), домен и TLS, персистентные volume для WebUI, мониторинг, разграничение доступа и токены; возможен переход на Managed Kubernetes.
Итог: практичный рецепт локального LLM-стека для командной работы и интеграций без утечки данных в облако.
Читайте также
Ключевые инсайты из новости (по версии ChatGPT)
- Минимальные ресурсы для 7B на VPS: Для запуска Mistral-7B-Instruct в квантовке q4 нужен минимум 4 vCPU и 8 ГБ ОЗУ; реальное потребление модели ≈5,3 ГБ RAM. Free-tier с 2 vCPU/4 ГБ и «инстанс за $10» не подходят, что важно для планирования CAPEX/OPEX.
[инфраструктура]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!
Хабр