Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

24.11.2025 • Хабр

Статья разбирает экономику LLM-сервиса с нагрузкой около 100 000 диалогов в сутки: в среднем это ~900 токенов на вход и ~1 200 токенов на выход на диалог, что даёт 1,16 RPS в среднем и до 5,63 RPS в пике. В базовом сценарии с облачной моделью GPT-4o-mini такой трафик обходится примерно в $84,5 в день или около $2 535 в месяц.

Далее автор сравнивает три подхода: облачный API, аренду GPU и собственный кластер. Кластер из шести A100 на RunPod (под модель уровня Qwen2.5-32B-Instruct) стоит порядка $8 165 в месяц и даёт гибкость и контроль над моделями, но заметно дороже облака. Свой железный стенд оценивается в $106 000 CapEx плюс колокация, электричество и DevOps, что в пересчёте на месяц даёт около $6 585 при горизонте владения.

Порог, после которого self-hosted начинает выигрывать у GPT-4o-mini по деньгам, автор оценивает примерно в 140 000 диалогов в день или сценарии с очень длинным контекстом (>100 000 токенов). Отдельно подчёркиваются неценовые мотивы выбора локальной инфраструктуры: конфиденциальность данных, соответствие GDPR/152-ФЗ и стабильность стека. В качестве примера приводится SAST-агент на Qwen2.5-Coder для сканирования ~50 репозиториев (около 1 000 запусков в день): при такой нагрузке локальное решение на A100 (~$868/мес) уже сопоставимо с GPT-4o-mini (~$990/мес), что делает гибридные и on-prem-сценарии особенно привлекательными для enterprise-кейсов.

PubMag

Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

Читайте также