Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
Tesla V100 сравнивается с современными серверными ускорителями и видеокартами NVIDIA. У карты нет поддержки FP8 и FP4, поэтому прямое сравнение с новыми GPU возможно в основном по FP16 и FP32; по FP16 современные A100, H100, H200, B200 и B300 сильно впереди, а ближе всего к V100 выглядят RTX 4070 и RTX 5070. При этом близкие TFLOPS не равны одинаковой скорости: у V100 тензорные ядра первого поколения, зато в задачах, ограниченных памятью, помогает HBM2 около 900 ГБ/с.
В LM Studio тестировались GGUF-модели Qwen3.6-35b-a3b, Qwen3.6-35b-a3b-mtp, GPT-OSS-20B и Gemma-4-e4b. Самой быстрой в генерации стала GPT-OSS-20B — 109,11 токена в секунду; Qwen3.6 с MTP дала 77,35 токена в секунду, обычная Qwen3.6 Q2_K_XL — 38,24, Gemma-4-e4b — 67,87, а Qwen3.6 Q4_K_M просела до 19,21 токена в секунду, потому что не поместилась полностью в память GPU. Версия Qwen с MTP ускоряет генерацию, но на CUDA llama.cpp v.2.15 работала нестабильно и уходила в CUDA error: out of memory, поэтому автор запускал её через Vulkan.
Практические тесты включали генерацию сайта, создание браузерной игры в стиле Flappy Bird и работу с docx-документом через word-tools. Все модели справились с базовыми задачами, но Qwen3.6-35b-a3b дала лучший результат по качеству кода и текста, GPT-OSS-20B чаще выигрывала по скорости, а Gemma-4-e4b оказалась слабее по итоговому качеству. Итоговая позиция автора: 16 ГБ VRAM — минимальный порог для комфортной локальной работы, а для Qwen3.6 в Q4 уже нужен объём памяти около 24 ГБ.
Коротко
- Tesla V100 сравнивали с современными NVIDIA GPU по FP16 и FP32, поскольку карта не поддерживает новые форматы FP8 и FP4.
- В LM Studio самая высокая скорость была у GPT-OSS-20B: 109,11 токена в секунду при размере модели 11,28 ГБ.
- Qwen3.6-35b-a3b Q4_K_M работала медленно — 19,21 токена в секунду, так как часть слоёв выгружалась в DDR4-память.
- Qwen3.6-35b-a3b-mtp ускорилась до 77,35 токена в секунду, но на CUDA была нестабильной и запускалась через Vulkan.
- В тестах кода и документов Qwen дала лучший результат по качеству, GPT-OSS-20B — по скорости, Gemma-4-e4b уступила по качеству.
FAQ
Зачем использовать Tesla V100 для локальных моделей ИИ, если есть более новые видеокарты NVIDIA?
По оценке автора, V100 остаётся доступной платформой для экспериментов с локальными LLM. Её сильная сторона — 16 ГБ HBM2 и высокая пропускная способность памяти.
Какая модель лучше всего показала себя на Tesla V100 в тестах LM Studio?
GPT-OSS-20B была самой быстрой по генерации текста, но Qwen3.6-35b-a3b автор оценил выше по качеству результатов в коде, игре и рерайте.
Почему важно, чтобы локальная LLM полностью помещалась в память видеокарты?
Когда модель не помещается в VRAM, часть слоёв выгружается в оперативную память ПК. В тесте это резко снизило скорость Qwen3.6 Q4_K_M до 19,21 токена в секунду.
Читайте также
Capacitor: от веба к мобильным приложениям. Часть 4. Интегрируем локальную LLM в проект
Qwen3.6 27B MTP добавляет около 0,3 ГБ веса и ускоряет генерацию примерно в 2 раза: с 60 до 130 t/s без потерь
Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов
От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде
Самохостный AI-агент на почте, systemd и LLM
- Полная загрузка LLM в VRAM как главный фактор скорости: При локальном запуске LLM важно выбирать модель и квантование так, чтобы модель целиком помещалась в память GPU. В тесте Qwen3.6-35b-a3b Q4_K_M размером 20,55 ГБ не поместилась в 16 ГБ VRAM Tesla V100 и работала на 19,21 токена в секунду, тогда как версия Q2_K_XL размером 13,11 ГБ работала на 38,24 токена в секунду.
[Локальные LLM / Инфраструктура]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Третья часть обзора Tesla V100 проверяет, насколько старый серверный ускоритель пригоден для локальных LLM в LM Studio. Главный вывод: карта всё ещё подходит для экспериментов с ИИ, но скорость резко зависит от того, помещается ли модель целиком в VRAM.