Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ

25.05.2026 • Хабр

Третья часть обзора Tesla V100 проверяет, насколько старый серверный ускоритель пригоден для локальных LLM в LM Studio. Главный вывод: карта всё ещё подходит для экспериментов с ИИ, но скорость резко зависит от того, помещается ли модель целиком в VRAM.

Tesla V100 сравнивается с современными серверными ускорителями и видеокартами NVIDIA. У карты нет поддержки FP8 и FP4, поэтому прямое сравнение с новыми GPU возможно в основном по FP16 и FP32; по FP16 современные A100, H100, H200, B200 и B300 сильно впереди, а ближе всего к V100 выглядят RTX 4070 и RTX 5070. При этом близкие TFLOPS не равны одинаковой скорости: у V100 тензорные ядра первого поколения, зато в задачах, ограниченных памятью, помогает HBM2 около 900 ГБ/с.

В LM Studio тестировались GGUF-модели Qwen3.6-35b-a3b, Qwen3.6-35b-a3b-mtp, GPT-OSS-20B и Gemma-4-e4b. Самой быстрой в генерации стала GPT-OSS-20B — 109,11 токена в секунду; Qwen3.6 с MTP дала 77,35 токена в секунду, обычная Qwen3.6 Q2_K_XL — 38,24, Gemma-4-e4b — 67,87, а Qwen3.6 Q4_K_M просела до 19,21 токена в секунду, потому что не поместилась полностью в память GPU. Версия Qwen с MTP ускоряет генерацию, но на CUDA llama.cpp v.2.15 работала нестабильно и уходила в CUDA error: out of memory, поэтому автор запускал её через Vulkan.

Практические тесты включали генерацию сайта, создание браузерной игры в стиле Flappy Bird и работу с docx-документом через word-tools. Все модели справились с базовыми задачами, но Qwen3.6-35b-a3b дала лучший результат по качеству кода и текста, GPT-OSS-20B чаще выигрывала по скорости, а Gemma-4-e4b оказалась слабее по итоговому качеству. Итоговая позиция автора: 16 ГБ VRAM — минимальный порог для комфортной локальной работы, а для Qwen3.6 в Q4 уже нужен объём памяти около 24 ГБ.

Коротко

Tesla V100 сравнивали с современными NVIDIA GPU по FP16 и FP32, поскольку карта не поддерживает новые форматы FP8 и FP4.
В LM Studio самая высокая скорость была у GPT-OSS-20B: 109,11 токена в секунду при размере модели 11,28 ГБ.
Qwen3.6-35b-a3b Q4_K_M работала медленно — 19,21 токена в секунду, так как часть слоёв выгружалась в DDR4-память.
Qwen3.6-35b-a3b-mtp ускорилась до 77,35 токена в секунду, но на CUDA была нестабильной и запускалась через Vulkan.
В тестах кода и документов Qwen дала лучший результат по качеству, GPT-OSS-20B — по скорости, Gemma-4-e4b уступила по качеству.

FAQ

Зачем использовать Tesla V100 для локальных моделей ИИ, если есть более новые видеокарты NVIDIA?

По оценке автора, V100 остаётся доступной платформой для экспериментов с локальными LLM. Её сильная сторона — 16 ГБ HBM2 и высокая пропускная способность памяти.

Какая модель лучше всего показала себя на Tesla V100 в тестах LM Studio?

GPT-OSS-20B была самой быстрой по генерации текста, но Qwen3.6-35b-a3b автор оценил выше по качеству результатов в коде, игре и рерайте.

Почему важно, чтобы локальная LLM полностью помещалась в память видеокарты?

Когда модель не помещается в VRAM, часть слоёв выгружается в оперативную память ПК. В тесте это резко снизило скорость Qwen3.6 Q4_K_M до 19,21 токена в секунду.

Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ

Коротко

FAQ

Зачем использовать Tesla V100 для локальных моделей ИИ, если есть более новые видеокарты NVIDIA?

Какая модель лучше всего показала себя на Tesla V100 в тестах LM Studio?

Почему важно, чтобы локальная LLM полностью помещалась в память видеокарты?

Читайте также