Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)
- Для сравнения использованы gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ).
- Тесты запускались на ПК с Intel Core i9 14900K и 192 ГБ ОЗУ.
- На CPU модель gpt-oss:20b отвечала около 35 минут и дала неверный результат; после замечания о неверности второй ответ занял 23 минуты и тоже оказался неправильным.
- На CPU модель gpt-oss:120b потребовала 65 ГБ памяти и выдала верный результат за 17 минут.
- На GPU RTX 4090 (в системе две карты, суммарно 96 ГБ VRAM) gpt-oss:20b решила задачу примерно за 3 минуты, корректно, используя одну видеокарту.
- На GPU gpt-oss:120b дала верное решение примерно за 1,5 минуты, по описанию автора — с использованием 2 GPU.
Почему это важно: Этот пример показывает, что выбор железа и размер модели могут менять не только скорость, но и вероятность получить корректный ответ на сложной задаче. В прикладных сценариях это напрямую влияет на стоимость и предсказуемость инференса. Отдельно подсвечивается, что скорость и точность расходятся даже между моделями одной серии при запуске на CPU.
На что обратить внимание: В качестве нагрузки использована одна «каверзная» логическая задача, поэтому выводы относятся к этому конкретному типу промпта и проверке результата по ожидаемому решению. В описании сравниваются не только задержки, но и факт корректности ответа на двух попытках у 20b на CPU. Также важны ограничения по ресурсам: для 120b на CPU упомянут минимум по памяти, а для GPU — количество карт и суммарный объём VRAM.
Читайте также
- Как бенчмаркать инференс: измерять не только скорость, но и корректность: Для сравнения CPU/GPU и моделей разных размеров недостаточно мерить «время до ответа»: обязательно фиксировать, верен ли результат на задаче с проверяемым решением. Практика для внутреннего теста: брать детерминированные логические задачи/кейсы с однозначной проверкой, прогонять минимум 2 попытки и отдельно считать «время впустую» (долгое ожидание при неверном ответе).
[Методология / Бенчмаркинг LLM]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Хабр
Автор сравнил инференс моделей gpt-oss:20b и gpt-oss:120b на Intel Core i9 14900K без GPU и с GPU RTX 4090. В его тесте старшая модель оказалась быстрее и дала верный ответ, а GPU сократил время решения до минут.