Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)

19.02.2026 • Хабр

Автор сравнил инференс моделей gpt-oss:20b и gpt-oss:120b на Intel Core i9 14900K без GPU и с GPU RTX 4090. В его тесте старшая модель оказалась быстрее и дала верный ответ, а GPU сократил время решения до минут.

Для сравнения использованы gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ).
Тесты запускались на ПК с Intel Core i9 14900K и 192 ГБ ОЗУ.
На CPU модель gpt-oss:20b отвечала около 35 минут и дала неверный результат; после замечания о неверности второй ответ занял 23 минуты и тоже оказался неправильным.
На CPU модель gpt-oss:120b потребовала 65 ГБ памяти и выдала верный результат за 17 минут.
На GPU RTX 4090 (в системе две карты, суммарно 96 ГБ VRAM) gpt-oss:20b решила задачу примерно за 3 минуты, корректно, используя одну видеокарту.
На GPU gpt-oss:120b дала верное решение примерно за 1,5 минуты, по описанию автора — с использованием 2 GPU.

Почему это важно: Этот пример показывает, что выбор железа и размер модели могут менять не только скорость, но и вероятность получить корректный ответ на сложной задаче. В прикладных сценариях это напрямую влияет на стоимость и предсказуемость инференса. Отдельно подсвечивается, что скорость и точность расходятся даже между моделями одной серии при запуске на CPU.

На что обратить внимание: В качестве нагрузки использована одна «каверзная» логическая задача, поэтому выводы относятся к этому конкретному типу промпта и проверке результата по ожидаемому решению. В описании сравниваются не только задержки, но и факт корректности ответа на двух попытках у 20b на CPU. Также важны ограничения по ресурсам: для 120b на CPU упомянут минимум по памяти, а для GPU — количество карт и суммарный объём VRAM.

Коротко

Тест иллюстрирует, что сравнение «CPU против GPU» в LLM упирается не только в задержку, но и в вероятность получить корректный результат.
Пример показывает практическую развилку: компактные модели легче запускать на обычных ПК, но на сложных запросах это может оборачиваться долгим ожиданием без пользы.
Для интерпретации такого сравнения важна формулировка задачи и критерий «верно/неверно»: здесь это логическая головоломка с однозначным ожидаемым ответом.
При планировании инференса критичны ресурсные пороги: для старшей модели автор отдельно отмечает требование к ОЗУ на CPU и к объёму VRAM при запуске на GPU.
Наблюдение из текста: ускорение на GPU выглядит кратным, а старшая модель в этом тесте одновременно быстрее и точнее, что не всегда интуитивно ожидается.

FAQ

Зачем это важно и в чём практический смысл теста с gpt-oss:20b и gpt-oss:120b на CPU и GPU для понимания инференса LLM в реальных задачах?

По описанию автора, результаты показывают, что железо и размер модели могут одновременно влиять и на скорость, и на корректность ответа на сложном запросе.

Какие модели и какие ресурсы использовались в сравнении: размеры моделей, конфигурация CPU-теста и упомянутая конфигурация GPU в системе автора?

Сравнивались gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ) на Intel Core i9 14900K с 192 ГБ ОЗУ, а для GPU упомянуты две RTX 4090 с суммарно 96 ГБ VRAM.

Какие результаты по времени и корректности автор получил при запуске без GPU и что изменилось при запуске на GPU для каждой из двух моделей в его эксперименте?

На CPU 20b отвечала десятки минут и дважды ошиблась, 120b дала верный ответ за 17 минут; на GPU 20b решила примерно за 3 минуты, а 120b — примерно за 1,5 минуты.

PubMag

Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)

Коротко

FAQ

Зачем это важно и в чём практический смысл теста с gpt-oss:20b и gpt-oss:120b на CPU и GPU для понимания инференса LLM в реальных задачах?

Какие модели и какие ресурсы использовались в сравнении: размеры моделей, конфигурация CPU-теста и упомянутая конфигурация GPU в системе автора?

Какие результаты по времени и корректности автор получил при запуске без GPU и что изменилось при запуске на GPU для каждой из двух моделей в его эксперименте?

Читайте также