Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)
- Для сравнения использованы gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ).
- Тесты запускались на ПК с Intel Core i9 14900K и 192 ГБ ОЗУ.
- На CPU модель gpt-oss:20b отвечала около 35 минут и дала неверный результат; после замечания о неверности второй ответ занял 23 минуты и тоже оказался неправильным.
- На CPU модель gpt-oss:120b потребовала 65 ГБ памяти и выдала верный результат за 17 минут.
- На GPU RTX 4090 (в системе две карты, суммарно 96 ГБ VRAM) gpt-oss:20b решила задачу примерно за 3 минуты, корректно, используя одну видеокарту.
- На GPU gpt-oss:120b дала верное решение примерно за 1,5 минуты, по описанию автора — с использованием 2 GPU.
Почему это важно: Этот пример показывает, что выбор железа и размер модели могут менять не только скорость, но и вероятность получить корректный ответ на сложной задаче. В прикладных сценариях это напрямую влияет на стоимость и предсказуемость инференса. Отдельно подсвечивается, что скорость и точность расходятся даже между моделями одной серии при запуске на CPU.
На что обратить внимание: В качестве нагрузки использована одна «каверзная» логическая задача, поэтому выводы относятся к этому конкретному типу промпта и проверке результата по ожидаемому решению. В описании сравниваются не только задержки, но и факт корректности ответа на двух попытках у 20b на CPU. Также важны ограничения по ресурсам: для 120b на CPU упомянут минимум по памяти, а для GPU — количество карт и суммарный объём VRAM.
Коротко
- Тест иллюстрирует, что сравнение «CPU против GPU» в LLM упирается не только в задержку, но и в вероятность получить корректный результат.
- Пример показывает практическую развилку: компактные модели легче запускать на обычных ПК, но на сложных запросах это может оборачиваться долгим ожиданием без пользы.
- Для интерпретации такого сравнения важна формулировка задачи и критерий «верно/неверно»: здесь это логическая головоломка с однозначным ожидаемым ответом.
- При планировании инференса критичны ресурсные пороги: для старшей модели автор отдельно отмечает требование к ОЗУ на CPU и к объёму VRAM при запуске на GPU.
- Наблюдение из текста: ускорение на GPU выглядит кратным, а старшая модель в этом тесте одновременно быстрее и точнее, что не всегда интуитивно ожидается.
FAQ
Зачем это важно и в чём практический смысл теста с gpt-oss:20b и gpt-oss:120b на CPU и GPU для понимания инференса LLM в реальных задачах?
По описанию автора, результаты показывают, что железо и размер модели могут одновременно влиять и на скорость, и на корректность ответа на сложном запросе.
Какие модели и какие ресурсы использовались в сравнении: размеры моделей, конфигурация CPU-теста и упомянутая конфигурация GPU в системе автора?
Сравнивались gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ) на Intel Core i9 14900K с 192 ГБ ОЗУ, а для GPU упомянуты две RTX 4090 с суммарно 96 ГБ VRAM.
Какие результаты по времени и корректности автор получил при запуске без GPU и что изменилось при запуске на GPU для каждой из двух моделей в его эксперименте?
На CPU 20b отвечала десятки минут и дважды ошиблась, 120b дала верный ответ за 17 минут; на GPU 20b решила примерно за 3 минуты, а 120b — примерно за 1,5 минуты.
Читайте также
Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
Как я настроил OpenClaw для зоопарка лендингов своей компании
Вайбкодинг с Claude: оформление Telegram-бота, UX и сценарии взаимодействия
Renga API: автоматизируем автоматизацию с помощью ИИ-агентов
Ваш ноутбук пока не готов к LLM, но скоро это изменится
- Как бенчмаркать инференс: измерять не только скорость, но и корректность: Для сравнения CPU/GPU и моделей разных размеров недостаточно мерить «время до ответа»: обязательно фиксировать, верен ли результат на задаче с проверяемым решением. Практика для внутреннего теста: брать детерминированные логические задачи/кейсы с однозначной проверкой, прогонять минимум 2 попытки и отдельно считать «время впустую» (долгое ожидание при неверном ответе).
[Методология / Бенчмаркинг LLM]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор сравнил инференс моделей gpt-oss:20b и gpt-oss:120b на Intel Core i9 14900K без GPU и с GPU RTX 4090. В его тесте старшая модель оказалась быстрее и дала верный ответ, а GPU сократил время решения до минут.