Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)

Автор сравнил инференс моделей gpt-oss:20b и gpt-oss:120b на Intel Core i9 14900K без GPU и с GPU RTX 4090. В его тесте старшая модель оказалась быстрее и дала верный ответ, а GPU сократил время решения до минут.

  • Для сравнения использованы gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ).
  • Тесты запускались на ПК с Intel Core i9 14900K и 192 ГБ ОЗУ.
  • На CPU модель gpt-oss:20b отвечала около 35 минут и дала неверный результат; после замечания о неверности второй ответ занял 23 минуты и тоже оказался неправильным.
  • На CPU модель gpt-oss:120b потребовала 65 ГБ памяти и выдала верный результат за 17 минут.
  • На GPU RTX 4090 (в системе две карты, суммарно 96 ГБ VRAM) gpt-oss:20b решила задачу примерно за 3 минуты, корректно, используя одну видеокарту.
  • На GPU gpt-oss:120b дала верное решение примерно за 1,5 минуты, по описанию автора — с использованием 2 GPU.

Почему это важно: Этот пример показывает, что выбор железа и размер модели могут менять не только скорость, но и вероятность получить корректный ответ на сложной задаче. В прикладных сценариях это напрямую влияет на стоимость и предсказуемость инференса. Отдельно подсвечивается, что скорость и точность расходятся даже между моделями одной серии при запуске на CPU.

На что обратить внимание: В качестве нагрузки использована одна «каверзная» логическая задача, поэтому выводы относятся к этому конкретному типу промпта и проверке результата по ожидаемому решению. В описании сравниваются не только задержки, но и факт корректности ответа на двух попытках у 20b на CPU. Также важны ограничения по ресурсам: для 120b на CPU упомянут минимум по памяти, а для GPU — количество карт и суммарный объём VRAM.

Коротко

  • Тест иллюстрирует, что сравнение «CPU против GPU» в LLM упирается не только в задержку, но и в вероятность получить корректный результат.
  • Пример показывает практическую развилку: компактные модели легче запускать на обычных ПК, но на сложных запросах это может оборачиваться долгим ожиданием без пользы.
  • Для интерпретации такого сравнения важна формулировка задачи и критерий «верно/неверно»: здесь это логическая головоломка с однозначным ожидаемым ответом.
  • При планировании инференса критичны ресурсные пороги: для старшей модели автор отдельно отмечает требование к ОЗУ на CPU и к объёму VRAM при запуске на GPU.
  • Наблюдение из текста: ускорение на GPU выглядит кратным, а старшая модель в этом тесте одновременно быстрее и точнее, что не всегда интуитивно ожидается.

FAQ

Зачем это важно и в чём практический смысл теста с gpt-oss:20b и gpt-oss:120b на CPU и GPU для понимания инференса LLM в реальных задачах?

По описанию автора, результаты показывают, что железо и размер модели могут одновременно влиять и на скорость, и на корректность ответа на сложном запросе.

Какие модели и какие ресурсы использовались в сравнении: размеры моделей, конфигурация CPU-теста и упомянутая конфигурация GPU в системе автора?

Сравнивались gpt-oss:20b (14 ГБ) и gpt-oss:120b (65 ГБ) на Intel Core i9 14900K с 192 ГБ ОЗУ, а для GPU упомянуты две RTX 4090 с суммарно 96 ГБ VRAM.

Какие результаты по времени и корректности автор получил при запуске без GPU и что изменилось при запуске на GPU для каждой из двух моделей в его эксперименте?

На CPU 20b отвечала десятки минут и дважды ошиблась, 120b дала верный ответ за 17 минут; на GPU 20b решила примерно за 3 минуты, а 120b — примерно за 1,5 минуты.

Читайте также

  1. Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
  2. Как я настроил OpenClaw для зоопарка лендингов своей компании
  3. Вайбкодинг с Claude: оформление Telegram-бота, UX и сценарии взаимодействия
  4. Renga API: автоматизируем автоматизацию с помощью ИИ-агентов
  5. Ваш ноутбук пока не готов к LLM, но скоро это изменится
Ключевые инсайты из новости (по версии ChatGPT)
  • Как бенчмаркать инференс: измерять не только скорость, но и корректность: Для сравнения CPU/GPU и моделей разных размеров недостаточно мерить «время до ответа»: обязательно фиксировать, верен ли результат на задаче с проверяемым решением. Практика для внутреннего теста: брать детерминированные логические задачи/кейсы с однозначной проверкой, прогонять минимум 2 попытки и отдельно считать «время впустую» (долгое ожидание при неверном ответе).
    [Методология / Бенчмаркинг LLM]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!