SoftMax: как нейросети превращают логиты в уверенные вероятности — разбор с примерами и математикой

Разбор объясняет, как SoftMax переводит выходные логиты нейросети в вероятности для многоклассовой классификации. На примерах показаны шаги вычисления, температура и связка с Cross-Entropy.

  • SoftMax описан как стандарт для многоклассовой классификации: распределяет вероятности по K классам так, чтобы их сумма была равна 1.
  • Пример логитов для трёх классов погоды: 5.2, 0.8 и -3.1; без нормализации их нельзя напрямую интерпретировать как вероятность.
  • В примере с классами «пицца/бургер/салат» показаны шаги: e^4≈54.598, e^2≈7.389, e^-1≈0.368 и последующая нормализация.
  • Результат нормализации для примера: 0.876 (87.6%), 0.119 (11.9%), 0.006 (0.6%); сумма вероятностей равна 1.
  • Введена температура T в формуле: при T=3 распределение становится более ровным, при T=0.3 — почти «жёстким».
  • Отмечена связка SoftMax + Cross-Entropy Loss: градиент пары сводится к hat{y} - y для one-hot метки.

Почему это важно: SoftMax превращает «грубые» выходы модели в вероятности, поэтому результат можно интерпретировать и сравнивать альтернативы между классами. В материале логиты превращаются в вероятности, что облегчает обсуждение уверенности и работу с функцией потерь при обучении.

На что обратить внимание: В тексте SoftMax сопоставляется с Hard Max: жёсткий выбор 1/0 даёт почти нулевой градиент и плохо подходит для обучения. Также описана температура T — температура меняет уверенность распределения и влияет на баланс между «экспериментами» и точностью. SoftMax обычно рассматривается вместе с Cross-Entropy, где градиент упрощается.

Читайте также

  1. 15+ лучших инструментов и гайдов Яндекса по ИИ
  2. Как заставить LLM сортировать данные: от наивного подхода до TrueSkill
  3. Как студент MIT ускорил реставрацию картин с помощью ИИ и полимерных масок
  4. Мультиагентные системы в LegalTech: как симуляция судебного процесса повышает точность прогнозов (разбор SimCourt)
  5. Ключевые понятия LLM: основы работы больших языковых моделей
Ключевые инсайты из новости (по версии ChatGPT)
  • SoftMax как нормализация логитов в вероятности: SoftMax применяется на выходе модели, когда есть несколько классов: он переводит произвольные логиты (в том числе отрицательные) в вероятности от 0 до 1 так, чтобы сумма по всем классам была равна 1. Это делает предсказания интерпретируемыми и сопоставимыми между классами, в отличие от «сырых» выходов сети.
    [ML/Модели и обучение]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!