SoftMax: как нейросети превращают логиты в уверенные вероятности — разбор с примерами и математикой

26.01.2026 • Хабр

Разбор объясняет, как SoftMax переводит выходные логиты нейросети в вероятности для многоклассовой классификации. На примерах показаны шаги вычисления, температура и связка с Cross-Entropy.

SoftMax описан как стандарт для многоклассовой классификации: распределяет вероятности по K классам так, чтобы их сумма была равна 1.
Пример логитов для трёх классов погоды: 5.2, 0.8 и -3.1; без нормализации их нельзя напрямую интерпретировать как вероятность.
В примере с классами «пицца/бургер/салат» показаны шаги: e^4≈54.598, e^2≈7.389, e^-1≈0.368 и последующая нормализация.
Результат нормализации для примера: 0.876 (87.6%), 0.119 (11.9%), 0.006 (0.6%); сумма вероятностей равна 1.
Введена температура T в формуле: при T=3 распределение становится более ровным, при T=0.3 — почти «жёстким».
Отмечена связка SoftMax + Cross-Entropy Loss: градиент пары сводится к hat{y} - y для one-hot метки.

Почему это важно: SoftMax превращает «грубые» выходы модели в вероятности, поэтому результат можно интерпретировать и сравнивать альтернативы между классами. В материале логиты превращаются в вероятности, что облегчает обсуждение уверенности и работу с функцией потерь при обучении.

На что обратить внимание: В тексте SoftMax сопоставляется с Hard Max: жёсткий выбор 1/0 даёт почти нулевой градиент и плохо подходит для обучения. Также описана температура T — температура меняет уверенность распределения и влияет на баланс между «экспериментами» и точностью. SoftMax обычно рассматривается вместе с Cross-Entropy, где градиент упрощается.

PubMag

SoftMax: как нейросети превращают логиты в уверенные вероятности — разбор с примерами и математикой

Читайте также