SoftMax: как нейросети превращают логиты в уверенные вероятности — разбор с примерами и математикой

26.01.2026 • Хабр

Разбор объясняет, как SoftMax переводит выходные логиты нейросети в вероятности для многоклассовой классификации. На примерах показаны шаги вычисления, температура и связка с Cross-Entropy.

SoftMax описан как стандарт для многоклассовой классификации: распределяет вероятности по K классам так, чтобы их сумма была равна 1.
Пример логитов для трёх классов погоды: 5.2, 0.8 и -3.1; без нормализации их нельзя напрямую интерпретировать как вероятность.
В примере с классами «пицца/бургер/салат» показаны шаги: e^4≈54.598, e^2≈7.389, e^-1≈0.368 и последующая нормализация.
Результат нормализации для примера: 0.876 (87.6%), 0.119 (11.9%), 0.006 (0.6%); сумма вероятностей равна 1.
Введена температура T в формуле: при T=3 распределение становится более ровным, при T=0.3 — почти «жёстким».
Отмечена связка SoftMax + Cross-Entropy Loss: градиент пары сводится к hat{y} - y для one-hot метки.

Почему это важно: SoftMax превращает «грубые» выходы модели в вероятности, поэтому результат можно интерпретировать и сравнивать альтернативы между классами. В материале логиты превращаются в вероятности, что облегчает обсуждение уверенности и работу с функцией потерь при обучении.

На что обратить внимание: В тексте SoftMax сопоставляется с Hard Max: жёсткий выбор 1/0 даёт почти нулевой градиент и плохо подходит для обучения. Также описана температура T — температура меняет уверенность распределения и влияет на баланс между «экспериментами» и точностью. SoftMax обычно рассматривается вместе с Cross-Entropy, где градиент упрощается.

Коротко

SoftMax нужен для многоклассовых задач: он превращает выход модели в распределение вероятностей, где сумма по классам равна 1.
Параметр температуры T меняет «резкость» распределения: выше T — больше разнообразия, ниже T — больше уверенности и повторяемости.
Связка SoftMax и Cross-Entropy упрощает обучение: в тексте градиент сводится к hat{y} - y, что удобно для backpropagation.
Сравнение с Hard Max объясняет, почему «жёсткое» 1/0 мешает обучению: градиент почти всегда становится нулевым и модель застревает.
Примеры с логитами показывают разницу между «сырыми» числами и вероятностями: интерпретация становится возможной только после нормализации.

FAQ

Зачем в нейросетях нужна функция SoftMax и почему её называют стандартом для многоклассовой классификации, когда на выходе — набор логитов?

Она преобразует логиты в вероятности по классам так, чтобы значения были от 0 до 1 и суммировались в 1, делая предсказание интерпретируемым.

Что такое логиты на выходе нейросети и почему их нельзя напрямую трактовать как вероятность для классов вроде «солнечно», «дождливо», «снежно»?

Логиты — это сырые числовые оценки после слоёв сети, они могут быть любыми по знаку и масштабу. SoftMax нормализует их в вероятности.

Как в формуле SoftMax работает параметр температуры T и что меняется при T>1, T<1 и T=1 с точки зрения уверенности распределения?

Температура делит логиты перед экспонентой: при T>1 распределение становится более ровным, при T<1 — более «острым», а T=1 даёт обычный SoftMax.

Почему SoftMax часто используют вместе с Cross-Entropy Loss и какой вид принимает градиент этой пары, если целевая метка задана one-hot?

В материале указано, что в этой связке градиент сводится к hat{y} - y, что делает backpropagation простым и эффективным.

PubMag