2 Viewpoints of MSE vs Cross-entropy loss

2020. 4. 11. 17:41

TL;DR

Mean squared error (MSE), Cross entropy 에 대한 (1) Backpropagation 효율, (2) Likelihood 관점에서의 비교

(1) Backpropagation 효율

간단한 NN - $z = wx+b, a = \sigma(z), GT = y$, 전부 스칼라라고 하자

MSE의 경우 다음과 같이 된다:

$L = \frac{(a-y)^2}{2}$
업데이트할 Gradients $\nabla w = x\sigma'(z)(a-y)$, $\nabla b = \sigma'(z)(a-y)$
$\sigma$의 Gradient에 의해서 해당 값은 작고, 결과적으로 느리게 학습된다.

Cross-entropy의 경우 위와 같은 상황에서 $\sigma$의 미분값이 사라진다!

$L=-(y log a + (1-y)log(1-a))$
$\nabla_{a}L = \frac{a-y}{(1-a)a}, \sigma'(z) = (1-a)a$
두 항을 곱하면 (a - y) !

(2) Maximum Likelihood 관점

확률분포 관점에서 네트워크 출력을 보면, 정해진 확률분포 (e.g. 가우시안, 베르누이 등) 에서 출력이 나올 확률이라고 해석할 수 있습니다.

즉, 우리가 $p(y | f_{\theta}(x))$라고 쓴 네트워크의 아웃풋에서 $f_\theta(x)$가 하는 역할은 확률분포의 모수를 추정하는 것입니다. 예를 들어, 이는 가우시안 분포의 $\mu, \sigma$를 예측을 하는 것이고 loss로 스칼라 하나가 나오는 것은 추정된 분포에서 ground truth (y)의 likelihood를 평가하는 것 입니다. 아래 그림에서 이와 같은 관점이 잘 설명되어 있습니다:

그리고 이러한 likelihood를 최대화 (maximization)를 하기 바라기 때문에 $-log$을 붙여 주어서 Negative log likelihood loss로 사용하는데, 따라서 이 관점에서는 Loss를 최소화 시키는 것은, likelihood를 최대화 시키는 것이 됩니다. 또한 확률 분포를 찾은 것이기 때문에, 샘플링을 한다고 볼 수 있습니다. 근데, 해석이긴 하지만 Negative log likelihood loss가 NN을 학습시키는 적합한 loss로 사용될 있을까요? Backpropagation에 사용될 수 있는 loss는 아래와 같은 두 가지 가정을 충족해야 합니다.

(A1) Total loss of DNN over training samples is the sum of loss for each training sample
(A2) Loss for each training example is a function of final output of DNN

일반적으로 likelihood를 추정하기 위한 학습 데이터에 대해서 i.i.d 조건을 가정하기 때문에 적합한 loss 입니다.

All of our data is independent of each other (Independence) ~ (A1) 만족
Our data is identically distributed (Identical Distribution) ~ (A2) 만족

한편 데이터가 Univariate 혹은 Mutivariate 할 경우, Gaussian 분포, Bernoulli / Categorical 분포의 모수를 추정한다고 가정했을 때, 각 경우 어떤 loss가 적합한지 고민해 볼 수 있습니다. 결론부터 이야기하면 Gaussian 분포 모수 추정시에는 MSE가, Bernoulli / Categorical 분포 모수 추정시에는 Cross-entropy가 적합한 loss입니다. 수식 유도는 이활석님 슬라이드에서 가져왔습니다: