TL;DR
Mean squared error (MSE), Cross entropy 에 대한 (1) Backpropagation 효율, (2) Likelihood 관점에서의 비교
(1) Backpropagation 효율
간단한 NN - $z = wx+b, a = \sigma(z), GT = y$, 전부 스칼라라고 하자
MSE의 경우 다음과 같이 된다:
- $L = \frac{(a-y)^2}{2}$
- 업데이트할 Gradients $\nabla w = x\sigma'(z)(a-y)$, $\nabla b = \sigma'(z)(a-y)$
- $\sigma$의 Gradient에 의해서 해당 값은 작고, 결과적으로 느리게 학습된다.
Cross-entropy의 경우 위와 같은 상황에서 $\sigma$의 미분값이 사라진다!
- $L=-(y log a + (1-y)log(1-a))$
- $\nabla_{a}L = \frac{a-y}{(1-a)a}, \sigma'(z) = (1-a)a$
- 두 항을 곱하면 (a - y) !
(2) Maximum Likelihood 관점
확률분포 관점에서 네트워크 출력을 보면, 정해진 확률분포 (e.g. 가우시안, 베르누이 등) 에서 출력이 나올 확률이라고 해석할 수 있습니다.
즉, 우리가 $p(y | f_{\theta}(x))$라고 쓴 네트워크의 아웃풋에서 $f_\theta(x)$가 하는 역할은 확률분포의 모수를 추정하는 것입니다. 예를 들어, 이는 가우시안 분포의 $\mu, \sigma$를 예측을 하는 것이고 loss로 스칼라 하나가 나오는 것은 추정된 분포에서 ground truth (y)의 likelihood를 평가하는 것 입니다. 아래 그림에서 이와 같은 관점이 잘 설명되어 있습니다:
그리고 이러한 likelihood를 최대화 (maximization)를 하기 바라기 때문에 $-log$을 붙여 주어서 Negative log likelihood loss로 사용하는데, 따라서 이 관점에서는 Loss를 최소화 시키는 것은, likelihood를 최대화 시키는 것이 됩니다. 또한 확률 분포를 찾은 것이기 때문에, 샘플링을 한다고 볼 수 있습니다. 근데, 해석이긴 하지만 Negative log likelihood loss가 NN을 학습시키는 적합한 loss로 사용될 있을까요? Backpropagation에 사용될 수 있는 loss는 아래와 같은 두 가지 가정을 충족해야 합니다.
- (A1) Total loss of DNN over training samples is the sum of loss for each training sample
- (A2) Loss for each training example is a function of final output of DNN
일반적으로 likelihood를 추정하기 위한 학습 데이터에 대해서 i.i.d 조건을 가정하기 때문에 적합한 loss 입니다.
- All of our data is independent of each other (Independence) ~ (A1) 만족
- Our data is identically distributed (Identical Distribution) ~ (A2) 만족
한편 데이터가 Univariate 혹은 Mutivariate 할 경우, Gaussian 분포, Bernoulli / Categorical 분포의 모수를 추정한다고 가정했을 때, 각 경우 어떤 loss가 적합한지 고민해 볼 수 있습니다. 결론부터 이야기하면 Gaussian 분포 모수 추정시에는 MSE가, Bernoulli / Categorical 분포 모수 추정시에는 Cross-entropy가 적합한 loss입니다. 수식 유도는 이활석님 슬라이드에서 가져왔습니다:
이 관점에서 보면 데이터가 continuous 분포를 따른 다면 MSE가 반면 discrete 하다면 Cross-entropy가 적합합니다:
Summary
참고 자료
'Machine Learning' 카테고리의 다른 글
Attention? Attention! (Korean Version) (1) | 2020.07.25 |
---|---|
An Overview of ResNet and its Variants (0) | 2020.04.21 |