로컬 옵티마의 문제
딥러닝에서 로컬 옵티마와 최적화 문제
- 저차원 공간에서 다수의 로컬 옵티마를 가지는 그래프는 흔한 현상
- 그러나 딥러닝 모델의 비용 함수는 매우 고차원 공간에서 정의됨
- 고차원 공간에서는 기울기가 0인 지점이 로컬 옵티마인 경우보다는 안장점인 경우가 훨씬 많다.
- 안장점은 말 안장처럼 일부 방향으로는 오목하고 다른 방향으로는 볼록한 지점
- 고차원 공간에서 로컬 옵티마에 갇힐 확률은 매우 낮으며, 대신 안장점을 만날 확률이 높다.
- 로컬 옵티마보다 중요한 문제는 plateau
- Plateau는 미분 값이 0에 가까운 평탄한 영역으로, 학습 속도를 늦춘다.
- 최적화 알고리즘이 plateau에 갇히면 학습이 매우 느려질 수 있음.
- 모멘텀, RMSprop, Adam과 같은 알고리즘이 plateau 문제를 해결하는 데 도움을 줄 수 있다.