학습률 감소

  • 파란색의 경사하강 처럼 learning rate 가 너무 크면 절대 수렴하지 않을 수 있음
  • 초록색 경사하강 처럼 최저값에 가까워질 수록 learning rate 를 작아지게 구현한다면 수렴에 용이함
  • 아래와 같은 방법들이 있다
α=11+decay_rateepoch_numα0\alpha=\frac{1}{1+\text{decay\_rate}*\text{epoch\_num}}\alpha_0 α=0.95epoch_numα0\alpha=0.95^{\text{epoch\_num}}\alpha_0 α=kepoch_numα0\alpha=\frac{k}{\sqrt{\text{epoch\_num}}}\alpha_0 α=ktα0\alpha=\frac{k}{\sqrt{t}}\alpha_0