학습률 감소

파란색의 경사하강 처럼 learning rate 가 너무 크면 절대 수렴하지 않을 수 있음
초록색 경사하강 처럼 최저값에 가까워질 수록 learning rate 를 작아지게 구현한다면 수렴에 용이함
아래와 같은 방법들이 있다

\alpha=\frac{1}{1+\text{decay\_rate}*\text{epoch\_num}}\alpha_0

\alpha=0.95^{\text{epoch\_num}}\alpha_0

\alpha=\frac{k}{\sqrt{\text{epoch\_num}}}\alpha_0

\alpha=\frac{k}{\sqrt{t}}\alpha_0