장단기 메모리 (LSTM)
Long Short-Term Memory (LSTM)
- GRU 와 마찬가지로 기존 RNN 의 장단기 메모리를 잘 기억하지 못하는 문제를 해결하기 위해 만들어진 모델이다.
- LSTM 은 GRU 보다 더 복잡하지만 더 좋은 성능을 보인다.
c~<t>=tanh(Wc[a<t−1>,x<t>]+bc)
- GRU 와 다르게 c~ 계산 시 a<t−1> 을 사용한다, 즉 c<t>=a<t> 이다.
Γu=σ(Wu[a<t−1>,x<t>]+bu)
Γf=σ(Wf[a<t−1>,x<t>]+bf)
Γo=σ(Wo[a<t−1>,x<t>]+bo)
c<t>=Γu∗c~<t>+Γf∗c<t−1>
a<t>=Γo∗tanh(c<t>)
- Γu: Update gate, c~ 를 얼마나 반영할지 결정
- Γf: Forget gate, 기존 메모리를 얼마나 잊을지 결정
- Γo: Output gate, 출력을 얼마나 내보낼지 결정
