트랜스포머 네트워크

지금까지 배운 모델들에서 시퀀스를 더 잘 처리하기 위해 더 복잡한 모델을 배워왔다
- 연속적인 데이터를 처리하기 위한 RNN
- 단기 메모리를 활용하기 위한 LSTM, GRU
- 더 긴 시퀀스를 처리하기 위한 어텐션 메커니즘
그런데 위 네트워크들은 모두 “Sequential” 하다. 즉 한번에 한 단어나 토큰을 처리하는 모델이다.
- $\hat{y}^{<T_y>}$ 를 예측하기 위해서는 이전 예측 결과를 참고해야 한다.

\begin{matrix} \hat{y}^{<0>} & & \hat{y}^{<1>} & & \cdots & & \hat{y}^{<T_y>} \\ \uparrow & & \uparrow & & \cdots & & \uparrow \\ \text{unit} & \rightarrow & \text{unit} & \rightarrow & \cdots & \rightarrow & \text{unit} \\ & & \uparrow & & \cdots & & \uparrow \\ & & y^{<0>} & & \cdots & & y^{<T_y-1>} \end{matrix}