트랜스포머 개괄트랜스포머는 원래 기계 번역을 위해 개발된 모델이다. 개괄적으로 보면 인코더-디코더 구조이고, input- encoder -decoder -output 순서로 진행된다. 인코딩 부분은 여러 개의 인코더를 쌓아 올려 만든 것이고, 논문에서는 6개를 쌓았다. 디코더도 인코더와 동일한 수를 가진다. 인코더들은 모두 똑같은 구조를 가지고 있는데, 서로 weight를 공유하진 않는다. 인코더는 self attention과 feed forward neural network로 구성되어 있다. 인코더로 들어온 입력은 self attention layer을 지나가면서 입력 내의 다른 단어들과의 관계도를 계산한다. 즉, 인코더를 지나가면 단어들이 문맥을 반영하게 된다. 디코더는 동일한 구조지만 self at..