Abstract & Introduction

(사견) 결국 기본적인 RNN 구조 - Seq2Seq, LSTM.. 과 같은 구조들이 지배적인 모델일 시기에는, (물론 데이터의 양도 중요했지만) 모델의 구조가 어떻느냐에 따라 성능이 좌우되는 경향성이 어느 정도 있었다. 그러나 Transformer의 등장 이후, 학습에서의 병렬처리가 가능해짐에 따라 Scalability, Efficiency가 폭발적으로 확장되었고.. 대규모 dataset이 생겨남에 따라, 작금에 들어서는 얼마나 많은 데이터로 pre-train했느냐가 성능을 좌우하는 큰 요소가 되었겠구나 하는 생각이 든다.

Method

image.png