레퍼런스
의문 / 추가학습
2017년 Transformer의 발표 이후, NLP 분야에서는 지금까지 Transformer 구조가 표준으로 사용되고 있다.
현재(2021)까지 Computer Vision 분야는 CNN 구조에서 벗어나지 못하고 있었다.
이 논문에서는 최소한의 수정만을 거쳐, Image를 그대로 Transformer 구조에 적용했을 때의 실험 결과를 보여준다.
이 구조는 중간 크기의 dataset으로 학습한다면, ResNet보다 성능이 좋지 않다.
그러나 큰 dataset으로 학습했을 때는 성능이 좋아진다.
(사견) 결국 기본적인 RNN 구조 - Seq2Seq, LSTM.. 과 같은 구조들이 지배적인 모델일 시기에는, (물론 데이터의 양도 중요했지만) 모델의 구조가 어떻느냐에 따라 성능이 좌우되는 경향성이 어느 정도 있었다. 그러나 Transformer의 등장 이후, 학습에서의 병렬처리가 가능해짐에 따라 Scalability, Efficiency가 폭발적으로 확장되었고.. 대규모 dataset이 생겨남에 따라, 작금에 들어서는 얼마나 많은 데이터로 pre-train했느냐가 성능을 좌우하는 큰 요소가 되었겠구나 하는 생각이 든다.