Abstract & Introduction

Background, Motivation

논문(BLIP)의 Main Contribution

  1. Model Perspective: 하나의 모델에서 이해(understanding)와 생성(generation)을 모두 수행할 수 있도록, **Multimodal Mixture of Encoder-Decoder(MED)**라는 새로운 구조를 제안한다.
  2. Data Perspective: noise가 많은 image-text pair data를 그대로 쓰지 않고, CapFilt라는 새로운 bootstrapping 방식을 이용해 데이터 품질을 개선한다.
  3. 이러한 구조를 가진 BLIP framework를 통해 다양한 downstream task에서 SOTA(State-of-the-Art)에 준하거나 뛰어넘는 성능을 달성하였다.

Model: Multimodal Mixture of Encoder-Decoder (MED)

기존 접근방식의 한계

Autoregressive Text Generation: 간단하게는, 이전의 token들을 기반으로 확률적으로 가장 높은 다음 token을 예측하며, linear하게 text를 생성해내는 과정이라고 보면 된다.

image.png

MED의 핵심 설계

본 논문에서는 위와 같은 한계점을 해결하고자, 아래 3가지 기능(모듈) 중 하나를 실행할 수 있는 multi-task model을 제안한다.