https://arxiv.org/abs/1810.04805
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla
arxiv.org
1. 배경 및 문제점
- 기존 Word2Vec, GloVe 같은 임베딩은 단어마다 하나의 고정 벡터(static embedding)만 사용한다.
- 문맥에 따라 의미가 달라도 동일한 벡터 사용
- 예시 : bank → 은행 / 강둑 → 구분 어려움
- GPT 같은 기존 language model은 단방향(left-to-right) 구조 사용
- 앞 문맥 또는 뒤 문맥만 활용 가능
- QA, NLI 같은 task에서는 양방향 문맥 이해가 중요
- syntax + semantics를 동시에 깊게 반영하기 어려움
→ 문장 전체 문맥을 동시에 반영하는 deep bidirectional contextual embedding 필요
2. 아키텍처 특징
- Transformer Encoder 기반 contextual language model
- Deep Bidirectional Transformer 사용
- self-attention 기반 구조
- 문장의 앞 + 뒤 문맥 모두 동시에 반영
- 주요 pretraining task
- MLM (Masked Language Model)
- 입력 token 일부를 masking 후 원래 단어 예측
- 양방향 문맥 활용 가능
- 전체 token의 15% masking 사용
- NSP (Next Sentence Prediction)
- 두 문장이 실제로 이어지는 문장인지 학습
- 문장 간 관계 이해 가능
- QA, NLI 성능 향상에 기여
- MLM (Masked Language Model)
- 주요 특징
- 모든 layer에서 양방향 문맥 학습
- GPT의 단방향 attention 한계 해결
- 입력 embedding 구조 사용
- Token Embedding
- Segment Embedding
- Position Embedding
→ 세 embedding을 합쳐 입력 구성
- pretrained model 활용
- BooksCorpus + Wikipedia 기반 대규모 pretraining
- downstream task에 fine-tuning하여 사용
- task-specific architecture 최소화
- output layer만 추가하여 다양한 NLP task 적용 가능
- fine-tuning 기반 transfer learning 구조 확립
- end-to-end 학습 가능
- 모든 layer에서 양방향 문맥 학습
3. 의의
- Transformer 기반 contextual embedding 시대를 본격적으로 연 모델
- ELMo의 contextual embedding 개념을 Transformer 기반으로 확장
- 다양한 NLP task에서 SOTA(State-of-the-Art) 달성
- GLUE, SQuAD, NER, NLI 등에서 큰 성능 향상
- pretrain + fine-tuning 패러다임 대중화
- 이후 GPT, RoBERTa, ALBERT, T5 등 Transformer 기반 모델 발전의 기반 제공
4. 한계
- MLM 기반 구조 특성상 pretrain/fine-tune mismatch 존재
- fine-tuning 시에는 [MASK] token 사용 안함
- Transformer 기반이라 계산량과 메모리 사용량 큼
- self-attention 연산량이 sequence length에 대해 quadratic 증가
- 대규모 GPU/TPU 자원 필요
- autoregressive text generation에는 비효율적
→ 이후 GPT 계열 decoder 기반 모델 등장 - 긴 문장 처리 비용 증가
→ 이후 Longformer 등으로 발전
Transformer encoder 기반의 MLM + NSP 사전 학습을 통해
양방향 문맥 정보를 깊게 학습하는 contextual language representation 모델