카테고리 없음

[Short Review] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

zzangsky 2026. 5. 6. 15:46

https://arxiv.org/abs/1810.04805

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla

arxiv.org

1. 배경 및 문제점

  • 기존 Word2Vec, GloVe 같은 임베딩은 단어마다 하나의 고정 벡터(static embedding)만 사용한다.
  • 문맥에 따라 의미가 달라도 동일한 벡터 사용
  • 예시 : bank → 은행 / 강둑 → 구분 어려움
  • GPT 같은 기존 language model은 단방향(left-to-right) 구조 사용
  • 앞 문맥 또는 뒤 문맥만 활용 가능
  • QA, NLI 같은 task에서는 양방향 문맥 이해가 중요
  • syntax + semantics를 동시에 깊게 반영하기 어려움

→ 문장 전체 문맥을 동시에 반영하는 deep bidirectional contextual embedding 필요

2. 아키텍처 특징

  • Transformer Encoder 기반 contextual language model
  • Deep Bidirectional Transformer 사용
  • self-attention 기반 구조
  • 문장의 앞 + 뒤 문맥 모두 동시에 반영
  • 주요 pretraining task
    • MLM (Masked Language Model)
      • 입력 token 일부를 masking 후 원래 단어 예측
      • 양방향 문맥 활용 가능
      • 전체 token의 15% masking 사용
    • NSP (Next Sentence Prediction)
      • 두 문장이 실제로 이어지는 문장인지 학습
      • 문장 간 관계 이해 가능
      • QA, NLI 성능 향상에 기여
  • 주요 특징
    • 모든 layer에서 양방향 문맥 학습
      • GPT의 단방향 attention 한계 해결
    • 입력 embedding 구조 사용
      • Token Embedding
      • Segment Embedding
      • Position Embedding
        → 세 embedding을 합쳐 입력 구성
    • pretrained model 활용
      • BooksCorpus + Wikipedia 기반 대규모 pretraining
      • downstream task에 fine-tuning하여 사용
    • task-specific architecture 최소화
      • output layer만 추가하여 다양한 NLP task 적용 가능
    • fine-tuning 기반 transfer learning 구조 확립
      • end-to-end 학습 가능

3. 의의

  • Transformer 기반 contextual embedding 시대를 본격적으로 연 모델
  • ELMo의 contextual embedding 개념을 Transformer 기반으로 확장
  • 다양한 NLP task에서 SOTA(State-of-the-Art) 달성
  • GLUE, SQuAD, NER, NLI 등에서 큰 성능 향상
  • pretrain + fine-tuning 패러다임 대중화
  • 이후 GPT, RoBERTa, ALBERT, T5 등 Transformer 기반 모델 발전의 기반 제공

4. 한계

  • MLM 기반 구조 특성상 pretrain/fine-tune mismatch 존재
    • fine-tuning 시에는 [MASK] token 사용 안함
  • Transformer 기반이라 계산량과 메모리 사용량 큼
    • self-attention 연산량이 sequence length에 대해 quadratic 증가
  • 대규모 GPU/TPU 자원 필요
  • autoregressive text generation에는 비효율적
    → 이후 GPT 계열 decoder 기반 모델 등장
  • 긴 문장 처리 비용 증가
    → 이후 Longformer 등으로 발전
Transformer encoder 기반의 MLM + NSP 사전 학습을 통해
양방향 문맥 정보를 깊게 학습하는 contextual language representation 모델