[Short Review] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

카테고리 없음

[Short Review] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

zzangsky 2026. 5. 6. 15:46

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla

arxiv.org

1. 배경 및 문제점

기존 Word2Vec, GloVe 같은 임베딩은 단어마다 하나의 고정 벡터(static embedding)만 사용한다.
문맥에 따라 의미가 달라도 동일한 벡터 사용
예시 : bank → 은행 / 강둑 → 구분 어려움
GPT 같은 기존 language model은 단방향(left-to-right) 구조 사용
앞 문맥 또는 뒤 문맥만 활용 가능
QA, NLI 같은 task에서는 양방향 문맥 이해가 중요
syntax + semantics를 동시에 깊게 반영하기 어려움

→ 문장 전체 문맥을 동시에 반영하는 deep bidirectional contextual embedding 필요

2. 아키텍처 특징

Transformer Encoder 기반 contextual language model
Deep Bidirectional Transformer 사용
self-attention 기반 구조
문장의 앞 + 뒤 문맥 모두 동시에 반영
주요 pretraining task
- MLM (Masked Language Model)
  - 입력 token 일부를 masking 후 원래 단어 예측
  - 양방향 문맥 활용 가능
  - 전체 token의 15% masking 사용
- NSP (Next Sentence Prediction)
  - 두 문장이 실제로 이어지는 문장인지 학습
  - 문장 간 관계 이해 가능
  - QA, NLI 성능 향상에 기여
주요 특징
- 모든 layer에서 양방향 문맥 학습
  - GPT의 단방향 attention 한계 해결
- 입력 embedding 구조 사용
  - Token Embedding
  - Segment Embedding
  - Position Embedding
    → 세 embedding을 합쳐 입력 구성
- pretrained model 활용
  - BooksCorpus + Wikipedia 기반 대규모 pretraining
  - downstream task에 fine-tuning하여 사용
- task-specific architecture 최소화
  - output layer만 추가하여 다양한 NLP task 적용 가능
- fine-tuning 기반 transfer learning 구조 확립
  - end-to-end 학습 가능

3. 의의

Transformer 기반 contextual embedding 시대를 본격적으로 연 모델
ELMo의 contextual embedding 개념을 Transformer 기반으로 확장
다양한 NLP task에서 SOTA(State-of-the-Art) 달성
GLUE, SQuAD, NER, NLI 등에서 큰 성능 향상
pretrain + fine-tuning 패러다임 대중화
이후 GPT, RoBERTa, ALBERT, T5 등 Transformer 기반 모델 발전의 기반 제공

4. 한계

MLM 기반 구조 특성상 pretrain/fine-tune mismatch 존재
- fine-tuning 시에는 [MASK] token 사용 안함
Transformer 기반이라 계산량과 메모리 사용량 큼
- self-attention 연산량이 sequence length에 대해 quadratic 증가
대규모 GPU/TPU 자원 필요
autoregressive text generation에는 비효율적
→ 이후 GPT 계열 decoder 기반 모델 등장
긴 문장 처리 비용 증가
→ 이후 Longformer 등으로 발전

Transformer encoder 기반의 MLM + NSP 사전 학습을 통해
양방향 문맥 정보를 깊게 학습하는 contextual language representation 모델

현재글[Short Review] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

zzangsky 님의 블로그

zzangsky 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

zzangsky 님의 블로그

[Short Review] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

1. 배경 및 문제점

2. 아키텍처 특징

3. 의의

4. 한계

'카테고리 없음'의 다른글

티스토리툴바