<aside> 💡 [본 논문의 핵심 포인트는 무엇인가?]
</aside>
어떤 발전이 있었냐면…
NLU task는 잘 하는데, NLG는 잘 못함 (왜?)
NLU에서의 강점
NLG에서의 약점
3가지 Pre-training 기법을 사용
Pre-training 관점에서 이전 LM과 UniLM의 비교
Downstream tasks에서 우수한 성능을 보임 (Example Downstream Tasks)
파라미터를 공유하여 하나의 네트워크에서 학습됨, cloze task를 활용하여 모델링 objective를 정의함
Pre-training이 끝나면 fine-tuning을 통해 downstream tasks에 적용 (like BERT)
Cloze task를 기반으로 한 마스킹 적용 → NLU, NLG 둘 다 좋은 성능을 보여줌
<aside> 💡 Cloze Task가 무엇인가?
Cloze task는 원래 교육 심리학에서 시작된 개념으로, 텍스트에서 특정 단어나 구절을 빈칸으로 만들고 이를 채우도록 하는 문제를 말함. NLP에서는 이 기법을 언어 모델이 문맥을 이해하도록 학습하는 데 사용하고 있음. 예를 들어, 문장이 "The cat sat on the [MASK]"이라면 모델은 [MASK] 자리에 "mat"을 예측하도록 훈련되는 식!
</aside>