전이학습 :
- 레이블되어 있지 않는 굉장히 큰 텍스트 데이터에서 self-supervised task(언어모델링, 누락된 단어 채우기)를 학습하여(pre-training) 모델을 만듦.
- 그 다음 레이블 된 텍스트 데이터로 파인 튜닝을 함.
- ex) GPT, UNMFit, ELMo, BERT, XLNet, RoBERTa, ALBERT, Reformer, MT-DNN
- BERT기반의 모델들은 태스크 별로 출력을 다르게 할 수 있음. 기존 데이터셋에는 퀄리티 이슈나 데이터의 다양성에 대한 이슈가 있음.
pretrained language model의 중요성
- 처음부터 모델을 학습시킬 필요없이, 기존의 대량의 데이터로 학습된 모델(Pre-trained model)을 가지고 우리의 태스크에 맞게 fine-tuning하면 됨.
- 더 좋은 퍼포먼스를 보이고 더 적은 labeled data를 사용해도 좋은 퍼포먼스를 보임.

10 Leading Language Models For NLP In 2022

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- encoders
- unsupervised learning 2가지를 이용해서 학습한 것임(빈칸에 무엇이 들어갈까요? 다음 문장으로 이 문장이 맞을까요?)
- bidirectional이라는것도 포인트!(트랜스포머의 인코더에서는 bi-directional이 아니었음)
GPT2: Language Models Are Unsupervised Multitask Learners
- decoders
- QA task : reach 55 F1 on the CoQA dataset
- 언어모델의 용량은 zero-shot task transfer과 퍼포먼스 향상에 필수적이다.
- 1.5B parameter Transformer… 굉장히 크다…오웅ㅇ
- 엄청 크고 다양한 데이터셋으로 학습함.
- Byte Pair Encoding for input representation
- BERT와의 차이점 : BERT는 단어의 좌우를 확인하면서 문맥을 잘 합치는 특징을 가지지만, GPT는 input으로 다음 단어를 유추하고 유추된 단어를 합쳐서 다시 input으로 들어가고 다음 단어를 유추함. 이것을 auto-regression라고함. TransformerXL과 XLNet과 유사함.
XLNet: Generalized Autoregressive Pretraining for Language Understanding
- BERT의 장점 : bi-directional로 gpt2보다 더 나은 퍼포먼스를 보임.
- BERT의 문제점 : masked 위치들의 의존성을 무시하고 pretrain-finetune의 차이로 문제가 발생함.
- 이 장단점의 측면에서, XLNet은 permutations of the factorization order의 Likelihood 기댓값을 최대화함으로써 bidirectional contexts를 학습하고, autoregressive formulation으로 bert의 한계를 극복함.
- transformer-XL(sota autoregressive model)을 사용. bert보다 20개의 태스크에서 더 나은 성능을 보임.
- reading comprehension, text classification, sentiment analysis,
- bidirectional + autoregressive
- XLNet maximizes the expected log-likelihood of a sequence with respect to all possible permutations of the factorization order.
RoBERTa: A Robustly Optimized BERT Pretraining Approach
- BERT의 parameters, training data size의 영향에 관해서
- BERT를 더 크고 새로운 데이터셋으로 학습하고, 더 많은 Iterations를 돌리고, next sequence prediction training방법은 빼고 학습함.
- 앞으로 좀 더 정교한 multi-task finetuning 방법을 써볼 수 있을듯~~
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- 요즘 모델들이 GPU/TPU 메모리제한때문에 빡세고, 더 긴 학습 시간, 예상치 못한 모델 분해?(degradation) 문제가 있음
- two parameter-reduction기술을 제안. 더 적은 메모리 소모와 BERT의 학습 속도를 향상시킴
- self-supervised loss사용 : 문장들간의 coherence(일관성). downstream tasks에 multi-sentence inputs에 충분히 도움됨.
- GLUE, RACE, SQUAD벤치마크에서 sota달성(BERT-large와 비교했을 때 더 적은 파라미터로)
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- BERT의 출력은 클래스명이거나 입력값의 일부인데, T5는 텍스트 입력 - 텍스트 출력으로 태스크를 처리함. 그래서 다양한 nlp 태스크에 대해서도 같은 모델,loss함수, 하이퍼 파라미터 사용이 가능함.
- nlp 전이학습 기반 방법들의 인사이트
  - 모델구조 : ‘인코더-디코더’ 모델이 ‘디코더만'사용하는 모델보다 결과가 좋음
  - 사전학습 : 누락된 빈칸 채우기(masked)가 가장 좋은 결과. 계산 비용이 가장 중요한 요소였음
  - 레이블 되지 않은 데이터셋 : 같은 도메인 내의 데이터에서 학습하는 것은 효과가 좋지만 적은 데이터셋으로 사전학습을 하는 것은 과적합을 초래
  - 학습 전략 : 멀티태스크 학습방법이 사전학습후 튜닝방법과 견주어볼만했음.
  - 스케일 : 모델 쿠키, 학습시간 등
- comprehensive perspective
- text-to-text 태스크에서 transfer learning의 새로운 접근법
- “Colossal Clean Crawled Corpus”(C4) : web-scraped english text dataset
  - 퀄리티, 다양성, 방대함 모두 만족
- Text-to-Text Transfer Transformer (T5) : C4 dataset으로 학습한 110억 파라미터를 가진 모델
GPT3: Language Models Are Few-Shot Learners
- few-shot learning : https://zzaebok.github.io/machine_learning/FSL/
- 노션 정리 GPT3
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
PaLM: Scaling Language Modeling with Pathways

reference

https://www.topbots.com/ai-nlp-research-pretrained-language-models/

What Every NLP Engineer Needs to Know About Pre-Trained Language Models

Practical applications of Natural Language Processing (NLP) have gotten significantly cheaper, faster, and easier due to the transfer learning capabilities enabled by pre-trained language models. Transfer learning enables engineers to pre-train an NLP mode

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

낭만과 지성

NLP trends and models

10 Leading Language Models For NLP In 2022

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역