본문 바로가기

카테고리 없음

NLP trends and models

  • 전이학습 :
    • 레이블되어 있지 않는 굉장히 큰 텍스트 데이터에서 self-supervised task(언어모델링, 누락된 단어 채우기)를 학습하여(pre-training) 모델을 만듦.
    • 그 다음 레이블 된 텍스트 데이터로 파인 튜닝을 함.
    • ex) GPT, UNMFit, ELMo, BERT, XLNet, RoBERTa, ALBERT, Reformer, MT-DNN
    • BERT기반의 모델들은 태스크 별로 출력을 다르게 할 수 있음. 기존 데이터셋에는 퀄리티 이슈나 데이터의 다양성에 대한 이슈가 있음.
  • pretrained language model의 중요성
    • 처음부터 모델을 학습시킬 필요없이, 기존의 대량의 데이터로 학습된 모델(Pre-trained model)을 가지고 우리의 태스크에 맞게 fine-tuning하면 됨.
    • 더 좋은 퍼포먼스를 보이고 더 적은 labeled data를 사용해도 좋은 퍼포먼스를 보임.

10 Leading Language Models For NLP In 2022

  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
    • encoders
    • unsupervised learning 2가지를 이용해서 학습한 것임(빈칸에 무엇이 들어갈까요? 다음 문장으로 이 문장이 맞을까요?)
    • bidirectional이라는것도 포인트!(트랜스포머의 인코더에서는 bi-directional이 아니었음)
  2. GPT2: Language Models Are Unsupervised Multitask Learners
    • decoders
    • QA task : reach 55 F1 on the CoQA dataset
    • 언어모델의 용량은 zero-shot task transfer과 퍼포먼스 향상에 필수적이다.
    • 1.5B parameter Transformer… 굉장히 크다…오웅ㅇ
    • 엄청 크고 다양한 데이터셋으로 학습함.
    • Byte Pair Encoding for input representation
    • BERT와의 차이점 : BERT는 단어의 좌우를 확인하면서 문맥을 잘 합치는 특징을 가지지만, GPT는 input으로 다음 단어를 유추하고 유추된 단어를 합쳐서 다시 input으로 들어가고 다음 단어를 유추함. 이것을 auto-regression라고함. TransformerXL과 XLNet과 유사함.
  3. XLNet: Generalized Autoregressive Pretraining for Language Understanding
    • BERT의 장점 : bi-directional로 gpt2보다 더 나은 퍼포먼스를 보임.
    • BERT의 문제점 : masked 위치들의 의존성을 무시하고 pretrain-finetune의 차이로 문제가 발생함.
    • 이 장단점의 측면에서, XLNet은 permutations of the factorization order의 Likelihood 기댓값을 최대화함으로써 bidirectional contexts를 학습하고, autoregressive formulation으로 bert의 한계를 극복함.
    • transformer-XL(sota autoregressive model)을 사용. bert보다 20개의 태스크에서 더 나은 성능을 보임.
    • reading comprehension, text classification, sentiment analysis,
    • bidirectional + autoregressive
    • XLNet maximizes the expected log-likelihood of a sequence with respect to all possible permutations of the factorization order.
  4. RoBERTa: A Robustly Optimized BERT Pretraining Approach
    • BERT의 parameters, training data size의 영향에 관해서
    • BERT를 더 크고 새로운 데이터셋으로 학습하고, 더 많은 Iterations를 돌리고, next sequence prediction training방법은 빼고 학습함.
    • 앞으로 좀 더 정교한 multi-task finetuning 방법을 써볼 수 있을듯~~
  5. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
    • 요즘 모델들이 GPU/TPU 메모리제한때문에 빡세고, 더 긴 학습 시간, 예상치 못한 모델 분해?(degradation) 문제가 있음
    • two parameter-reduction기술을 제안. 더 적은 메모리 소모와 BERT의 학습 속도를 향상시킴
    • self-supervised loss사용 : 문장들간의 coherence(일관성). downstream tasks에 multi-sentence inputs에 충분히 도움됨.
    • GLUE, RACE, SQUAD벤치마크에서 sota달성(BERT-large와 비교했을 때 더 적은 파라미터로)
  6. T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
    • BERT의 출력은 클래스명이거나 입력값의 일부인데, T5는 텍스트 입력 - 텍스트 출력으로 태스크를 처리함. 그래서 다양한 nlp 태스크에 대해서도 같은 모델,loss함수, 하이퍼 파라미터 사용이 가능함.
    • nlp 전이학습 기반 방법들의 인사이트
      • 모델구조 : ‘인코더-디코더’ 모델이 ‘디코더만'사용하는 모델보다 결과가 좋음
      • 사전학습 : 누락된 빈칸 채우기(masked)가 가장 좋은 결과. 계산 비용이 가장 중요한 요소였음
      • 레이블 되지 않은 데이터셋 : 같은 도메인 내의 데이터에서 학습하는 것은 효과가 좋지만 적은 데이터셋으로 사전학습을 하는 것은 과적합을 초래
      • 학습 전략 : 멀티태스크 학습방법이 사전학습후 튜닝방법과 견주어볼만했음.
      • 스케일 : 모델 쿠키, 학습시간 등
    • comprehensive perspective
    • text-to-text 태스크에서 transfer learning의 새로운 접근법
    • “Colossal Clean Crawled Corpus”(C4) : web-scraped english text dataset
      • 퀄리티, 다양성, 방대함 모두 만족
    • Text-to-Text Transfer Transformer (T5) : C4 dataset으로 학습한 110억 파라미터를 가진 모델
  7. GPT3: Language Models Are Few-Shot Learners
  8. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
  9. DeBERTa: Decoding-enhanced BERT with Disentangled Attention
  10. PaLM: Scaling Language Modeling with Pathways

reference

https://www.topbots.com/ai-nlp-research-pretrained-language-models/

 

What Every NLP Engineer Needs to Know About Pre-Trained Language Models

Practical applications of Natural Language Processing (NLP) have gotten significantly cheaper, faster, and easier due to the transfer learning capabilities enabled by pre-trained language models. Transfer learning enables engineers to pre-train an NLP mode

www.topbots.com