본문 바로가기

everyday paper📃

WELL-READ STUDENTS LEARN BETTER: ON THE IMPORTANCE OF PRE-TRAINING COMPACT MODELS

1️⃣ Pre-trained Distillation > Pre-training + fine-tuning

  1. pretraining(unlabeld LM data) → Distillation(unlabeled transfer data) → fine-tuning(labeled data) → Final Compact Model
  2. 이전에는 heuristically initialized student로 시작했는데, 이번 연구는 pre-trained를 통해서 초기화해줌

2️⃣ statement

  • the teacher : 높은 정확도를 가지지만 사이즈가 큰 모델. 리소스 제한이 있으면 사용하기 어렵다..🥺
  • students : 리소스 제한이 있을 때, 모델 사이즈를 상대적으로 조정해서 컴팩트하게 사용할 수 있는 모델
  • labeled data $D_L$ : training examples
  • unlabeled transfer data $D_T$ : labeled set과 비슷한 분포를 가지고 있는 데이터셋, labeled data의 일부를 포함하고 있을 수 있음.
  • unlabeled language model data $D_{LM}$ : MLM objective로 unsupervised learning을 진행함.

3️⃣ pre-trained distillation (PD)

  1. pre-training on D_LM : masked LM objectives
  2. Distillation on D_T : soft labels (predictive distribution) produced by teacher
    • pre-training step이 덜 완벽한 transfer set으로 인해 오히려 잘못된 방향으로 학습될 수 있음.
  3. fine-tuning on D_L : model을 robust하게 만들어주는 부분(transfer set이랑 labeled set의 분포가 안맞아도 유효한 모델이 도리 수 있게)

4️⃣ Dataset

5️⃣ Experiement

  1. model size : 4m ~ 110m parameters
  2. amount/quality of unlabeled data : labeled set과의 유사도뿐만 아니라 양까지 실험함.

6️⃣ Analysis

우선, pre-trained input representation / shallow-and-wide students from the bottom layers of their deep pre-trained counterparts 방법들이 있음.

  1. pre-train 워드 임베딩으로 충분한가? 아-니. pre-trained layer를 함께 사용하는 것보다 24% 덜 distillation 됨.
  2. pre-trained model을 잘라서 사용하는 것이 더 안좋은가? shallow students에는 해당하는 얘기다.

3. 파라미터 개수가 고정되어 있다면 무엇이 가장 좋은 student임?

파라미터가 많을수록 당연 좋은 모델이긴함.. width보다는 depth가 더 효과적임. 6L/512H가 2L/768H보다 더 좋은 성능을 보여줌.

4. robustness to transfer set size & robustness to domain shift in transfer

  • PD는 5m정도, distillation은 8m정도면 좋은 성능을 냄. PD가 distillation보다 1.5배 더 적게 데이터가 필요함
  • pre-train set 도메인과 transfer set 도메인의 차이정도를 spearman correlation coefficient로 구해보았고, PD와 PD-F(PD + fine-tuning)가 distillation보다 domain에 robust함~~!!

 

5. Better Together🤝

  • pretraining과 distillation사이의 interaction이 동일한 데이터에서 어떻게 보이는지 살펴봅시당
  • 아래 그래프 보면 PD가 PF보다 평균적으로 2.2%정도 더 좋은 성능을 보이고 있음.

 

 

  • 비교
    • Patient Knowledge Distillation : deeper pre-trained model에서 가장 아래 layer로부터 student model을 초기화함. teacher와 student의 아키텍처에 대한 가정을 해야함.
    • DistilBert : truncation method → 더 비싸고 빵빵한 LM teacher로부터 distiallation으로 pre-training → fine-tuning
     → 위 두가지 방법 모두 teacher embedding size때문에 제약이 있음