본문 바로가기

everyday paper📃

(4)
sentence embedding 저번주에 알아본 내용 💭 요즘 embedding space 관련해서 생각을 정리해보고 싶어서 관련된 paper들을 찾아보고 정리중이다. sentence embedding과 관련된 페이퍼들을 list-up하고 먼저 related work만 찾아서 쭉읽고 정리해봤다. related work를 먼저 본 이유는 각 논문에서 sentence embedding을 어떻게 보고 있는지, 어떤식으로 정리하고 있는지를 알면 전체적인 흐름 파악하기가 더 쉬울 것 같았다. 나에게는 확실히 도움되는 방식이었다. 노션에 적어둔 내용을 그대로 복붙한 것이기 때문에 노션 링크를 걸어두었다. 앞으로도 계속 업데이트 될 예정이다. https://saeran.notion.site/sentence-embedding-46f870a96d6b4..
[ACL 2021]Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence 🥑 introduction the quality of the topics : Coherent topics Coherence : Fruit를 주제로, “apple pear lemon banana kiwi” > “apple, knife, lemon, banana, spoon” Bag-of-Words document 표현방식을 사용했을 때는 syntactic과 semantic relationship이 무시되었음. → pre-trained word and sentence representation, BERT와 같은 contextual representation을 통해서 보완해보겠음! Neural ProdLDA를 디벨롭하였음. ProdLDA는 sota topic model이고 black-box variationa..
WELL-READ STUDENTS LEARN BETTER: ON THE IMPORTANCE OF PRE-TRAINING COMPACT MODELS 1️⃣ Pre-trained Distillation > Pre-training + fine-tuning pretraining(unlabeld LM data) → Distillation(unlabeled transfer data) → fine-tuning(labeled data) → Final Compact Model 이전에는 heuristically initialized student로 시작했는데, 이번 연구는 pre-trained를 통해서 초기화해줌 2️⃣ statement the teacher : 높은 정확도를 가지지만 사이즈가 큰 모델. 리소스 제한이 있으면 사용하기 어렵다..🥺 students : 리소스 제한이 있을 때, 모델 사이즈를 상대적으로 조정해서 컴팩트하게 사용할 수 있는 모델 label..
[neurIPS 2021] Pay Attention to MLPs 혼자 보려고 기록하는 것! 짧은 시간안에 정확하게 내용을 파악할 수 있길 바라며✨ 🙌 gMLP를 제안함 transformer를 상대할 수 있는 새로운 구조를 선보임. attention mechanism은 dynamic parameterized가 필요하고, MLP는 static parameterization으로 표현할 수 있음. SGU와 [ ]의 비교 SGU는 GLU와 전반적으로 닮았지만, spatial(cross-token)상에 projection이 이루어진다. cf. GLU는 channel dimension(hidden)상 element-wise multiplication : Squeeze-and-Excite block과 관련되어 있다. SGU는 cross-channel projection을 전혀 포함..