본문 바로가기

전체 글

(16)
sentence embedding 저번주에 알아본 내용 💭 요즘 embedding space 관련해서 생각을 정리해보고 싶어서 관련된 paper들을 찾아보고 정리중이다. sentence embedding과 관련된 페이퍼들을 list-up하고 먼저 related work만 찾아서 쭉읽고 정리해봤다. related work를 먼저 본 이유는 각 논문에서 sentence embedding을 어떻게 보고 있는지, 어떤식으로 정리하고 있는지를 알면 전체적인 흐름 파악하기가 더 쉬울 것 같았다. 나에게는 확실히 도움되는 방식이었다. 노션에 적어둔 내용을 그대로 복붙한 것이기 때문에 노션 링크를 걸어두었다. 앞으로도 계속 업데이트 될 예정이다. https://saeran.notion.site/sentence-embedding-46f870a96d6b4..
Naver AI rush 2022 회고 https://github.com/whatsbirddd/Fake-Documents-Detection GitHub - whatsbirddd/Fake-Documents-Detection: CLOVA AI Rush 2022 @Naver AI Lab CLOVA AI Rush 2022 @Naver AI Lab. Contribute to whatsbirddd/Fake-Documents-Detection development by creating an account on GitHub. github.com 🌷 Overview 결과 : 18위(0.93)까지 2라운드 진출인데 제가 19위(0.928)라서 2라운드는 못가게 되었네요 🥺.. 주제 : 엉터리 문서 검출 엉터리 문서 정의 : 문맥이 맞지 않는 단어들로 구성된 문..
[ACL 2021]Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence 🥑 introduction the quality of the topics : Coherent topics Coherence : Fruit를 주제로, “apple pear lemon banana kiwi” > “apple, knife, lemon, banana, spoon” Bag-of-Words document 표현방식을 사용했을 때는 syntactic과 semantic relationship이 무시되었음. → pre-trained word and sentence representation, BERT와 같은 contextual representation을 통해서 보완해보겠음! Neural ProdLDA를 디벨롭하였음. ProdLDA는 sota topic model이고 black-box variationa..
WELL-READ STUDENTS LEARN BETTER: ON THE IMPORTANCE OF PRE-TRAINING COMPACT MODELS 1️⃣ Pre-trained Distillation > Pre-training + fine-tuning pretraining(unlabeld LM data) → Distillation(unlabeled transfer data) → fine-tuning(labeled data) → Final Compact Model 이전에는 heuristically initialized student로 시작했는데, 이번 연구는 pre-trained를 통해서 초기화해줌 2️⃣ statement the teacher : 높은 정확도를 가지지만 사이즈가 큰 모델. 리소스 제한이 있으면 사용하기 어렵다..🥺 students : 리소스 제한이 있을 때, 모델 사이즈를 상대적으로 조정해서 컴팩트하게 사용할 수 있는 모델 label..
project 07/19 데이터 불균형 - Class-balanced Loss Based on Effective Number of Samples : re-weighting 목적함수에 가중치를 다르게 두는 방법 effective number 제안 : 단순히 데이터의 개수가 아니라 데이터들로 부터 얻을 수 있는 정보의 총량을 의미함.데이터 1개가 추가되어도 어떤 데이터이냐를 파악해야함. 기존에 가지고 있는 데이터들과 유사한 데이터 1개가 추가된다면 큰 의미가 없지만, 가지고 있는 데이터들과 전혀 다른 데이터가 추가되면 꽤 정보를 가지고 있는 데이터가 추가되는 것임. - M2m: Imbalanced Classification via Major-to-minor Translation : generation 기반의 re-sampling기법..
project 07/14 아 굉장히 비효율적으로 코드를 짜서 쓸데없이 5000개의 document를 매번 임베딩하고 있었네.. 한번에 sample 5000개와 target 5000개를 함수에 넣어서 비교할 수 있는데, sample 1개, target 5000개를 넣어서 매번 계산하게 만들었어... 그래서 gpu를 쓰는데도 시간이 엄청 오래걸렸던거 훔,, 로그가 안보인다고 해서 가만히 있지말고 계속 확인하면서 세션 여러개 돌려보자 생각보다 겁이 많은 사람이라서 코드에도 겁이 참 많은 듯... 겁내지 말고 안되면 되게 만들면 되니까 괜찮아 Class Imbalance 관련 cross entropy loss : 잘못 예측한 경우에 패널티를 부여 이 친구의 문제점은 잘 예측한 것에 대해서는 loss가 0이어서 패널티가 없다. 하지만, ..
[neurIPS 2021] Pay Attention to MLPs 혼자 보려고 기록하는 것! 짧은 시간안에 정확하게 내용을 파악할 수 있길 바라며✨ 🙌 gMLP를 제안함 transformer를 상대할 수 있는 새로운 구조를 선보임. attention mechanism은 dynamic parameterized가 필요하고, MLP는 static parameterization으로 표현할 수 있음. SGU와 [ ]의 비교 SGU는 GLU와 전반적으로 닮았지만, spatial(cross-token)상에 projection이 이루어진다. cf. GLU는 channel dimension(hidden)상 element-wise multiplication : Squeeze-and-Excite block과 관련되어 있다. SGU는 cross-channel projection을 전혀 포함..
[paper]Two-stage Model for Automatic Playlist Continuation at Scale keywords : playlist continuation, collaborative filtering, CNN, gradient boosting two-stage model 1-stage : 빠른 검색에 최적화 2.2M 노래 검색 공간에서 더 작은 후보군들로 이루어진 세트들로 이루어진 검색공간으로 줄였음. collaborative filtering(CF)와 딥러닝 모델을 사용해서 20K 후보군을 검색할 수 있도록 함. (2백만개에서 2만개로 후보군을 줄였다는거임)→90% recall top-1k songs는 60% recall에 가까움. recall값은 가장 관련된 음악들이 검색된 세트안에 있다는 것을 보장할 수 있음. 2-stage : 추천된 리스트의 가장 높은순위의 정확도를 최대화하도록 1단계에서 ..