본문 바로가기

Project 🖥

(8)
Naver AI rush 2022 회고 https://github.com/whatsbirddd/Fake-Documents-Detection GitHub - whatsbirddd/Fake-Documents-Detection: CLOVA AI Rush 2022 @Naver AI Lab CLOVA AI Rush 2022 @Naver AI Lab. Contribute to whatsbirddd/Fake-Documents-Detection development by creating an account on GitHub. github.com 🌷 Overview 결과 : 18위(0.93)까지 2라운드 진출인데 제가 19위(0.928)라서 2라운드는 못가게 되었네요 🥺.. 주제 : 엉터리 문서 검출 엉터리 문서 정의 : 문맥이 맞지 않는 단어들로 구성된 문..
project 07/19 데이터 불균형 - Class-balanced Loss Based on Effective Number of Samples : re-weighting 목적함수에 가중치를 다르게 두는 방법 effective number 제안 : 단순히 데이터의 개수가 아니라 데이터들로 부터 얻을 수 있는 정보의 총량을 의미함.데이터 1개가 추가되어도 어떤 데이터이냐를 파악해야함. 기존에 가지고 있는 데이터들과 유사한 데이터 1개가 추가된다면 큰 의미가 없지만, 가지고 있는 데이터들과 전혀 다른 데이터가 추가되면 꽤 정보를 가지고 있는 데이터가 추가되는 것임. - M2m: Imbalanced Classification via Major-to-minor Translation : generation 기반의 re-sampling기법..
project 07/14 아 굉장히 비효율적으로 코드를 짜서 쓸데없이 5000개의 document를 매번 임베딩하고 있었네.. 한번에 sample 5000개와 target 5000개를 함수에 넣어서 비교할 수 있는데, sample 1개, target 5000개를 넣어서 매번 계산하게 만들었어... 그래서 gpu를 쓰는데도 시간이 엄청 오래걸렸던거 훔,, 로그가 안보인다고 해서 가만히 있지말고 계속 확인하면서 세션 여러개 돌려보자 생각보다 겁이 많은 사람이라서 코드에도 겁이 참 많은 듯... 겁내지 말고 안되면 되게 만들면 되니까 괜찮아 Class Imbalance 관련 cross entropy loss : 잘못 예측한 경우에 패널티를 부여 이 친구의 문제점은 잘 예측한 것에 대해서는 loss가 0이어서 패널티가 없다. 하지만, ..
[paper]Two-stage Model for Automatic Playlist Continuation at Scale keywords : playlist continuation, collaborative filtering, CNN, gradient boosting two-stage model 1-stage : 빠른 검색에 최적화 2.2M 노래 검색 공간에서 더 작은 후보군들로 이루어진 세트들로 이루어진 검색공간으로 줄였음. collaborative filtering(CF)와 딥러닝 모델을 사용해서 20K 후보군을 검색할 수 있도록 함. (2백만개에서 2만개로 후보군을 줄였다는거임)→90% recall top-1k songs는 60% recall에 가까움. recall값은 가장 관련된 음악들이 검색된 세트안에 있다는 것을 보장할 수 있음. 2-stage : 추천된 리스트의 가장 높은순위의 정확도를 최대화하도록 1단계에서 ..
[캡스톤] 4월 3주차 trial and error 1. biLSTM + attention 이전에 fasttext+CNN모델에서 validation acc 0.89까지 나와서 정성적 평가까지 해보았더니 기사의 제목과 본문의 키워드는 유사하지만 뉘앙스가 다른 가짜뉴스들을 제대로 분류하지 못하고 있었다. 0.52정도의 score로 가짜뉴스를 분류하고 있었기 때문. 문맥을 잘 반영하는 모델로 바꾸어야겠다는 생각에 LSTM과 CNN에서 문맥을 잘 반영하려면 어떻게 해야할까를 찾다가 attention mechanism을 활용하기로 했다! 우선 body의 문맥을 잘 반영하지 못하니까 body에 biLSTM을 쓰고 attention까지 해서 context vector를 잘 뽑아서 title+context vector로 신경망에 넣어보자👊 2. 모델 저장 error 서..
[캡스톤] 어텐션 메커니즘 & ELMO & BERT 이전에 CNN 모델의 결과를 정성적 평가해보니 문맥이 고려되지 않고 키워드를 기반으로 fake news를 분류하고 있었다. 그래서 문맥 가능한 모델로 디벨롭을 해보고자 어텐션과 ELMo 임베딩, BERT에 대해서 스터디를 하고 우리 모델에 적용해보기로 하였다! 1. seq2seq의 문제점1 seq2seq의 encoder에서 context vector 하나에 모든 정보를 압축하려다보니 정보손실의 문제가 발생 2. seq2seq의 문제점2 : RNN 기울기 소실 - RNN 계층이 과거 방향으로 '의미 있는 기울기'를 전달함으로써 시간 방향의 의존 관계 학습 가능 - 기울기는 학습해야 할 의미 있는 정보가 들어있음. 과거로 전달하여 장기 의존 관계를 학습하는데, 기울기가 소실되면 과거의 정보 학습이 어려워짐...
[캡스톤] summarization 흐름 파악 Fake News탐지에서 title과 body사이의 관계를 feature로 어떻게 뽑아낼 수 있을까 고민을 하다가 body요약문을 title과 유사도 검사를 해보는 것은 어떨까? 라는 생각이 들어서 요약태스크는 어떻게 진행되는지 흐름 파악을 해보았음. summarization도 현재는 주로 모델을 사용해서 요약이 이루어지고 labeled dataset이 필요한데 우리는 따로 요약이 된 데이터셋이 없는 상태. 그냥 무작정 모델을 찾아서 적용하기에는 배보다 배꼽이 큰 작업인 거 같다. unsupervised와 가벼운 모델 방법론을 찾아봐야할 거 같다,, 1. Text Summarization 정의 : 주어진 텍스트 중 중요한 정보만 정제해내는 과정(중요한 정보만을 정제해낸 다는 것은 가치있는 정보로 변환한다..
[캡스톤] 3월 4주차 trial and error 1. CNN architecture를 생각하기가 어렵다.. 어떻게 하는게 좋을까... CNN의 convolution layer + pooling layer를 통해서 주변단어를 같이 보는 효과를 주기 때문에 title과 body input-embedding후 둘을 concat해주고 CNN architecture를 적용하였다. conv-pool을 3중으로 해주고 dense+output layer를 넣어서 돌렸더니 0.82정도의 acc가 나와서 classification task이기 때문에 0.5이상의 값이므로 이 구조를 기반으로 fine-tuning을 진행하였다. 3/30 현재는 training set 0.91/ validation set 0.889까지 나온 상태 얄루🥰🥰 요즘 팀원들이랑 쿵짝이 잘맞아서 베..