본문 바로가기

전체 글

(16)
NLP trends and models 전이학습 : 레이블되어 있지 않는 굉장히 큰 텍스트 데이터에서 self-supervised task(언어모델링, 누락된 단어 채우기)를 학습하여(pre-training) 모델을 만듦. 그 다음 레이블 된 텍스트 데이터로 파인 튜닝을 함. ex) GPT, UNMFit, ELMo, BERT, XLNet, RoBERTa, ALBERT, Reformer, MT-DNN BERT기반의 모델들은 태스크 별로 출력을 다르게 할 수 있음. 기존 데이터셋에는 퀄리티 이슈나 데이터의 다양성에 대한 이슈가 있음. pretrained language model의 중요성 처음부터 모델을 학습시킬 필요없이, 기존의 대량의 데이터로 학습된 모델(Pre-trained model)을 가지고 우리의 태스크에 맞게 fine-tuning하면..
[캡스톤] 4월 3주차 trial and error 1. biLSTM + attention 이전에 fasttext+CNN모델에서 validation acc 0.89까지 나와서 정성적 평가까지 해보았더니 기사의 제목과 본문의 키워드는 유사하지만 뉘앙스가 다른 가짜뉴스들을 제대로 분류하지 못하고 있었다. 0.52정도의 score로 가짜뉴스를 분류하고 있었기 때문. 문맥을 잘 반영하는 모델로 바꾸어야겠다는 생각에 LSTM과 CNN에서 문맥을 잘 반영하려면 어떻게 해야할까를 찾다가 attention mechanism을 활용하기로 했다! 우선 body의 문맥을 잘 반영하지 못하니까 body에 biLSTM을 쓰고 attention까지 해서 context vector를 잘 뽑아서 title+context vector로 신경망에 넣어보자👊 2. 모델 저장 error 서..
[캡스톤] 어텐션 메커니즘 & ELMO & BERT 이전에 CNN 모델의 결과를 정성적 평가해보니 문맥이 고려되지 않고 키워드를 기반으로 fake news를 분류하고 있었다. 그래서 문맥 가능한 모델로 디벨롭을 해보고자 어텐션과 ELMo 임베딩, BERT에 대해서 스터디를 하고 우리 모델에 적용해보기로 하였다! 1. seq2seq의 문제점1 seq2seq의 encoder에서 context vector 하나에 모든 정보를 압축하려다보니 정보손실의 문제가 발생 2. seq2seq의 문제점2 : RNN 기울기 소실 - RNN 계층이 과거 방향으로 '의미 있는 기울기'를 전달함으로써 시간 방향의 의존 관계 학습 가능 - 기울기는 학습해야 할 의미 있는 정보가 들어있음. 과거로 전달하여 장기 의존 관계를 학습하는데, 기울기가 소실되면 과거의 정보 학습이 어려워짐...
[캡스톤] summarization 흐름 파악 Fake News탐지에서 title과 body사이의 관계를 feature로 어떻게 뽑아낼 수 있을까 고민을 하다가 body요약문을 title과 유사도 검사를 해보는 것은 어떨까? 라는 생각이 들어서 요약태스크는 어떻게 진행되는지 흐름 파악을 해보았음. summarization도 현재는 주로 모델을 사용해서 요약이 이루어지고 labeled dataset이 필요한데 우리는 따로 요약이 된 데이터셋이 없는 상태. 그냥 무작정 모델을 찾아서 적용하기에는 배보다 배꼽이 큰 작업인 거 같다. unsupervised와 가벼운 모델 방법론을 찾아봐야할 거 같다,, 1. Text Summarization 정의 : 주어진 텍스트 중 중요한 정보만 정제해내는 과정(중요한 정보만을 정제해낸 다는 것은 가치있는 정보로 변환한다..
[캡스톤] 3월 4주차 trial and error 1. CNN architecture를 생각하기가 어렵다.. 어떻게 하는게 좋을까... CNN의 convolution layer + pooling layer를 통해서 주변단어를 같이 보는 효과를 주기 때문에 title과 body input-embedding후 둘을 concat해주고 CNN architecture를 적용하였다. conv-pool을 3중으로 해주고 dense+output layer를 넣어서 돌렸더니 0.82정도의 acc가 나와서 classification task이기 때문에 0.5이상의 값이므로 이 구조를 기반으로 fine-tuning을 진행하였다. 3/30 현재는 training set 0.91/ validation set 0.889까지 나온 상태 얄루🥰🥰 요즘 팀원들이랑 쿵짝이 잘맞아서 베..
[cs285] lecture2. Supervised Learning of Behaviors 1. sequential decision problem sequential decision problem이란, 매 시간 t마다 agent가 observation을 input으로 받아서 action을 선택하는 문제이다. policy는 어떤 action을 할지 결정하는 함수 fully-observable할 때는 observation 대신 state라고 함. 우리는 optimal policy를 찾기위해서 observation인지 state인지 구분하는 것이 중요하다. state는 conditional independence를 만족하지만, observation들은 만족하지 않기 때문이다. conditional independence를 만족하는 state는 markov property를 만족한다. fully-ob..
[cs285]lecture1 1. 강화학습이란? 지도학습으로 모델링할 수 없는 연속된 의사결정들을 모델링하고 평가하기 위한 알고리즘 agent는 주어진 environment에서 관찰한 1)observation에 따라 2)action(decisions)을 취하고, action에 따른 3)reward를 받게된다. 다른 학습과의 차이점은 이전의 output이 다음 input에 영향을 준다는 것이다. (action → observation) 행동의 순서와 시간을 포괄하여 학습. 현재의 reward를 최대화하는 것이 아니라, long-term cumulative rewards를 최대화하는 행동을 선택하는 방향으로 학습 2. why should we learn deep reinforcement learning? advances in deep ..
[논문 대충 리뷰]Big Bird, mobileBERT, ELECTRA papers with code-greatest papaers with code Big Bird: Transformers for Longer Sequences NeurIPS 2020 NLI BERT(transformer-based model) 문제점 : quadratic dependency(mainly in terms of memory) on the sequence length 블로그 참고 이것은 기본적으로 큰 문자열을 입력으로 적용하기 전에 작은 세그먼트로 분할해야 함을 의미합니다. 이러한 콘텐츠 조각화는 컨텍스트의 상당한 손실을 초래하여 응용 프로그램이 제한됩니다. BERT는 완전한 자기주의 메커니즘에서 작동 합니다. 이로 인해 모든 새로운 입력 토큰에 대한 계산 및 메모리 요구 사항이 2 차적으로 증..