본문 바로가기

Project 🖥/2022 캡스톤👩🏻‍💻

[캡스톤] summarization 흐름 파악

Fake News탐지에서 title과 body사이의 관계를 feature로 어떻게 뽑아낼 수 있을까 고민을 하다가 body요약문을 title과 유사도 검사를 해보는 것은 어떨까? 라는 생각이 들어서 요약태스크는 어떻게 진행되는지 흐름 파악을 해보았음.

 

summarization도 현재는 주로 모델을 사용해서 요약이 이루어지고 labeled dataset이 필요한데 우리는 따로 요약이 된 데이터셋이 없는 상태. 그냥 무작정 모델을 찾아서 적용하기에는 배보다 배꼽이 큰 작업인 거 같다. unsupervised와 가벼운 모델 방법론을 찾아봐야할 거 같다,,

1. Text Summarization 정의

:  주어진 텍스트 중 중요한 정보만 정제해내는 과정(중요한 정보만을 정제해낸 다는 것은 가치있는 정보로 변환한다는 의미이다.)

 

2. task categories

: 생성방식, 원문의 개수, 생성하는 텍스트의 형태, 외부정보 사용여부에 따라서 나뉜다. 

 

<생성 방식>

- extractive summarizaton (a.k.a ext) : 원문에서 존재하는 단어, 구, 문장을 선택해서 요약하는 방식

말이 안되는 표현이 포함될 가능성이 낮다. 

- abstractive summarization (a.k.a abs) : 원문의 의미를 담아서 문장을 생성(NLG)해서 요약하는 방식

새로운 표현 생성이라 말이 안되는 표현이 포함될 수 있지만, 좀 더 flexible한 접근이 가능하다.

 

 

(G. Sizov(2010). Extraction-Based Automatic Summarization: Theoretical and Empirical Investigation of Summarization Techniques)

 

3. 주요 challenge

1. multi/long document summarization

- 원문이 길수록 computational complexity가 급격하게 증가

- 원문이 길수록 noise(핵심이 아닌 내용)가 많이 포함됨. 무엇이 noise이고 informative한 텍스트인지 구분하는 것이 어려워진다.

- 긴 원문이나 다양한 소스는 다양한 관점과 내용을 가지고 있기 때문이다.

 

2 Performance Improvement

- Transfer Learning : pretraining model활용하기는 nlp에서 거의 디폴트가 되었다는 점...!!😉😉

- Knowledge-enhanced text generation : 원문만으로 좋은 요약문을 생성하기 어려울 때 다양한 knowledge를 모델에 제공함.(ex. keywords, topics, linguistic features, knowledge bases, knowledge graphs)

- Post-editing Correction : 요약문 생성 후에 검토하는 방법

 

3.Data scarcity problem

요약의 labeled dataset을 만드는 것은 다른 태스크보다 더 큰 비용이 소모가 됨..😱 training dataset이 턱없이 부족함

- transfer learning, unsupervised learning, reinforcement learning, few-shot learning

 

4. Metric / Evaluation method

- Fluency : 문법적으로 옳고 읽고 이해하기 쉬운 요약

- Coherence : 잘 구조화되어있음

- Nonredundancy : 쓸데없는 반복이 없는 요약

- Informativeness : 얼마나 유용한 정보들로 잘 담았는가?

- Sentiment : 본문의 전반적인 sentiment를 잘 담았는가?

 

우선은 ROUGE score를 많이 사용함. generated summary와 reference summary의 출현 단어와 순서가 얼마나 일치하는지 측정하는 것임!

주의할 점은 Rouge score를 높이다가 요약문의 다양성을 해칠 수 있다는 점 ..+ human evaluation까지 같이 해줌

 

5. Controllable text generation

: 사용자가 지정한 조건에 따라서 원하는 방식으로 요약 형태를 조정하는 방식. 개인화된 요약문을 제공

- aspect-based summarization

- Query focused summarization(QFS) : QA시스템과 유사

- Update summarization : 이전에 경험한 문서 내용과 유사도가 낮은 새로운 내용으로 구성

 

 

4. Related Knowledge

1. Text Summarization 기본 개념

- orginal text = source text

- generated summary : 모델이 생성한 요약문

- reference summary, gold summary : 사람이 직접 생성한 요약문(label)

- Metric: Rouge, BLEU, Perplexity(PPL) 등

 

 

 

 

 

 

 

https://github.com/uoneway/Text-Summarization-Repo#task-categories

 

GitHub - uoneway/Text-Summarization-Repo: 텍스트 요약 분야의 주요 연구 주제, Must-read Papers, 이용 가능한 mo

텍스트 요약 분야의 주요 연구 주제, Must-read Papers, 이용 가능한 model 및 data 등을 추천 자료와 함께 정리한 저장소입니다. - GitHub - uoneway/Text-Summarization-Repo: 텍스트 요약 분야의 주요 연구 주제, Mus

github.com