### 기술 설명

문서요약(text summarization)은 자연어처리(natural language processings) 분야에 상당히 재미있는 과제 중 한가지,
그리고 일상생활에도 상당히 유용한데도 불구하고
한국어 문서요약을 하는 프로젝트를 쉽게 찾지 못해 여기서 간단하게 시도해봤습니다.

기본 개념은 문서에서 가장 중요한 N개의 문장을 선택해서 개요를 생성하는 추출적 요약(extractive summarization)인데요
문장을 선택하는 기준에 따라 다양한 기법이 있죠.
흔히 사용하는 TextRank 알고리즘은 문장 사이의 상호관계를 통해 그중 가장 핵심적인 문장을 찾는 graph-based 기법입니다.

이 프로젝트는 문장임베딩(sentence embedding)을 통해 문장의 의미를 벡터로 나타내고,
클러스터링(clustering)으로 비슷한 의미를 가지고 있는 문장을 찾아,
여러 클러스터 중에서 각각 1개의 핵심 문장을 선택해서 개요를 만드는 기법을 사용합니다. 

문장임베딩을 찾는데서 [Sentence-BERT](https://www.sbert.net/)라는 모델로 시도했었는데요 기존 모델은 BERT 기반이라서
한국어 문서요약 성능이 좋지 않았습니다.
그래서 한국어 임베딩에 트레이닝이된 [KoBERT](https://github.com/SKTBrain/KoBERT)를 뒷받침으로 Sentence-BERT 모델을 사용합니다.

문장임베딩을 구하고 개요를 생성하는 과정에서 파이썬 [Summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) 패키지를 사용하고
문장경계식별(sentence boundary detection) 등 전처리 및 후처리를 위해 [Spacy](https://spacy.io/) 라이버리를 활용했습니다.
네이버 뉴스 기사 링크를 입력하는 경우 [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/)로 먼저 해당 페이지에서 기사본문을 추출한 후 개요를 생성합니다.

프로젝트에 앞으로 개선해야 할 점이 아직 많습니다.
만족스러운 한글 문서 요약 데이터셋이 없어 fine-tuning 학습이 불가능했고
종종 글에 가장 핵심적인 문장이 개요에서 누락되는 경우가 있고 context가 없어 이해하기 어려운 문장이 포함되는 경우가 있죠.
언어모델의 크기가 상당해서 CPU 성능도 만족스럽지 않아
더 작은 모델로 실험해보는 것도 좋을것 같습니다.
또한 네이버뉴스 뿐만이 아니라 다른 사이트에서도 문서 본문을 추출하는 web scraping 코드를 추가하면 사용하기 편하겠죠.