자연어 처리

[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

Hanwool Albert 2022. 4. 13. 17:44

3월 하반기에는 논문을 작성하느라 논문을 참 많이 읽은 것 같다.

 

그중에서 논문에서 내가 사용한 방법론과 연관된 논문 세개만 뽑아서

 

리뷰아닌 리뷰?를 해보고자 한다.

 

1. Extractive Financial Narrative Summarisation using sentenceBERT-Based Clustering

Introduction

  • Financial Narrative Summarisation Shared Task for 2021 출품작
  • London Stock Exchange에 상장된 기업들의 Annual Report에 대한 automatic summarisation
  • Annual Report는 First Section- Narrative(Textual Information and reviews by 이사회) Second Section- Financial statements that consist of numerical data으로 구성. 그 중 First section요약
  • section에 대해 1000개 내외의 word로 summarisation을 해야 함
  • Sentence Embedding과 Clustering을 이용하여 이를 해결

Related Work

Sentence Embedding(previous)

  • TF-IDF
  • Latent Semantic Indexing

Body

Data:

  • LSE에 상장된 기업들의 Annual Report 3,863개. (각 80장이 넘음)

Preprocessing:

  • Report에서 ‘Cheif Executive’s Review’ , ‘At a glance’, ‘Highlights’, ‘Chairman’s statement’ 부분 사용(전체 리포트의 앞부분 10%에 해당)
  • NLTK tokenizer + SBERT → Clustering(K-means, 25개의 cluster 지정)
  • Final Summary는 Cluster의 centroid에 해당하는 문장을 사용

Results:

  • ROUGE metrics를 이용하여 성과 측정
  • Textrank, Lexrank, SumTO, Hulat 같은 과거의 SOTA 모델들보다 높은 성과를 달성
  • 하지만 data로부터 적절한 cluster 개수를 고른 것이 아닌, 주어진 문제의 제한 조건에 따라 cluster 개수를 정했다는 한계를 지님
  • 여기선 Sentence - BERT/RoBERTa를 사용했지만 모델을 적절히 fine-tune했으면 더 높은 성과가 나왔을 것이라 생각

Conclusion

  • 3개의 시스템을 다시 언급(전체에서 4부분 추출, 추출→SBERT→Embedding, Embedding→K-means→Clustering)

 

과연 Sentence-BERT로 나타난 Semantic Cluster의 centroid를 뽑아서 모으는게 요약인가..? 라는 생각이 들었다. 하지만 텍스트 요약에 대해서는 자세히 알지 못하니 나중에 더 공부하고 다시 생각해봐야겠다.

 

2. BERTopic : Neural Topic Modeling with a class-based TF-IDF procedure

 

좀 힘이 빠져서 위 논문처럼 정리는 못할 것 같다. 접근 방식은 위와 비슷하다. Sentence-BERT로 Sentence Embedding Vector를 추출하고, UMAP로 차원축소하고, HDBSCAN으로 Clustering해서 토픽을 추출한다. 그리고 Topic Representation을 도출하기 위해 class-based TF-IDF를 사용한다. 기존의 CTM이 그래도 어느정도 BoW를 이용했던 것과 달리 이건 아예 이용을 안한다. 여러모로 과거의 토픽모델링과의 작별을 고하는 논문이 아니었나 싶다.

 

3. Variations in word usage for the Financial Domain

Introduction

  • Words usage는 다양한 factor에 의해 변화
  • Recent Approach는 static word embedding에 의존중
  • 근데 ELMo와 BERT가 나와서 contextualized word embedding이 가능해짐
  • 단어 용례의 diachrony(시간적 차이), synchrony( 비시간적 차이)를 분석해보고자 함
  • 이 논문의 두가지 포인트
  1. Studying word use variations across any dimension on the financial domain
  2. proposing a method to measure and interpret the variations of a word usage across a dimension

Related Work

  • BERT

Body

  • 모든 문장에 대한 토큰을 pre-trained BERT에 넣어서 vector representation(Embedding)를 얻음
  • Computation 자원이 모자라서 full vocab은 안되고 high-variation word만 detect해서 사용
  • K-means, affinity propagation를 통해 token embedding들을 clustering함
  • 그렇게 cluster를 바탕으로 단어에 용례에 대한 probability distribution을 계산
  • Jensen-Shannon divergence를 통해 두개 이상의 distribution을 비교
  • 키워드들을 시간적, 비시간적 요인을 바탕으로 클러스터링 비교

Conclusion

  • Evaluation Method가 없음
  • 기타등등

열심히 리뷰해보려고 했으나 BERT를 통해서 vector representation을 얻는, 위의 두 논문과 어느정도 유사한 접근을 취하는 논문이었다.

 

 

4월 초에 논문을 submit하고 이것저것 마칠 일이 많아서 포스팅이 늦은 것 같다.

다음엔 더 정성을 들여 작성해야겠다.