[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

자연어 처리

[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

Hanwool Albert 2022. 4. 13. 17:44

3월 하반기에는 논문을 작성하느라 논문을 참 많이 읽은 것 같다.

그중에서 논문에서 내가 사용한 방법론과 연관된 논문 세개만 뽑아서

리뷰아닌 리뷰?를 해보고자 한다.

1. Extractive Financial Narrative Summarisation using sentenceBERT-Based Clustering

Introduction

Financial Narrative Summarisation Shared Task for 2021 출품작
London Stock Exchange에 상장된 기업들의 Annual Report에 대한 automatic summarisation
Annual Report는 First Section- Narrative(Textual Information and reviews by 이사회) Second Section- Financial statements that consist of numerical data으로 구성. 그 중 First section요약
section에 대해 1000개 내외의 word로 summarisation을 해야 함
Sentence Embedding과 Clustering을 이용하여 이를 해결

Related Work

Sentence Embedding(previous)

TF-IDF
Latent Semantic Indexing

Body

Data:

LSE에 상장된 기업들의 Annual Report 3,863개. (각 80장이 넘음)

Preprocessing:

Report에서 ‘Cheif Executive’s Review’ , ‘At a glance’, ‘Highlights’, ‘Chairman’s statement’ 부분 사용(전체 리포트의 앞부분 10%에 해당)
NLTK tokenizer + SBERT → Clustering(K-means, 25개의 cluster 지정)
Final Summary는 Cluster의 centroid에 해당하는 문장을 사용

Results:

ROUGE metrics를 이용하여 성과 측정
Textrank, Lexrank, SumTO, Hulat 같은 과거의 SOTA 모델들보다 높은 성과를 달성
하지만 data로부터 적절한 cluster 개수를 고른 것이 아닌, 주어진 문제의 제한 조건에 따라 cluster 개수를 정했다는 한계를 지님
여기선 Sentence - BERT/RoBERTa를 사용했지만 모델을 적절히 fine-tune했으면 더 높은 성과가 나왔을 것이라 생각

Conclusion

3개의 시스템을 다시 언급(전체에서 4부분 추출, 추출→SBERT→Embedding, Embedding→K-means→Clustering)

과연 Sentence-BERT로 나타난 Semantic Cluster의 centroid를 뽑아서 모으는게 요약인가..? 라는 생각이 들었다. 하지만 텍스트 요약에 대해서는 자세히 알지 못하니 나중에 더 공부하고 다시 생각해봐야겠다.

2. BERTopic : Neural Topic Modeling with a class-based TF-IDF procedure

좀 힘이 빠져서 위 논문처럼 정리는 못할 것 같다. 접근 방식은 위와 비슷하다. Sentence-BERT로 Sentence Embedding Vector를 추출하고, UMAP로 차원축소하고, HDBSCAN으로 Clustering해서 토픽을 추출한다. 그리고 Topic Representation을 도출하기 위해 class-based TF-IDF를 사용한다. 기존의 CTM이 그래도 어느정도 BoW를 이용했던 것과 달리 이건 아예 이용을 안한다. 여러모로 과거의 토픽모델링과의 작별을 고하는 논문이 아니었나 싶다.

3. Variations in word usage for the Financial Domain

Introduction

Words usage는 다양한 factor에 의해 변화
Recent Approach는 static word embedding에 의존중
근데 ELMo와 BERT가 나와서 contextualized word embedding이 가능해짐
단어 용례의 diachrony(시간적 차이), synchrony( 비시간적 차이)를 분석해보고자 함
이 논문의 두가지 포인트

Studying word use variations across any dimension on the financial domain
proposing a method to measure and interpret the variations of a word usage across a dimension

Related Work

BERT

Body

모든 문장에 대한 토큰을 pre-trained BERT에 넣어서 vector representation(Embedding)를 얻음
Computation 자원이 모자라서 full vocab은 안되고 high-variation word만 detect해서 사용
K-means, affinity propagation를 통해 token embedding들을 clustering함
그렇게 cluster를 바탕으로 단어에 용례에 대한 probability distribution을 계산
Jensen-Shannon divergence를 통해 두개 이상의 distribution을 비교
키워드들을 시간적, 비시간적 요인을 바탕으로 클러스터링 비교

Conclusion

Evaluation Method가 없음
기타등등

열심히 리뷰해보려고 했으나 BERT를 통해서 vector representation을 얻는, 위의 두 논문과 어느정도 유사한 접근을 취하는 논문이었다.

4월 초에 논문을 submit하고 이것저것 마칠 일이 많아서 포스팅이 늦은 것 같다.

다음엔 더 정성을 들여 작성해야겠다.

'자연어 처리' 카테고리의 다른 글

[논문요약] Sentence Classification for Investment Rules Detection (0)	2022.05.16
[3월 상반기에 읽은 논문들] Deep Learning for sentiment analysis, Financial Text Data Analytics Framework, etc (0)	2022.03.17
[논문 요약] BERT + RoBERTa 같이 보기 (0)	2022.03.06
[2월에 읽은 논문들] Transformer, Bahdanau Attention, Comparison of PTLM, etc (0)	2022.02.27

현재글[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

통계, Machine Learning, NLP에 대한 지식을 바탕으로 재밌는 걸 만들고자 합니다.

금융공학, 코크리, Roberta, 이상한연구소, 텍스트마이닝, FIND-A, 시계열분석, nlp, 금융빅데이터, 빅데이터, 퀀트, 논문리딩, Bert, 알버트, Fin-NLP, 논문요약, 학회, 자연어처리, 논문리뷰, 논문,

Today :
Yesterday :

알버트의 이상한 연구소