자연어 처리

[3월 상반기에 읽은 논문들] Deep Learning for sentiment analysis, Financial Text Data Analytics Framework, etc

Hanwool Albert 2022. 3. 17. 19:33

주당 논문 2개 이상 읽기를 여전히 실천중이다.

 

3월 첫째 주에 읽은 BERT와 RoBERTa는 논문 요약을 게시하였기 때문에 이 포스트에서 제외하였다.

 

1) Deep Learning for Sentiment Analysis : A Survey

 

Deep Learning for sentiment analysis : a survey

Fin-NLP 분야의 논문들은 대부분 토픽모델링(LDA)과 감성 분석을 이용한 논문들이 많다. 감성분석의 기본적인 내용들은 알고 있었지만, 다양한 감성분석의 기본과 여러 기술들을 파악하기 위해서 해당 survey paper를 읽게 되었다.

2020년에 나온 논문이지만 Transformer 기반 모델들에 대해서는 자세히 다루고 있지는 않다. 하지만 감성분석을 위한 딥러닝 및 워드 임베딩에 대한 개념도 다루고 있고 다양한 감성분석의 sub-field도 다루고 있어서 많은 것을 배워갈 수 있었다.

 

 

2) Financial Text Data Analytics Framework for business confidence indices and inter-industry relations

 

Financial Text Data Analytics Framework for BCI

 이 논문은 간단히 말해서 은행의 Contact history data를 Word2Vec + Bidirectional LSTM으로 감성분석을 한 뒤, 이를 점수화 시켜 Business Confidence Index에 근사시킨 논문이다. 그 후 다양한 통계적 기법으로 추가적인 분석도 가미하였다. 

 제목만 보았을 때, 해당 논문에 감성분석이 쓰였을 거라고는 차마 생각하지 못했다. Word2Vec + Bidirectional LSTM을 통해 감성을 Very Bad부터 Very Good까지 분류한 후 평균값을 취해서 사용하는 것이 좀 신기했다.

 Data를 볼 수 있었으면 더욱 흥미로운 논문이 되었을 텐데, Contact History는 은행이 가지고 있는 데이터라서 공개가 불가능하다고 한다. 아쉬운 부분이다.

 

 

3) Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

What Makes In-Context Learning work?

Paperswithcode로 받아본 따끈따끈한 논문이었다. 해당 논문에서는 Input-label pair, 즉 demonstration이라고 하는 것이 어떻게 결과에 영향을 주는지를 토대로 모델이 어떻게 In-context Learning을 수행하는지 알아보고자 하였다.

마침 그 주에 Sentimental Analysis a survey도 읽었던 터라 더욱 재밌게 읽은 것 같다. 

 가장 놀라웠던 것은 input-label mapping이 생각보다 demonstration에서 크게 중요하지 않았다는 점이다. 해당 논문에서는 (1) Label space (2) distribution of input text (2) overall format of sequence를 demonstration의 중요한 요소로 제시했다.  그리고 conclusion에서 몇가지 재밌는 질문을 던졌는데

 

'Does the model learn at test time?'같은 질문이 기억에 남았다. 역시 아직 NLP에 대해서는 미지의 영역이 많다는 것을 또 느꼈다.

 

 

4) 텍스트 감성분석과 해석가능한 기계학습 기반의 포렌식 기법을 활용한 회계부정탐지 : 내부회계관리제도를 중심으로

회계부정탐지

결론적으로 말하자면 NLP 논문이 아니다. googleLanguageR이라는 패키지를 통해 감성분석을 수행하였을 뿐이다. 그리고 해당 내용은 183개의 또다른 입력변수와 함께 Logistic Regression 모델에 들어갔다.

비선형적 모델들보다 선형적 모델들이 더욱 높은 성능을 보였다는 점과, 아주 단순히 감성 분석을 수행해서 넣었는데도 성능이 증가했다는 점이 기억에 남는 논문이었다. 이런식으로 텍스트 마이닝과 NLP가 여러 분야에 활용되면 좋겠다는 생각이 들었다.

 

 

 

점점 읽는 논문의 수가 증가하고 있어서, 3월 총정리로 하면 너무 양이 많아질 것 같아 3월 상반기와 하반기로 나누었다.

 

아직까지 배움의 길은 멀지만 매 걸음마다 신기한 것을 만나고 있어 여전히 즐겁다.