자연어 처리 5

[논문요약] Sentence Classification for Investment Rules Detection

Abstract 간단히, 투자 업계에서 Compliance Requirements를 맞추는 것이 점점 어려워지고 있어서, 이걸 text classification으로 해결해보자는 이야기입니다. Introduction 근 몇년간 투자 업계(Investment Funds)는 아주 세세한 부분까지 그들의 투자 전략을 설명해야 하는 법적 의무를 지게 되었는데, 관련 법령의 변화가 아주 잦은 편(로이터에 따르면 12분마다 바뀐다고...) 하지만 법령의 변화 속도에 비해 이걸 적용하는데에는 시간이 꽤 오래걸려서 이를 일일이 확인하고 적용하는데에는 몇 달이나 걸린다고 한다. 그래서 이를 준수하기 위한 비용이나 벌금이 근 몇년간 45배나 증가하였다. 그래서 투자업계는 이를 4-eye-protocol을 활용해서(4개의 ..

자연어 처리 2022.05.16

[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

3월 하반기에는 논문을 작성하느라 논문을 참 많이 읽은 것 같다. 그중에서 논문에서 내가 사용한 방법론과 연관된 논문 세개만 뽑아서 리뷰아닌 리뷰?를 해보고자 한다. 1. Extractive Financial Narrative Summarisation using sentenceBERT-Based Clustering Introduction Financial Narrative Summarisation Shared Task for 2021 출품작 London Stock Exchange에 상장된 기업들의 Annual Report에 대한 automatic summarisation Annual Report는 First Section- Narrative(Textual Information and reviews by ..

자연어 처리 2022.04.13

[3월 상반기에 읽은 논문들] Deep Learning for sentiment analysis, Financial Text Data Analytics Framework, etc

주당 논문 2개 이상 읽기를 여전히 실천중이다. 3월 첫째 주에 읽은 BERT와 RoBERTa는 논문 요약을 게시하였기 때문에 이 포스트에서 제외하였다. 1) Deep Learning for Sentiment Analysis : A Survey Fin-NLP 분야의 논문들은 대부분 토픽모델링(LDA)과 감성 분석을 이용한 논문들이 많다. 감성분석의 기본적인 내용들은 알고 있었지만, 다양한 감성분석의 기본과 여러 기술들을 파악하기 위해서 해당 survey paper를 읽게 되었다. 2020년에 나온 논문이지만 Transformer 기반 모델들에 대해서는 자세히 다루고 있지는 않다. 하지만 감성분석을 위한 딥러닝 및 워드 임베딩에 대한 개념도 다루고 있고 다양한 감성분석의 sub-field도 다루고 있어서 ..

자연어 처리 2022.03.17

[논문 요약] BERT + RoBERTa 같이 보기

BERT + RoBERTa Brief Introduction to BERT and RoBERTa BERT Abstract & Introduction BERT는 Bidirectional Encoder Representations from Transformers의 줄임말로 Transformer의 Encoder architecture를 활용한 모델이다. BERT는 양방향으로 unlabeled된 data를 학습하였으며, BERT는 단순히 additional한 one output layer를 추가함으로써 쉽게 fine-tuning할 수 있는 모델이다. Pre-trained LM을 활용하는 전략은 현재 두가지가 있는데, 바로 feature-based와 fine-tuning이라고 할 수 있다. feature-base..

자연어 처리 2022.03.06

[2월에 읽은 논문들] Transformer, Bahdanau Attention, Comparison of PTLM, etc

한동안 텍스트북과 인터넷 강의로만 자연어 처리 기술을 보다보니 중요한 걸 잊어가는 것 같아서 2월 3주차부터 주당 논문 2개 읽기 실천을 시작하였다. 원래대로라면 각 논문들을 읽고 요약같은걸 남겨야 제대로된 테크 블로그지만 삶이 팍팍하여 아카이빙 용도로 어떤 논문을 읽었는지 남겨두려고 한다. 일단 과거에 읽어보았던 논문들을 다시 보는것부터 논문 읽기를 시작하였다. 1) Attention is all you need Transformer 기반으로 된 다양한 거대 모델이 NLP 뿐만 아니라 CV에서도 무쌍을 찍고 있는 요즘, 그 모태가 되는 논문을 다시 읽어보았다. Transformer는 Machine Translation에서 Attention만을 이용하여 효과적으로 RNN을 제거하였다. RNN을 제거함으로..

자연어 처리 2022.02.27