자연어처리 5

[A Short Survey Of NAVER AI NLP] 초기의 네이버 클로바 NLP 논문 읽기! (1) 2017년

안녕하세요 알버트의 이상한 연구소 블로그를 운영하는 이한울(알버트)이라고 합니다. 네이버는 2022년 현재 이견없이 대한민국 최고이자 아시아 탑클래스의 AI 연구실적을 보여주고 있습니다. CVPR, ICLR, EMNLP뿐만 아니라 NAACL에서도 많은 논문들이 채택되고 있죠! NLP를 공부하는 저도 항상 네이버의 뛰어난 연구성과를 보며 '나는 언제쯤 저런 연구들을 해볼 수 있을까?' 하는 생각들을 품었습니다. 그러던 도중, '과연 네이버의 AI는 어떻게 성장해왔을까?' 라는 의문이 들어 과거의 네이버 AI 논문들을 한번 다 읽어볼까? 라는 무식한 방법을 생각해냈습니다. 그리고 읽으며 포스트를 쓰기 시작했습니다. [A Short Survey Of NAVER AI NLP] 네이버 클로바에서 출판한 논문들을 ..

이상한 연구실 2022.06.03 (1)

[논문요약] Sentence Classification for Investment Rules Detection

Abstract 간단히, 투자 업계에서 Compliance Requirements를 맞추는 것이 점점 어려워지고 있어서, 이걸 text classification으로 해결해보자는 이야기입니다. Introduction 근 몇년간 투자 업계(Investment Funds)는 아주 세세한 부분까지 그들의 투자 전략을 설명해야 하는 법적 의무를 지게 되었는데, 관련 법령의 변화가 아주 잦은 편(로이터에 따르면 12분마다 바뀐다고...) 하지만 법령의 변화 속도에 비해 이걸 적용하는데에는 시간이 꽤 오래걸려서 이를 일일이 확인하고 적용하는데에는 몇 달이나 걸린다고 한다. 그래서 이를 준수하기 위한 비용이나 벌금이 근 몇년간 45배나 증가하였다. 그래서 투자업계는 이를 4-eye-protocol을 활용해서(4개의 ..

자연어 처리 2022.05.16

[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

3월 하반기에는 논문을 작성하느라 논문을 참 많이 읽은 것 같다. 그중에서 논문에서 내가 사용한 방법론과 연관된 논문 세개만 뽑아서 리뷰아닌 리뷰?를 해보고자 한다. 1. Extractive Financial Narrative Summarisation using sentenceBERT-Based Clustering Introduction Financial Narrative Summarisation Shared Task for 2021 출품작 London Stock Exchange에 상장된 기업들의 Annual Report에 대한 automatic summarisation Annual Report는 First Section- Narrative(Textual Information and reviews by ..

자연어 처리 2022.04.13

[3월 상반기에 읽은 논문들] Deep Learning for sentiment analysis, Financial Text Data Analytics Framework, etc

주당 논문 2개 이상 읽기를 여전히 실천중이다. 3월 첫째 주에 읽은 BERT와 RoBERTa는 논문 요약을 게시하였기 때문에 이 포스트에서 제외하였다. 1) Deep Learning for Sentiment Analysis : A Survey Fin-NLP 분야의 논문들은 대부분 토픽모델링(LDA)과 감성 분석을 이용한 논문들이 많다. 감성분석의 기본적인 내용들은 알고 있었지만, 다양한 감성분석의 기본과 여러 기술들을 파악하기 위해서 해당 survey paper를 읽게 되었다. 2020년에 나온 논문이지만 Transformer 기반 모델들에 대해서는 자세히 다루고 있지는 않다. 하지만 감성분석을 위한 딥러닝 및 워드 임베딩에 대한 개념도 다루고 있고 다양한 감성분석의 sub-field도 다루고 있어서 ..

자연어 처리 2022.03.17

[논문 요약] BERT + RoBERTa 같이 보기

BERT + RoBERTa Brief Introduction to BERT and RoBERTa BERT Abstract & Introduction BERT는 Bidirectional Encoder Representations from Transformers의 줄임말로 Transformer의 Encoder architecture를 활용한 모델이다. BERT는 양방향으로 unlabeled된 data를 학습하였으며, BERT는 단순히 additional한 one output layer를 추가함으로써 쉽게 fine-tuning할 수 있는 모델이다. Pre-trained LM을 활용하는 전략은 현재 두가지가 있는데, 바로 feature-based와 fine-tuning이라고 할 수 있다. feature-base..

자연어 처리 2022.03.06