전체 글 11

[A Short Survey Of NAVER AI NLP] 초기의 네이버 클로바 NLP 논문 읽기! (1) 2017년

안녕하세요 알버트의 이상한 연구소 블로그를 운영하는 이한울(알버트)이라고 합니다. 네이버는 2022년 현재 이견없이 대한민국 최고이자 아시아 탑클래스의 AI 연구실적을 보여주고 있습니다. CVPR, ICLR, EMNLP뿐만 아니라 NAACL에서도 많은 논문들이 채택되고 있죠! NLP를 공부하는 저도 항상 네이버의 뛰어난 연구성과를 보며 '나는 언제쯤 저런 연구들을 해볼 수 있을까?' 하는 생각들을 품었습니다. 그러던 도중, '과연 네이버의 AI는 어떻게 성장해왔을까?' 라는 의문이 들어 과거의 네이버 AI 논문들을 한번 다 읽어볼까? 라는 무식한 방법을 생각해냈습니다. 그리고 읽으며 포스트를 쓰기 시작했습니다. [A Short Survey Of NAVER AI NLP] 네이버 클로바에서 출판한 논문들을 ..

이상한 연구실 2022.06.03

박길성 교수님을 만나다.

2022년 5월 19일, 사회학의 대가 박길성 교수님을 뵈었다. 내가 금융 데이터 사이언스를 공부하기 시작했던 계기는 2020년 가을, 박길성 교수님의 수업이었다. 교수님께서는 항상 학생들에게 관심이 많으셨다. 코로나로 인해 학교의 문이 잠기고, Zoom 너머로만 학교의 정취를 느낄 수 있던 그 당시에도 교수님은 수업을 듣는 학생들을 자주 연구실로 초대하여 대화를 나누셨다. 교수님은 당시 학생들의 주된 고민이 '취업'이었다는 것을 알게 되셨고 수업이 끝나가던 겨울에 우리에게 한가지 과제를 내셨다. 겨울 방학동안 자신을 한번 찾아보길 바랍니다. 자신이 정말 하고싶었던 것에 도전해보고 이번 겨울이 지나면 저에게 메일로 보내주세요 어땠는지 당시의 나는 삶에 많이 지쳐있었다. 가족의 일, 전역 후의 삶, 내가 ..

이모저모 2022.05.19

[논문요약] Sentence Classification for Investment Rules Detection

Abstract 간단히, 투자 업계에서 Compliance Requirements를 맞추는 것이 점점 어려워지고 있어서, 이걸 text classification으로 해결해보자는 이야기입니다. Introduction 근 몇년간 투자 업계(Investment Funds)는 아주 세세한 부분까지 그들의 투자 전략을 설명해야 하는 법적 의무를 지게 되었는데, 관련 법령의 변화가 아주 잦은 편(로이터에 따르면 12분마다 바뀐다고...) 하지만 법령의 변화 속도에 비해 이걸 적용하는데에는 시간이 꽤 오래걸려서 이를 일일이 확인하고 적용하는데에는 몇 달이나 걸린다고 한다. 그래서 이를 준수하기 위한 비용이나 벌금이 근 몇년간 45배나 증가하였다. 그래서 투자업계는 이를 4-eye-protocol을 활용해서(4개의 ..

자연어 처리 2022.05.16

[3월 하반기에 읽은 논문들] Extractive Financial Narrative Summarisation using SBERT-base clustering, BERTopic, etc

3월 하반기에는 논문을 작성하느라 논문을 참 많이 읽은 것 같다. 그중에서 논문에서 내가 사용한 방법론과 연관된 논문 세개만 뽑아서 리뷰아닌 리뷰?를 해보고자 한다. 1. Extractive Financial Narrative Summarisation using sentenceBERT-Based Clustering Introduction Financial Narrative Summarisation Shared Task for 2021 출품작 London Stock Exchange에 상장된 기업들의 Annual Report에 대한 automatic summarisation Annual Report는 First Section- Narrative(Textual Information and reviews by ..

자연어 처리 2022.04.13

[3월 상반기에 읽은 논문들] Deep Learning for sentiment analysis, Financial Text Data Analytics Framework, etc

주당 논문 2개 이상 읽기를 여전히 실천중이다. 3월 첫째 주에 읽은 BERT와 RoBERTa는 논문 요약을 게시하였기 때문에 이 포스트에서 제외하였다. 1) Deep Learning for Sentiment Analysis : A Survey Fin-NLP 분야의 논문들은 대부분 토픽모델링(LDA)과 감성 분석을 이용한 논문들이 많다. 감성분석의 기본적인 내용들은 알고 있었지만, 다양한 감성분석의 기본과 여러 기술들을 파악하기 위해서 해당 survey paper를 읽게 되었다. 2020년에 나온 논문이지만 Transformer 기반 모델들에 대해서는 자세히 다루고 있지는 않다. 하지만 감성분석을 위한 딥러닝 및 워드 임베딩에 대한 개념도 다루고 있고 다양한 감성분석의 sub-field도 다루고 있어서 ..

자연어 처리 2022.03.17

[논문 요약] BERT + RoBERTa 같이 보기

BERT + RoBERTa Brief Introduction to BERT and RoBERTa BERT Abstract & Introduction BERT는 Bidirectional Encoder Representations from Transformers의 줄임말로 Transformer의 Encoder architecture를 활용한 모델이다. BERT는 양방향으로 unlabeled된 data를 학습하였으며, BERT는 단순히 additional한 one output layer를 추가함으로써 쉽게 fine-tuning할 수 있는 모델이다. Pre-trained LM을 활용하는 전략은 현재 두가지가 있는데, 바로 feature-based와 fine-tuning이라고 할 수 있다. feature-base..

자연어 처리 2022.03.06

[2월에 읽은 논문들] Transformer, Bahdanau Attention, Comparison of PTLM, etc

한동안 텍스트북과 인터넷 강의로만 자연어 처리 기술을 보다보니 중요한 걸 잊어가는 것 같아서 2월 3주차부터 주당 논문 2개 읽기 실천을 시작하였다. 원래대로라면 각 논문들을 읽고 요약같은걸 남겨야 제대로된 테크 블로그지만 삶이 팍팍하여 아카이빙 용도로 어떤 논문을 읽었는지 남겨두려고 한다. 일단 과거에 읽어보았던 논문들을 다시 보는것부터 논문 읽기를 시작하였다. 1) Attention is all you need Transformer 기반으로 된 다양한 거대 모델이 NLP 뿐만 아니라 CV에서도 무쌍을 찍고 있는 요즘, 그 모태가 되는 논문을 다시 읽어보았다. Transformer는 Machine Translation에서 Attention만을 이용하여 효과적으로 RNN을 제거하였다. RNN을 제거함으로..

자연어 처리 2022.02.27

딥러닝 전에, 알아보자 시계열 분석! - (2) 정상성(Stationarity), 들어봤니? -

COCRE 1기 회원으로서 작성한 글입니다. COCRE가 궁금하다면! 클릭! 안녕하세요! 코크리 1기, 알버트의 이상한 연구소의 이한울이라고 합니다. 이번 에피소드는 정상성(Stationarity)에 대한 내용입니다. 정상성, 혹시 들어보셨나요? 들어보지 않으셨어도 괜찮습니다. 이번 글에서는 정상성이란 무엇이며, 정상성은 어떻게 판단하며, 비정상적(non-stationary) 시계열을 어떻게 정상적으로 만들 수 있는가에 대해 이야기 해보려고 합니다. 정상성이 왜 필요한가?에 대해서는 이전 글에서 다룬 부분을 인용하여 가져오겠습니다. 만약 시계열의 특징이 관측된 시간과 무관하지 않다면, 해당 시계열은 시간에 따라 특징이 변하고 있다고 볼 수 있습니다. 지금 현재 시간이 t라고 할 경우, t-10~t-1까지..

이상한 연구실 2022.02.18

다양한 공모전 후기(디지털 산업혁신 시각화 경진대회, 디지털 산업혁신 금융 경진대회, 빅콘테스트 2021)

2021년 하반기의 공모전 실적은 다음과 같다 디지털 산업혁신 플랫폼 KED 시각화 아이디어 경진대회 대상 디지털 산업혁신 플랫폼 fnguide 금융 아이디어 경진대회 대상 빅콘테스트 2021 이노베이션 분야 중소기업지원 부문 최우수상(부문 내 1위) 각 공모전의 후기 및 간단한 팁? 을 남겨보려고 한다. 1) 디지털 산업혁신 플랫폼 KED 시각화 아이디어 경진대회 https://www.etnews.com/20210916000063 한국기업데이터, 빅데이터 시각화 아이디어 경진대회 개최 한국기업데이터(대표이사 이호동)는 지역 기업정보를 활용한 빅데이터 시각화 아이디어 경진대회를 개최한다고 16일 밝혔다. 대회는 한국지능정보사회진흥원(NIA)이 주최한다. 한국산업기술시 www.etnews.com NIA 주..

다양한 후기들 2022.01.06

딥러닝 전에, 알아보자 시계열 분석! - (1) 시작하자 시계열! -

COCRE 1기 회원으로서 작성한 글입니다. COCRE가 궁금하다면! 클릭! 딥러닝 전에, 알아보자 시계열 분석! 안녕하세요~ COCRE 1기, 알버트의 이상한 연구소 블로그의 이한울이라고 합니다. 이번 포스팅부터 시작하는 '딥러닝 전에, 알아보자 시계열 분석!'은 시계열 머신러닝/딥러닝을 시작하는 분들을 위한, 통계적 시계열 분석에 관한 콘텐츠 입니다. 이 시리즈는 통계적 시계열 분석의 역사와 내용, 그리고 시계열 데이터의 특징을 포괄적으로 다룸으로써 시계열 데이터 분석을 시작하는 분들에게 유용한 배경 지식을 제공하고자 합니다. 통계적 시계열 분석은 학습하기 위해 먼저 기초적인 회귀분석 지식 및 수리통계학에 대한 지식을 필요로 합니다. 하지만 이 시리즈는 고등학교 수준의 통계적 지식을 가진 분들도 쉽게..

이상한 연구실 2021.12.30