Jessy Min's blog

Konlpy 형태소분석기의 사용자 사전 비교

지난 글에 이어, 이번에는 형태소 분석기가 잘못 분석하는 단어를 사용자 사전에 추가해 바로잡는 방법을 정리해보았다. 이전 글 : 텍스트 분석의 현실적인 문제들 한국어 형태소분석기를 비교하는 기준 Motivation 진행 중인 프로젝트에 어떤 형태소분석기를 적용할지 비교/분석해서 정하기 위해 틈틈이 공부하는 중이다. 비교하는 요소 중에는 ‘사용자 사전 관리가 얼마나 용이한가’라는 관점도 있다. 분석하려는...

September 15, 2022

in Text analysis

한국어 형태소분석기를 비교하는 기준

지난 글(텍스트 분석의 현실적인 문제들)에 이어서 이번에는 텍스트 분석의 전처리 및 단어 추출을 위해 필요한 형태소분석기에 대해 살펴보려 한다. 지난 글 : Motivation 진행 중인 프로젝트에서 전처리 과정을 셋팅할 때 어떤 형태소분석기를 적용해야 할지 고민 중이고, 9월 중에는 결정을 해야 하는 상황이다. 처리 속도와 같은 기술적인 관점에서의 검토는 개발자 분들의...

August 21, 2022

in Text analysis

텍스트 분석의 현실적인 문제들 - 전처리, 형태소분석, 후처리

1월 말에 새로운 팀으로 이동해서 적응한지 6개월이 지났다. 하반기 새로운 서비스를 준비하면서 필요에 의해 텍스트 분석의 전처리 과정에 대해 깊이 파고드는 중이다. 기존에 운영 중인 서비스의 텍스트 데이터 수집 - 전처리 - 분석 - 집계 - 대시보드 시각화하는 파이프라인을 그대로 따른다고 생각하면 그리 큰 일은 아니다. 하지만 실무자의 관점에서 자세히...

August 7, 2022

in Text analysis

그래프 DB란? 개요와 특징, 관계형DB와의 차이점

곧 시작하게 될 회사 프로젝트에서 텍스트 데이터를 지식 그래프(Graph Knowledge) 형식으로 시각화하는 방법을 검토해볼 일이 생겼다. 이걸 하려면 그래프 DB로 구현해야 한다는데, 관련해서 개인적으로 몇 가지 궁금한 점이 생겼다. 연관 키워드를 분석하는 시각화는 텍스트 분석 서비스들에서 종종 보이던데, 이걸 하는데에 꼭 그래프 DB를 이용해야 하나? 아니면 그래프 DB를 적용하면 기존에...

July 24, 2022

in Text analysis

텍스트 요약, 활용 목적에 따라 유형별로 분류해보기

텍스트 분석에서 요약은 어렵고도 중요한 문제 중의 하나다. 숫자로 된 데이터는 평균, 중앙값, 최빈값, 표준편차, 4분위수 등 다양한 방법을 통해 전체적인 경향을 파악할 수 있는 반면, 다양한 의미를 담은 문서와 문장들의 내용을 단시간에 파악할 수 있도록 압축하기가 난해하기 때문이다. 얼마 전, 토픽 모델링을 통한 문서 요약 서비스를 기획하는 회의에 참석할...

June 25, 2022

in Text analysis