Jessy Min's blog
Data Analyst & UX researcher on the Road
-
Konlpy 형태소분석기의 사용자 사전 비교
지난 글에 이어, 이번에는 형태소 분석기가 잘못 분석하는 단어를 사용자 사전에 추가해 바로잡는 방법을 정리해보았다. 이전 글 : 텍스트 분석의 현실적인 문제들 한국어 형태소분석기를 비교하는 기준 Motivation 진행 중인 프로젝트에 어떤 형태소분석기를 적용할지 비교/분석해서 정하기 위해 틈틈이 공부하는 중이다. 비교하는 요소 중에는 ‘사용자 사전 관리가 얼마나 용이한가’라는 관점도 있다. 분석하려는...
-
한국어 형태소분석기를 비교하는 기준
지난 글(텍스트 분석의 현실적인 문제들)에 이어서 이번에는 텍스트 분석의 전처리 및 단어 추출을 위해 필요한 형태소분석기에 대해 살펴보려 한다. 지난 글 : Motivation 진행 중인 프로젝트에서 전처리 과정을 셋팅할 때 어떤 형태소분석기를 적용해야 할지 고민 중이고, 9월 중에는 결정을 해야 하는 상황이다. 처리 속도와 같은 기술적인 관점에서의 검토는 개발자 분들의...
-
텍스트 분석의 현실적인 문제들 - 전처리, 형태소분석, 후처리
1월 말에 새로운 팀으로 이동해서 적응한지 6개월이 지났다. 하반기 새로운 서비스를 준비하면서 필요에 의해 텍스트 분석의 전처리 과정에 대해 깊이 파고드는 중이다. 기존에 운영 중인 서비스의 텍스트 데이터 수집 - 전처리 - 분석 - 집계 - 대시보드 시각화하는 파이프라인을 그대로 따른다고 생각하면 그리 큰 일은 아니다. 하지만 실무자의 관점에서 자세히...
-
그래프 DB란? 개요와 특징, 관계형DB와의 차이점
곧 시작하게 될 회사 프로젝트에서 텍스트 데이터를 지식 그래프(Graph Knowledge) 형식으로 시각화하는 방법을 검토해볼 일이 생겼다. 이걸 하려면 그래프 DB로 구현해야 한다는데, 관련해서 개인적으로 몇 가지 궁금한 점이 생겼다. 연관 키워드를 분석하는 시각화는 텍스트 분석 서비스들에서 종종 보이던데, 이걸 하는데에 꼭 그래프 DB를 이용해야 하나? 아니면 그래프 DB를 적용하면 기존에...
-
텍스트 요약, 활용 목적에 따라 유형별로 분류해보기
텍스트 분석에서 요약은 어렵고도 중요한 문제 중의 하나다. 숫자로 된 데이터는 평균, 중앙값, 최빈값, 표준편차, 4분위수 등 다양한 방법을 통해 전체적인 경향을 파악할 수 있는 반면, 다양한 의미를 담은 문서와 문장들의 내용을 단시간에 파악할 수 있도록 압축하기가 난해하기 때문이다. 얼마 전, 토픽 모델링을 통한 문서 요약 서비스를 기획하는 회의에 참석할...