• Kiwi 형태소분석기를 사용해보자.

    Motivation Konlpy 패키지의 형태소분석기들을 비교하느라 검색을 거듭할수록 텍스트 분야에 내공이 깊은 분들의 블로그를 발견하게 되었다. 그 중에 2009년경 ‘재미삼아 형태소분석기를 만들어보았다’는 글이 인상깊어서 나중에 다시 찾아보게 되었는데, 도대체 형태소분석기는 어떤 원리로 동작하는 거고 어떻게 만드는 거야? 하는 궁금증이 생겼기 때문이다. 이 분의 블로그를 덕질해본 결과 이 형태소분석기에는 Kiwi라는 이름이 붙었고,...


  • Konlpy 형태소분석기의 사용자 사전 비교

    지난 글에 이어, 이번에는 형태소 분석기가 잘못 분석하는 단어를 사용자 사전에 추가해 바로잡는 방법을 정리해보았다. 이전 글 : 텍스트 분석의 현실적인 문제들 한국어 형태소분석기를 비교하는 기준 Motivation 진행 중인 프로젝트에 어떤 형태소분석기를 적용할지 비교/분석해서 정하기 위해 틈틈이 공부하는 중이다. 비교하는 요소 중에는 ‘사용자 사전 관리가 얼마나 용이한가’라는 관점도 있다. 분석하려는...


  • 한국어 형태소분석기를 비교하는 기준

    지난 글(텍스트 분석의 현실적인 문제들)에 이어서 이번에는 텍스트 분석의 전처리 및 단어 추출을 위해 필요한 형태소분석기에 대해 살펴보려 한다. 지난 글 : Motivation 진행 중인 프로젝트에서 전처리 과정을 셋팅할 때 어떤 형태소분석기를 적용해야 할지 고민 중이고, 9월 중에는 결정을 해야 하는 상황이다. 처리 속도와 같은 기술적인 관점에서의 검토는 개발자 분들의...


  • 텍스트 분석의 현실적인 문제들 - 전처리, 형태소분석, 후처리

    1월 말에 새로운 팀으로 이동해서 적응한지 6개월이 지났다. 하반기 새로운 서비스를 준비하면서 필요에 의해 텍스트 분석의 전처리 과정에 대해 깊이 파고드는 중이다. 기존에 운영 중인 서비스의 텍스트 데이터 수집 - 전처리 - 분석 - 집계 - 대시보드 시각화하는 파이프라인을 그대로 따른다고 생각하면 그리 큰 일은 아니다. 하지만 실무자의 관점에서 자세히...


  • 그래프 DB란? 개요와 특징, 관계형DB와의 차이점

    곧 시작하게 될 회사 프로젝트에서 텍스트 데이터를 지식 그래프(Graph Knowledge) 형식으로 시각화하는 방법을 검토해볼 일이 생겼다. 이걸 하려면 그래프 DB로 구현해야 한다는데, 관련해서 개인적으로 몇 가지 궁금한 점이 생겼다. 연관 키워드를 분석하는 시각화는 텍스트 분석 서비스들에서 종종 보이던데, 이걸 하는데에 꼭 그래프 DB를 이용해야 하나? 아니면 그래프 DB를 적용하면 기존에...