• 글또 7기를 마무리하며

    글또 7기 마지막 주간이다. 글또 회고 글을 쓸지, 2022년 회고를 하면서 중간점검을 하고 단기목표를 세워볼지 잠깐 고민했다. 그런데 전에 썼던 글또 다짐글들을 읽어보니 나를 돌아보는 데에 도움되는 부분이 많아, 간단하게나마 회고를 남겨본다. 목표를 얼마나 이루었나? 1. 완주하기 가급적 Pass 없이 완주하겠다고 목표를 세웠었는데, 결국 패스는 2번 다 사용했다. 하지만 오늘...


  • Kiwi 형태소분석기를 사용해보자.

    Motivation Konlpy 패키지의 형태소분석기들을 비교하느라 검색을 거듭할수록 텍스트 분야에 내공이 깊은 분들의 블로그를 발견하게 되었다. 그 중에 2009년경 ‘재미삼아 형태소분석기를 만들어보았다’는 글이 인상깊어서 나중에 다시 찾아보게 되었는데, 도대체 형태소분석기는 어떤 원리로 동작하는 거고 어떻게 만드는 거야? 하는 궁금증이 생겼기 때문이다. 이 분의 블로그를 덕질해본 결과 이 형태소분석기에는 Kiwi라는 이름이 붙었고,...


  • Konlpy 형태소분석기의 사용자 사전 비교

    지난 글에 이어, 이번에는 형태소 분석기가 잘못 분석하는 단어를 사용자 사전에 추가해 바로잡는 방법을 정리해보았다. 이전 글 : 텍스트 분석의 현실적인 문제들 한국어 형태소분석기를 비교하는 기준 Motivation 진행 중인 프로젝트에 어떤 형태소분석기를 적용할지 비교/분석해서 정하기 위해 틈틈이 공부하는 중이다. 비교하는 요소 중에는 ‘사용자 사전 관리가 얼마나 용이한가’라는 관점도 있다. 분석하려는...


  • 한국어 형태소분석기를 비교하는 기준

    지난 글(텍스트 분석의 현실적인 문제들)에 이어서 이번에는 텍스트 분석의 전처리 및 단어 추출을 위해 필요한 형태소분석기에 대해 살펴보려 한다. 지난 글 : Motivation 진행 중인 프로젝트에서 전처리 과정을 셋팅할 때 어떤 형태소분석기를 적용해야 할지 고민 중이고, 9월 중에는 결정을 해야 하는 상황이다. 처리 속도와 같은 기술적인 관점에서의 검토는 개발자 분들의...


  • 텍스트 분석의 현실적인 문제들 - 전처리, 형태소분석, 후처리

    1월 말에 새로운 팀으로 이동해서 적응한지 6개월이 지났다. 하반기 새로운 서비스를 준비하면서 필요에 의해 텍스트 분석의 전처리 과정에 대해 깊이 파고드는 중이다. 기존에 운영 중인 서비스의 텍스트 데이터 수집 - 전처리 - 분석 - 집계 - 대시보드 시각화하는 파이프라인을 그대로 따른다고 생각하면 그리 큰 일은 아니다. 하지만 실무자의 관점에서 자세히...