• [번역] Topic Modeling in Text Analysis

    회사 업무 때문에 고객 피드백 텍스트를 분석하는 해외 솔루션들을 살펴보고 있다. 그 과정에서 토픽 모델링과 관련해 이해에 도움되었던 글이 있어서 번역해보았다. 아무래도 영어로 쓰인 글이라, 한 문장씩 번역하다 보니 더 깊게 이해할 수 있었다. 주의할 점 : 아래 글에서의 ‘토픽 모델링’은 흔히 텍스트마이닝 분야에서 얘기하는 LDA 기반의 topic modeling보다는, 좀...


  • 데이터 시각화 라이브러리 Highcharts

    데이터 분석을 공부하다 보면 시각화를 하면서 python의 matplotlib, seaborn과 R의 ggplot 등을 흔히 접하게 된다. 그 외에는 실무자 분들의 글을 통해 D3가 유명하다는 정도만 알고 있었다. 그런데 지금 팀에서 개발 중인 대시보드의 UI/UX 개선 작업을 하면서, 관련 웹프레임워크의 데이터 시각화에 적용된 Highcharts라는 라이브러리를 알게 되었다. 개발자 분들한테도 낯선 라이브러리인 듯...


  • 글또 7기를 시작하며

    글또 7기에 참여한다. 글또는 ‘글쓰는 또라이가 세상을 바꾼다’는 모토의 개발자 글쓰기 모임이다. 오랜만에 에디터를 열어놓고 타닥타닥 글을 쓰려니 꽤 기분이 좋다. 게으름을 물리치고 더 나은 내가 되기 위한 무언가를 실행할 때의 기분 좋은 충족감이다. 페북에서 글또 7기 모집글을 발견했을 때, 꽤나 반가웠지만 꼭 참여해야겠다는 생각까지는 들지 않았었다. 정확히는 엄두를 내지...


  • 맥에서 Selenium 사용 시 Chrome driver 에러 해결

    El Capitan을 사용하다가 맥북을 리셋할 일이 생겨 Mojave로 업데이트했더니, Selenium 설치 후 크롬 드라이버를 사용하려 하자 에러가 발생했다. from selenium import webdriver chrome_path = "/usr/local/bin/chromedriver" driver = webdriver.Chrome(chrome_path) 발생한 에러는 아래와 같다. selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary 이에 대한 해결책을 구글링해보면 binary_location 옵션을 재설정하라는 해결책이 나온다. 하지만...


  • TimeSeries Data 다루기

    Motivation 기상청 기후 데이터를 분석할 일이 생겼다. 폭염과 일교차가 정말 심해지고 있는지, 최근 몇 년간 얼마나 어떻게 심해지고 있는지를 파악하기 위해서다. 그래서 TimeSeries data를 다루는 방법 및 DateTimeIndex 자료형에 대해 공부해보게 되었다. 데이터셋 기상자료개방포털 메인페이지>기후통계분석>기후분석>기온분석 (링크) 기간과 지역을 설정한 뒤, CSV 파일로 다운받을 수 있다. 인덱스 설정 1) 파일을 읽어들일...