• 웹크롤링 시 여러 페이지를 수집하기 위한 UI 유형 구분

    웹을 이용하다가 직접 분석해보고 싶은 텍스트가 생기면, 주로 크롤링을 하게 된다. 크롤링을 처음 시작했을 때는 수집하려는 요소(구매리뷰 제목, 본문, 날짜 등)을 각각 수집하는 코드를 우선 구현한다. 그런데 분석을 위해 많은 양의 데이터를 수집하려다 보면 여러 페이지를 수집하는 부분에서 막힐 때가 많았다. python이 익숙하지 않던 초반에는 특히 for문을 돌리는 것, 리스트로...


  • Selenium 버전 4에서 달라진 점

    개인적으로 분석해 보고 싶은 주제가 생기면 웹사이트를 크롤링해 텍스트 데이터를 수집하는 경우가 있다. 처음에는 BeautifulSoup을 쓰다가 페이징, 스크롤다운 등 브라우저를 제어할 필요가 있어서 Selenium을 섞어서 쓰고 있다. 그런데 작년에 셀레니움을 쓰려고 보니 버전 4로 업그레이드되어 이전에 짜둔 코드가 작동하지 않았다. 검색을 해서 당장 필요한 건 해결했지만, 셀레니움 3에서 4로 넘어가면서...


  • 글또 8기를 시작하며

    글또 7기에 이어서 8기에도 참여 신청을 했다. 3기 때 회사일에 치어 거의 작성을 못하고 중도하차했던 기억에, 7기 신청할 때는 해낼 수 있을까 반신반의 하는 마음이었던 것 같다. 그런데 이번에는 ‘당연히 해야지!’하는 마음으로 신청했다. 스스로 생각하는 ‘성장하고 싶은 사람’이라는 정체성에 글또가 큰 의미가 있어서인 것 같다. 최근에 ‘자기다움’ 에 관한 페북...


  • 글또 7기를 마무리하며

    글또 7기 마지막 주간이다. 글또 회고 글을 쓸지, 2022년 회고를 하면서 중간점검을 하고 단기목표를 세워볼지 잠깐 고민했다. 그런데 전에 썼던 글또 다짐글들을 읽어보니 나를 돌아보는 데에 도움되는 부분이 많아, 간단하게나마 회고를 남겨본다. 목표를 얼마나 이루었나? 1. 완주하기 가급적 Pass 없이 완주하겠다고 목표를 세웠었는데, 결국 패스는 2번 다 사용했다. 하지만 오늘...


  • Kiwi 형태소분석기를 사용해보자.

    Motivation Konlpy 패키지의 형태소분석기들을 비교하느라 검색을 거듭할수록 텍스트 분야에 내공이 깊은 분들의 블로그를 발견하게 되었다. 그 중에 2009년경 ‘재미삼아 형태소분석기를 만들어보았다’는 글이 인상깊어서 나중에 다시 찾아보게 되었는데, 도대체 형태소분석기는 어떤 원리로 동작하는 거고 어떻게 만드는 거야? 하는 궁금증이 생겼기 때문이다. 이 분의 블로그를 덕질해본 결과 이 형태소분석기에는 Kiwi라는 이름이 붙었고,...