• R Shiny로 포트폴리오 삽질기 (2)

    지난 글에 이어서 R Shiny로 웹 애플리케이션을 만들면서 겪고 있는 문제-해결책을, 삽질의 기록을 남겨본다. 1. 데이터 load하기 Shiny 튜토리얼이나 예제들에 내가 원하는 코드가 없어서 오래 걸렸다. 하는 김에 Shiny에 데이터를 load하는 3가지 방법을 정리해보면 다음과 같다. 1) R package에 포함된 데이터 분석 Shiny 예제에 가장 많이 등장하는 방법이다. 주로 아래...


  • R Shiny로 포트폴리오 삽질기 (1)

    Motivation 얼마 전부터 R Shiny로 뭔가를 만들어보고 있다. 데이터 분석가로 커리어체인지를 준비하고 있는데, 현업에서 다루는 고객조사 데이터는 크기도 작고 성질이 많이 달라 포트폴리오가 꼭 필요해서다. 사실 내 경우는 동작하는 프로토타입보다는, 전처리 과정에서의 기본기와 탐색적 분석에서 얻어내는 인사이트 등을 보고서로 정리하는 게 가장 좋다. 그래서 원래는 Rmarkdown이나 Python Notebook을 사용해 포트폴리오를...


  • Kaggle Kernel로 BigQuery 사용하는 법

    대용량 데이터를 다뤄보고 싶을 때, Kaggle Kernel을 이용하면 BigQuery를 사용해볼 수 있다. 물론 Google BigQuery 사이트에서 곧바로 이용해도 된다. 하지만 Kernel을 이용하면 데이터를 추출한 뒤 곧바로 시각화해볼 수 있다는 장점이 있다. Kaggle은 이와 같은 Filtering - Manipulation - Visualization 작업을 매끄럽게 할 수 있도록 bq_helper라는 python 라이브러리를 제공한다. bq_helper 라이브러리...


  • SQL 독학할 때 실습하는 방법

    실무에서 SQL을 쓰게 되면 개구리 올챙이 시절 생각 못하듯 싹 잊어버릴 고민이 있다. 어떻게 SQL을 실습할 것인가, 직접 쿼리를 돌려볼 것인가 하는 문제다. 작년 이맘때 내가 SQL 독학을 시작할 때만 하더라도 이 부분이 많이 답답했다. 하지만 공부를 하면서 여러 가지 방법이 있음을 알게 되었다. 개인적으로 1 -> 3 -> 2...


  • [번역] 어떨 때 데이터분석에 SQL을 써야 하는가?

    GA, Kissmetrics 등의 웹로그 분석 툴들은 나날이 발전하고 있다. 그럼에도 스타트업들이 일정 시점에 이르면 Python, R, SQL 등에 능숙한 데이터분석가를 별도로 채용하는 이유는 무엇일까? 분석 툴로 할 수 없거나 효율이 떨어지는 부분은 구체적으로 어떤 것들인가? 아직 스타트업에서 일하고 있지 않은 나는 그점이 늘 궁금했다. 아래 내용은 Segments 웹사이트의 Analytics Academy...