• python 시각화: Seaborn 패키지(1)

    python을 공부하는 초반이라, 탐색적 분석에 필요한 시각화 방법들을 익히고 있다. seaborn은 EDA를 효율적으로 할 수 있다는 점에서 무척 매력적인 패키지다. 그래서 처음으로 공식 문서를 샅샅이 읽어보며 정리해본다. 참조 : https://seaborn.pydata.org/introduction.html 왜 만들어졌나? 데이터를 탐색하고 이해하는 과정에서 visualization이 핵심 역할을 하게끔 하려고 특징 여러 변수 간의 관계를 탐색하는 데에 좋다. 특히...


  • 2018년 회고, 2019년 목표

    2018년 회고와 간단한 2019년 새해 목표를 세워본다. 올해는 좀 진지하게 고민해보고 싶었는데, 막상 글로 옮기는 건 또 시간에 쫒겨 키보드를 두드리고 있다. 슬프지만 약식으로 올려 본다. 공부와 성장 중심으로 회고를 하려 했지만, 절대적인 시간이 부족한 두 아이 엄마 직장인이다보니 육아니 수면패턴이니 하는 얘기들이 언급될 수밖에 없었다. 내년 회고에는 어서빨리 생활이...


  • [데캠] python 기초 (1) : Data structure

    연말을 맞아 그동안 미뤄뒀던 python을 바짝 해보기로 했다. DataCamp의 Intermediate python을 공부한 내용을 정리해본다. Intermediate python은 Intermediate R과는 달리 초급 내용이 섞여있어서 전에 Codecademy에서 훑었던 내용과 겹치긴 한다. 하지만 R을 해보니, 기본이 튼튼하지 않으면 나중에 뭘 모를 때 검색하기도 애매했던 것 같다. 어쨌든 기초수업은 마지막이라 생각하고 꼼꼼히 들어보려 한다. DataCamp의...


  • [공부] Datacamp 머신러닝 - 비지도학습(1)

    DataCamp의 Machine Learning with R - unsupervised learning을 공부한 내용을 정리해본다. Why 왜 하는가? 예측 없이 패턴만 찾고 싶을 때 Clustering / Dimension reduction 1. k-means clustering 클러스터의 개수를 미리 정함(k) 2. Hierarchical clustering 최종 클러스터를 몇 개로 할지 모를 때 방법 : Top down vs. bottom up Bottom up...


  • R에서 빠르게 csv파일 읽기

    R에서 CSV 파일을 읽는 방법은 크게 3가지가 있다. 어떤 상황에 어떤 함수를 써야 효율적인지 궁금해서 간단히 알아보았다. read.csv( ) : base R 함수 read_csv( ) : readr 패키지, tidyverse 패키지의 일부 fread( ) : data.table 패키지 테스트 데이터 instacart 데이터셋의 orders.csv 파일을 이용했다. 크기 : 109MB 3421083 rows x 7...