• [데캠] python 기초 (1) : Data structure

    연말을 맞아 그동안 미뤄뒀던 python을 바짝 해보기로 했다. DataCamp의 Intermediate python을 공부한 내용을 정리해본다. Intermediate python은 Intermediate R과는 달리 초급 내용이 섞여있어서 전에 Codecademy에서 훑었던 내용과 겹치긴 한다. 하지만 R을 해보니, 기본이 튼튼하지 않으면 나중에 뭘 모를 때 검색하기도 애매했던 것 같다. 어쨌든 기초수업은 마지막이라 생각하고 꼼꼼히 들어보려 한다. DataCamp의...


  • [공부] Datacamp 머신러닝 - 비지도학습(1)

    DataCamp의 Machine Learning with R - unsupervised learning을 공부한 내용을 정리해본다. Why 왜 하는가? 예측 없이 패턴만 찾고 싶을 때 Clustering / Dimension reduction 1. k-means clustering 클러스터의 개수를 미리 정함(k) 2. Hierarchical clustering 최종 클러스터를 몇 개로 할지 모를 때 방법 : Top down vs. bottom up Bottom up...


  • R에서 빠르게 csv파일 읽기

    R에서 CSV 파일을 읽는 방법은 크게 3가지가 있다. 어떤 상황에 어떤 함수를 써야 효율적인지 궁금해서 간단히 알아보았다. read.csv( ) : base R 함수 read_csv( ) : readr 패키지, tidyverse 패키지의 일부 fread( ) : data.table 패키지 테스트 데이터 instacart 데이터셋의 orders.csv 파일을 이용했다. 크기 : 109MB 3421083 rows x 7...


  • 글또 2기를 시작하며

    드디어 글또 2기 활동의 시작이다. 참고하려고 2기 시작 때 썼던 다짐글을 보니 꽤 부담스러워했던 흔적이 보인다. 완주할 수 있을지에 대한 고민이 많았던 듯하다. 하지만 1기에서 Pass 2번만 사용하고 완주한 덕분에 글쓰기에 부담이 많이 적어진 것 같다. 물론 이번에도 고민이 없었던 건 아니다. 육아휴직 때와 달리 진득히 앉아 집중할 내시간을 만들기가...


  • [공부] Datacamp 머신러닝 - 지도학습 : 분류

    대전제 : making more accurate predictions 3. Logistic Regression Automatic Feature selection Stepwise Regression 로지스틱 회귀는 사전에 예측변수를 정해야 함 종류 Forward Stepwise : 변수를 지워나감 Backward Stepwise : 변수를 추가해나감 몇몇 단점으로 인해 자주 쓰이진 않음 단점 최적의 모델을 찾아낸다고 장담할 수 없음 이 절차는 통계적인 가정을 위배함 현실...