Data Scientist

데이터 전처리

[Book Review] 한줄정리

6.2 데이터 전처리

6.2.1 결측치 처리

데이터가 일부 존재하지 않는 경우 결측치(missing value)라고 부르며, 데이터 특성상 부적절한 값도 결측치로 처리하는 것이 좋다.
예) NaN, 나이가 150이상인 경우

  • 결측치를 처리하는 방법
    • 결측치를 포함한 데이터 삭제
    • 결측치를 특정값(최빈값, 평균값)으로 대체

6.2.2 클래스 라벨 설정 [코드]

LabelEncoder란, 문자열 클래스를 정수로 바꿔서 이름표를 붙이는 것을 의미한다.

6.2.3 원-핫 인코딩 [코드]

One-got encoding이란, 클래스 라벨링의 또 다른 방법으로 0과 1만 사용하여 데이터를 표현하는 방법이다.

6.2.4 데이터 스케일링 [코드]

Data Scaling이란, 변수들이 각각 다른 단위를 가지기 때문에 단위에 영향을 받지 않도록 변형하는 것을 말한다.
단, train 데이터만으로 스케일링 기준을 정하고 train, test 데이터에 적용하여 변환시킨다.

  • Standarad Scaling (표준화 스케일링) : 평균이 0, 표준편차가 1이 되도록 평균을 빼고 표준편차로 나눠주는 방법
  • Robust Scaling (로버스트 스케일링) : 극단값의 영향을 받지 않도록 중위수를 빼고 3사분위수와 1사분위수의 차로 나눠주는 방법
  • Min-Max Scaling (최소-최대 스케일링) : 최대값이 1, 최솟값이 0이 되도록 최소값을 빼고 최대값과 최소값의 차로 나눠주는 방법
  • Normalizer (노멀 스케일링) : 벡터의 유클리디안 길이가 1이 되도록 길이 상관없이 방향만 고려하는 방법(행 기준)

이 내용은 선형대수와 통계학으로 배우는 머신러닝 with 파이썬 : 최적화 개념부터 텐서플로를 활용한 딥러닝까지 책을 기반으로 공부한 자료이다.