데이터 전처리
-
[인프런 - 파이썬 머신러닝 완벽 가이드] 데이터 전처리 (데이터 인코딩과 스케일링)Data Science 2020. 6. 8. 00:35
데이터 전처리 (Preprocessing) - 데이터 클린징 - 결손값 처리(Null/NaN 처리) - 데이터 인코딩 (레이블, 원-핫 인코딩) - 데이터 스케일링 - 이상치 제거 - feature 선택 추출 및 가공 1. 데이터 인코딩 머신러닝 알고리즘에 사용되는 데이터는 모두 숫자형으로 표현되어야 한다. 즉 카테고리컬한 값이나 문자형 값은 모두 숫자값으로 변환,인코딩 되어야한다. 레이블 인코딩 (label encoding) from sklearn.preprocessing import LabelEncoder items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"] #Label Encoder를 객체로 생성한후 fit()과 transform() 으로 ..
-
[Data Science] 공공데이터 활용해 프랜차이즈 분석하기Data Science 2020. 6. 6. 22:59
공공데이터 포털에서 다운받은 데이터로 배스킨라빈스와 던킨도너츠가 서로 근처에 입점해있는지 또한 서울 어느지역에 많이 입점해있는지 원하는 데이터를 추출하여 지도에 직접 표시해 알아보자!!!! 사용한 데이터셋 https://www.data.go.kr/dataset/15012005/fileData.do 필요한 라이브러리 및 한글 폰트 세팅 #라이브러리 import import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # 폰트 설정 #폰트 선명하게 from IPython.display import set_matplotlib_formats set_matplotlib_formats("retina") #한..