ML
-
[인프런 - 파이썬 머신러닝 완벽 가이드] 데이터 전처리 (데이터 인코딩과 스케일링)Data Science 2020. 6. 8. 00:35
데이터 전처리 (Preprocessing) - 데이터 클린징 - 결손값 처리(Null/NaN 처리) - 데이터 인코딩 (레이블, 원-핫 인코딩) - 데이터 스케일링 - 이상치 제거 - feature 선택 추출 및 가공 1. 데이터 인코딩 머신러닝 알고리즘에 사용되는 데이터는 모두 숫자형으로 표현되어야 한다. 즉 카테고리컬한 값이나 문자형 값은 모두 숫자값으로 변환,인코딩 되어야한다. 레이블 인코딩 (label encoding) from sklearn.preprocessing import LabelEncoder items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"] #Label Encoder를 객체로 생성한후 fit()과 transform() 으로 ..
-
[인프런 - 파이썬 머신러닝 완벽 가이드] 교차 검증Data Science 2020. 6. 8. 00:19
교차검증 train dataset을 다시 분할하여 학습 데이터와 학습된 모델의 성능을 일차 평가하는 검증 데이터로 나눔 1. KFold from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import KFold import numpy as np iris = load_iris() features = iris.data label = iris.target dt_clf = DecisionTreeClassifier(random_state=156) # 5개의 폴드 세트로 분리하는 KFold객체와 폴드 세트별 정확도를 담을 리스트 객체 생성 kfold = ..
-
[인프런 - 파이썬 머신러닝 완벽 가이드] iris 품종 예측하기Data Science 2020. 6. 7. 23:55
앞으로 인프런에 올라와있는 권철민님의 파이썬 머신러닝 완벽 가이드를 수강하며 공부한 내용 및 코드를 정리해 나아갈 것이다. iris 품종 예측하기 # 필요한 라이브러리 import from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split import pandas as pd # 데이터 세트 로드 iris = load_iris() #feature 데이터 iris_data = iris.data # 레이블(결정값)데이터 iris_label = iris.target print("iris target 값 : " , iris...