머신러닝
-
[인프런 - 파이썬 머신러닝 완벽 가이드] 분류(Classification) 결정트리 Decision TreeData Science 2020. 6. 10. 06:29
결정트리 Decision Tree 결정트리 알고리즘은 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내는 tree 기반의 분류 규칙을 만든다 ( If Else 기반 규칙 ) 즉 어떠한 기준으로 규칙을 만들어야 가장 효율적인 분류가 될것인가가 결정트리의 성능을 크게 좌우한다. 정보이득 ( Information Gain) 정보이득은 엔트로피라는 개념을 기반으로 한다. 엔트로피는 주어진 데이터 집합의 혼잡도를 의미. 서로 다른 값이 섞여있으면 엔트로피가 높고 같은 값이 섞여있으면 엔트로피가 낮다. 정보 이즉 지수는 1에서 엔트로피 지수를 뺸 값이다. 정보 이득이 높은 속성을 기준으로 분할한다. 지니 계수 지니계수는 원래 경제학에서 불평등 지수를 나타낼때 사용하는 계수 0이 가장 평등 1로 갈수록 불평등 ML에..
-
[인프런 - 파이썬 머신러닝 완벽 가이드]머신러닝 classification(분류) 성능 지표 F1 Score , ROC 곡선과 AUCData Science 2020. 6. 9. 21:47
F1 Score F1 스코어(Score)는 정밀도와 재현율을 결합한 지표이다. F1 스코어는 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다. ROC 곡선 AUC ROC곡선 (Receiver Operation Characteristic Curve)과 이에 기반한 AUC 스코어는 이진 분류의 예측 성늘 측정에서 중요하게 사용되는 지표이다. ROC 곡선은 FPR(False Positive Rate)이 변할때 TPR(True Positive Rate)이 어떻게 변하는지를 나타내는 곡선입니다. 분류의 성능 지표로 사용되는 것은 ROC 곡선 면적에 기반한 AUC값으로 결정한다. AUC(Area Under Curve)값은 ROC 곡선 밑의 면적을 구한것으로서 일반적으로 ..
-
[인프런 - 파이썬 머신러닝 완벽 가이드]머신러닝 classification(분류) 성능 지표 - 정밀도(Precision)과 재현율(Recall)Data Science 2020. 6. 9. 07:10
정밀도 = TP/(FP + TP) 정밀도는 예측을 Positive로 한 대상 중 예측과 실제 값이 Positive로 일치한 데이터의 비율 재현율 = TP/(FN + TP) 재현율은 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율 모든 예측을 0으로만 하는 MyFakeClassifier라는 Classifier를 만들어 precision과 recall을 확인해보자. from sklearn.datasets import load_digits from sklearn.model_selection import train_test_split from sklearn.base import BaseEstimator from sklearn.metrics import accura..
-
[인프런 - 파이썬 머신러닝 완벽 가이드] 데이터 전처리 (데이터 인코딩과 스케일링)Data Science 2020. 6. 8. 00:35
데이터 전처리 (Preprocessing) - 데이터 클린징 - 결손값 처리(Null/NaN 처리) - 데이터 인코딩 (레이블, 원-핫 인코딩) - 데이터 스케일링 - 이상치 제거 - feature 선택 추출 및 가공 1. 데이터 인코딩 머신러닝 알고리즘에 사용되는 데이터는 모두 숫자형으로 표현되어야 한다. 즉 카테고리컬한 값이나 문자형 값은 모두 숫자값으로 변환,인코딩 되어야한다. 레이블 인코딩 (label encoding) from sklearn.preprocessing import LabelEncoder items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"] #Label Encoder를 객체로 생성한후 fit()과 transform() 으로 ..
-
[인프런 - 파이썬 머신러닝 완벽 가이드] 교차 검증Data Science 2020. 6. 8. 00:19
교차검증 train dataset을 다시 분할하여 학습 데이터와 학습된 모델의 성능을 일차 평가하는 검증 데이터로 나눔 1. KFold from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import KFold import numpy as np iris = load_iris() features = iris.data label = iris.target dt_clf = DecisionTreeClassifier(random_state=156) # 5개의 폴드 세트로 분리하는 KFold객체와 폴드 세트별 정확도를 담을 리스트 객체 생성 kfold = ..
-
[인프런 - 파이썬 머신러닝 완벽 가이드] iris 품종 예측하기Data Science 2020. 6. 7. 23:55
앞으로 인프런에 올라와있는 권철민님의 파이썬 머신러닝 완벽 가이드를 수강하며 공부한 내용 및 코드를 정리해 나아갈 것이다. iris 품종 예측하기 # 필요한 라이브러리 import from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split import pandas as pd # 데이터 세트 로드 iris = load_iris() #feature 데이터 iris_data = iris.data # 레이블(결정값)데이터 iris_label = iris.target print("iris target 값 : " , iris...