머신러닝의 학습 종류는 지도학습 비지도학습 강화학습 이렇게 3가지가 있다. 그 중 K-NN모델을 활용해 지도학습하는 방법을 살펴보자! 1. Confusion Matrix(평가 방법) 출처 https://towardsdatascience.com/confusion-matrix-for-your-multi-class-machine-learning-model-ff9aa3bf78262. Confusion Matrix(평가 방법)의 Presicion(정확도), Recall(재현율), F1_scroe(점수) F1_score : 정확도와 재현율을 균등하게 반영 출처 https://manisha-sirsat.blogspot.com/2019/04/confusion-matrix.html3. 다양한 데이터 수집 UCI 에서 제공하는 다양한 데이터 archive.ics.uci.edu/ml/datasets.php UCI Machine Learning Repository: Data Sets archive.ics.uci.edu Kaggle에서 제공하는 빅데이터 www.kaggle.com/datasets Find Open Datasets and Machine Learning Projects | Kaggle Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion. www.kaggle.com data.gov(미국 정부에서 제공하는 데이터) data.europa aihub.or.kr 국내에서 제공하는 데이터 aihub.or.kr/ 홈 | AI Hub AI Hub(AI 허브)는 양질의 인공지능 학습용 데이터를 누구에게나 공개하여 지능 정보사회 발전에 도움 aihub.or.kr 4. Iris 데이터 통계학자(Fisher)가 정리한 붓꽃 데이터로 붓꽃의 3가지 종(setosa, Versicolor, Virginica)을 각각의 특성에 맞게 분류되어 있다. 5. 붓꽃 데이터셋 학습용, 테스트용 데이터 확인하기 붓꽃 데이터셋은 아래 링크에 가면 찾을 수 있다. archive.ics.uci.edu/ml/datasets/iris UCI Machine Learning Repository: Iris Data Set Data Set Characteristics: Multivariate Number of Instances: 150 Area: Life Attribute Characteristics: Real Number of Attributes: 4 Date Donated 1988-07-01 Associated Tasks: Classification Missing Values? No Number of Web Hits: 3981751 Source: Creator: archive.ics.uci.edu 굳이 데이터셋을 다운로드 받지 않아도 sklearn모듈에 붓꽃 데이터셋이 포함되어 있다~!
학습용 데이터와 테스트 데이터 크기를 확인해보자! 70%는 학습용이고 30%는 테스트용이다.
7. K-NN모델로 분류하기 Iris붓꽃을 K근접, 결정트리, 신경망, SVM, Emsemble으로 분류해볼것인데 우선 K-NN모델로 분류해보자!
8. 사이트에 있는 iris 데이터를 활용하여 분류하기
사이트에 있는 붓꽃 데이터를 그대로 가져와서 예측해볼 수 있다. 9. 인자를 바꾸어가며 확인해보기!
K-NN모델로 붓꽃 데이터를 가져와 분류해보았다. 어렵지만... 파이썬에 코드를 쓰는 방법을 익히면 여러 데이터를 가져와 분류해 볼 수 있을 듯 하다! |