Notebook 환경
Google Colaboratory
사이킷런(scikit-learn) 소개와 특징
파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리
- 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공
- 머신러닝을 위한 다양한 알고리즘과 편리한 프레임워크 API를 제공
- 오랜 기간 검증되었고, 만흥ㄴ 환경에서 사용되는 성숙한 라이브러리
설치 및 버전 확인
conda install scikit-learn
pip install scikit-learn
import sklearn
print(sklearn.__version__)
첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측
Feature-based Classificaiton 을 사용해서 붓꽃 데이터 세트로 붓꽃의 품종을 분류
- Classification 은 Supervised Learning (지도 학습)의 방법으로, 지도 학습은 학습을 위한 다양한 Feature 와 결정 값인 Label 데이터로 모델을 학습 한 뒤, 테스트 데이터의 레이블을 예측합니다.
사용하는 sklearn 모듈
sklearn.datasets
- 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈
sklearn.tree
- 트리 기반 ML 알고리즘을 구현하는 클래스의 모이
sklearn.model_selection
- 학습/검증/예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임