Notebook 환경
Google Colaboratory
회귀 (Regression) 소개
회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법이다.
- 통계학 용어로는, 여러개의 독립변수와 한개의 종속 변수 간의 상관관계를 모델링 하는 기법이다.
$$
Y=w_1x_1 + w_2x_2...w_tx_t
$$
- 위 선형 회귀식에서 $Y$ 가 종속 변수, $x_1,..,x_t$ 가 독립 변수, $w_1,...,w_t$가 회귀 계수라고 한다.
- 머신러닝에서 독립변수가 피처, 종속 변수가 결정 값이고 최적의 회귀 계수를 찾아내는 것이 목표다
- 독립 변수의 개수가 한 개인지 여러 개인지에 따라 단일 회귀, 다중 회귀로 나뉜다
- 지도 학습의 유형 중 하나로, 다른 하나인 분류와의 큰 차이점은, 예측값이 연속형 숫자라는 점에 있다.
회귀 모델
여러 회귀 중에서 선형 회귀가 가장 많이 사용되는데, 오류를 최소화하는 직선형 회귀선을 최적화하는 방법이다
- 선형 회귀에서도 규제 (**Regularization)**에 따라서도 유형을 나누는데, 규제는 과적합 문제를 해결하기 위해 회귀 계수에 페널티 값을 적용하는 것을 말한다.
선형 회귀 모델
일반 선형 회귀
- 예측 값과 실제 값의 RSS(Residual Sum of Squares)를 최소화 할 수 잇또록 회귀 계수를 최적화하며, 규제를 적용하지 않은 모델이다.
릿지 (Ridge)
- 릿지 회귀는 선형 회귀에 L2 규제를 추가한 회귀 모델이다. 릿지 회귀는 L2 규제를 적용하는데, 이는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델이다
라쏘 (Lasso)
- 라쏘 회귀는 선형 회귀에 L1 규제를 적용한 방식이다. L2규제에 비해 L1규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 한다. L1규제는 피처 선택 기능이라고도 불린다.
엘라스틱 넷 (Elastic Net)
- L2, L1 규제를 함께 결합한 모델이다. 주로 피처가 많은 데이터 세트에서 적용되며, L1 규제로 피처의 개수를 임과 동시에 L2 규제로 계수 값의 크기를 조정한다.