Scikit Learn-확장 된 선형 모델링

이 장에서는 Sklearn의 다항식 기능 및 파이프 라이닝 도구에 중점을 둡니다.

다항식 기능 소개

데이터의 비선형 함수에 대해 훈련 된 선형 모델은 일반적으로 선형 방법의 빠른 성능을 유지합니다. 또한 훨씬 더 광범위한 데이터에 맞출 수 있습니다. 이것이 기계 학습에서 비선형 함수에 대해 훈련 된 선형 모델이 사용되는 이유입니다.

이러한 예 중 하나는 계수에서 다항식 특징을 구성하여 단순 선형 회귀를 확장 할 수 있다는 것입니다.

수학적으로 표준 선형 회귀 모델이 있다고 가정하면 2D 데이터의 경우 다음과 같습니다.

$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} $$

이제 우리는 2 차 다항식의 특징을 결합 할 수 있으며 모델은 다음과 같이 보일 것입니다.

$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} + W_ {3} X_ {1} X_ {2} + W_ {4} X_1 ^ 2 + W_ { 5} X_2 ^ 2 $$

위는 여전히 선형 모델입니다. 여기서 우리는 결과 다항 회귀가 동일한 선형 모델 클래스에 있으며 유사하게 풀 수 있음을 확인했습니다.

이를 위해 scikit-learn은 다음과 같은 모듈을 제공합니다. PolynomialFeatures. 이 모듈은 입력 데이터 매트릭스를 주어진 정도의 새로운 데이터 매트릭스로 변환합니다.

매개 변수

다음 표는에서 사용하는 매개 변수로 구성됩니다. PolynomialFeatures 기준 치수

Sr. 아니요 매개 변수 및 설명
1

degree − 정수, 기본값 = 2

다항식 기능의 정도를 나타냅니다.

2

interaction_only − 부울, 기본값 = false

기본적으로 false이지만 true로 설정하면 대부분의 고유 한 입력 기능의 제품인 기능이 생성됩니다. 이러한 기능을 상호 작용 기능이라고합니다.

include_bias − 부울, 기본값 = true

여기에는 바이어스 열, 즉 모든 다항식 거듭 제곱이 0 인 특성이 포함됩니다.

4

order − str in { 'C', 'F'}, 기본값 = 'C'

이 매개 변수는 고밀도 케이스에서 출력 배열의 순서를 나타냅니다. 'F'순서는 계산 속도가 더 빠르다는 것을 의미하지만 다른 한편으로 후속 견적을 늦출 수 있습니다.

속성

다음 표는에서 사용하는 속성으로 구성됩니다. PolynomialFeatures 기준 치수

Sr. 아니요 속성 및 설명
1

powers_ − 배열, 모양 (n_output_features, n_input_features)

powers_ [i, j]가 i 번째 출력에서 ​​j 번째 입력의 지수임을 보여줍니다.

2

n_input_features _ − 정수

이름에서 알 수 있듯이 총 입력 기능 수를 제공합니다.

n_output_features _ − 정수

이름에서 알 수 있듯이 총 다항식 출력 기능의 수를 제공합니다.

구현 예

다음 Python 스크립트 사용 PolynomialFeatures 8의 배열을 (4,2) 형태로 변환하는 변환기 −

from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)

산출

array(
   [
      [ 1., 0., 1., 0., 0., 1.],
      [ 1., 2., 3., 4., 6., 9.],
      [ 1., 4., 5., 16., 20., 25.],
      [ 1., 6., 7., 36., 42., 49.]
   ]
)

파이프 라인 도구를 사용하여 간소화

위의 종류의 전처리, 즉 입력 데이터 매트릭스를 주어진 정도의 새로운 데이터 매트릭스로 변환하는 것은 다음과 같이 간소화 할 수 있습니다. Pipeline 기본적으로 여러 추정치를 하나로 연결하는 데 사용되는 도구입니다.

Scikit-learn의 파이프 라인 도구를 사용하여 전처리를 간소화하는 아래 python 스크립트 (3 차 다항식 데이터에 적합).

#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np

#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])

#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)

#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_

산출

array([ 3., -2., 1., -1.])

위의 출력은 다항식 기능에 대해 훈련 된 선형 모델이 정확한 입력 다항식 계수를 복구 할 수 있음을 보여줍니다.