Scikit Learn - расширенное линейное моделирование
В этой главе основное внимание уделяется полиномиальным функциям и инструментам конвейерной обработки в Sklearn.
Введение в полиномиальные характеристики
Линейные модели, обученные нелинейным функциям данных, обычно обеспечивают высокую производительность линейных методов. Это также позволяет им обрабатывать гораздо более широкий диапазон данных. Поэтому в машинном обучении используются такие линейные модели, которые обучаются на нелинейных функциях.
Одним из таких примеров является то, что простая линейная регрессия может быть расширена путем построения полиномиальных функций из коэффициентов.
Математически предположим, что у нас есть стандартная модель линейной регрессии, тогда для двухмерных данных она будет выглядеть так:
$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} $$Теперь мы можем объединить функции в полиномы второго порядка, и наша модель будет выглядеть следующим образом:
$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} + W_ {3} X_ {1} X_ {2} + W_ {4} X_1 ^ 2 + W_ { 5} X_2 ^ 2 $$Вышеупомянутая модель все еще является линейной. Здесь мы увидели, что полученная полиномиальная регрессия относится к тому же классу линейных моделей и может быть решена аналогичным образом.
Для этого scikit-learn предоставляет модуль с именем PolynomialFeatures. Этот модуль преобразует матрицу входных данных в новую матрицу данных заданной степени.
Параметры
В следующей таблице представлены параметры, используемые PolynomialFeatures модуль
Старший Нет | Параметр и описание |
---|---|
1 | degree - целое число, по умолчанию = 2 Он представляет собой степень полиномиальных характеристик. |
2 | interaction_only - Boolean, по умолчанию = false По умолчанию это false, но если установлено как true, создаются функции, которые являются продуктами большей части отдельных входных функций. Такие функции называются функциями взаимодействия. |
3 | include_bias - Boolean, по умолчанию = true Он включает столбец смещения, т. Е. Функцию, в которой все степени полиномов равны нулю. |
4 | order - str in {'C', 'F'}, по умолчанию = 'C' Этот параметр представляет порядок вывода массива в плотном случае. Порядок «F» означает более быстрое вычисление, но, с другой стороны, он может замедлить последующие оценки. |
Атрибуты
Следующая таблица содержит атрибуты, используемые PolynomialFeatures модуль
Старший Нет | Атрибуты и описание |
---|---|
1 | powers_ - массив, форма (n_output_features, n_input_features) Он показывает, что powers_ [i, j] - это показатель степени j-го входа в i-м выходе. |
2 | n_input_features _ - int Как следует из названия, он дает общее количество входных функций. |
3 | n_output_features _ - int Как следует из названия, он дает общее количество полиномиальных выходных функций. |
Пример реализации
Следующий скрипт Python использует PolynomialFeatures трансформатор для преобразования массива из 8 в форму (4,2) -
from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)
Вывод
array(
[
[ 1., 0., 1., 0., 0., 1.],
[ 1., 2., 3., 4., 6., 9.],
[ 1., 4., 5., 16., 20., 25.],
[ 1., 6., 7., 36., 42., 49.]
]
)
Оптимизация с помощью инструментов конвейера
Вышеупомянутый вид предварительной обработки, то есть преобразование матрицы входных данных в новую матрицу данных заданной степени, может быть оптимизирован с помощью Pipeline инструменты, которые в основном используются для объединения нескольких оценщиков в одну.
пример
Приведенные ниже сценарии python с использованием инструментов Scikit-learn Pipeline для оптимизации предварительной обработки (будут соответствовать полиномиальным данным третьего порядка).
#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np
#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])
#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)
#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_
Вывод
array([ 3., -2., 1., -1.])
Приведенные выше выходные данные показывают, что линейная модель, обученная полиномиальным признакам, способна восстановить точные входные коэффициенты полинома.