Scikit Learn - การสร้างแบบจำลองเชิงเส้นเพิ่มเติม

บทนี้มุ่งเน้นไปที่คุณสมบัติของพหุนามและเครื่องมือไพพ์ไลน์ใน Sklearn

ความรู้เบื้องต้นเกี่ยวกับคุณสมบัติพหุนาม

แบบจำลองเชิงเส้นที่ได้รับการฝึกอบรมเกี่ยวกับฟังก์ชันที่ไม่ใช่เชิงเส้นของข้อมูลโดยทั่วไปจะรักษาประสิทธิภาพที่รวดเร็วของวิธีเชิงเส้น นอกจากนี้ยังช่วยให้พอดีกับช่วงข้อมูลที่กว้างขึ้น นั่นเป็นเหตุผลในการเรียนรู้ของเครื่องแบบจำลองเชิงเส้นดังกล่าวซึ่งได้รับการฝึกฝนเกี่ยวกับฟังก์ชันที่ไม่ใช่เชิงเส้นจึงถูกนำมาใช้

ตัวอย่างหนึ่งคือการถดถอยเชิงเส้นอย่างง่ายสามารถขยายได้โดยการสร้างคุณลักษณะพหุนามจากสัมประสิทธิ์

ในทางคณิตศาสตร์สมมติว่าเรามีแบบจำลองการถดถอยเชิงเส้นมาตรฐานสำหรับข้อมูล 2 มิติจะมีลักษณะดังนี้ -

$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} $$

ตอนนี้เราสามารถรวมคุณสมบัติในพหุนามลำดับที่สองและแบบจำลองของเราจะมีลักษณะดังนี้ -

$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} + W_ {3} X_ {1} X_ {2} + W_ {4} X_1 ^ 2 + W_ { 5} X_2 ^ 2 $$

ข้างต้นยังคงเป็นแบบจำลองเชิงเส้น ที่นี่เราเห็นว่าการถดถอยพหุนามที่ได้นั้นอยู่ในคลาสเดียวกันของโมเดลเชิงเส้นและสามารถแก้ไขได้ในทำนองเดียวกัน

ในการทำเช่นนั้น scikit-learn จะจัดเตรียมโมดูลที่ชื่อ PolynomialFeatures. โมดูลนี้แปลงเมทริกซ์ข้อมูลอินพุตเป็นเมทริกซ์ข้อมูลใหม่ของระดับที่กำหนด

พารามิเตอร์

ตารางต่อไปนี้ประกอบด้วยพารามิเตอร์ที่ใช้โดย PolynomialFeatures โมดูล

ซีเนียร์ No พารามิเตอร์และคำอธิบาย
1

degree - จำนวนเต็มค่าเริ่มต้น = 2

แสดงถึงระดับของคุณสมบัติพหุนาม

2

interaction_only - บูลีนค่าเริ่มต้น = เท็จ

โดยค่าเริ่มต้นจะเป็นเท็จ แต่หากตั้งค่าเป็นจริงคุณลักษณะที่เป็นผลิตภัณฑ์ของคุณลักษณะการป้อนข้อมูลที่แตกต่างกันส่วนใหญ่จะถูกสร้างขึ้น คุณลักษณะดังกล่าวเรียกว่าคุณลักษณะการโต้ตอบ

3

include_bias - บูลีนค่าเริ่มต้น = จริง

ประกอบด้วยคอลัมน์อคติกล่าวคือคุณลักษณะที่อำนาจพหุนามทั้งหมดเป็นศูนย์

4

order - str ใน {'C', 'F'}, default = 'C'

พารามิเตอร์นี้แสดงลำดับของอาร์เรย์เอาต์พุตในกรณีหนาแน่น คำสั่ง 'F' หมายถึงการคำนวณที่เร็วขึ้น แต่ในทางกลับกันอาจทำให้ตัวประมาณในภายหลังช้าลง

คุณลักษณะ

ตารางต่อไปนี้ประกอบด้วยแอตทริบิวต์ที่ใช้โดย PolynomialFeatures โมดูล

ซีเนียร์ No คุณสมบัติและคำอธิบาย
1

powers_ - อาร์เรย์รูปร่าง (n_output_features, n_input_features)

มันแสดง powers_ [i, j] คือเลขชี้กำลังของอินพุต jth ในเอาต์พุต ith

2

n_input_features _ - int

ตามชื่อจะให้จำนวนคุณสมบัติการป้อนข้อมูลทั้งหมด

3

n_output_features _ - int

ตามชื่อจะให้จำนวนคุณสมบัติเอาต์พุตพหุนามทั้งหมด

ตัวอย่างการใช้งาน

ใช้สคริปต์ Python ต่อไปนี้ PolynomialFeatures หม้อแปลงเพื่อเปลี่ยนอาร์เรย์ของ 8 ให้เป็นรูปร่าง (4,2) -

from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)

เอาต์พุต

array(
   [
      [ 1., 0., 1., 0., 0., 1.],
      [ 1., 2., 3., 4., 6., 9.],
      [ 1., 4., 5., 16., 20., 25.],
      [ 1., 6., 7., 36., 42., 49.]
   ]
)

การเพิ่มความคล่องตัวโดยใช้เครื่องมือ Pipeline

การประมวลผลล่วงหน้าประเภทข้างต้นเช่นการแปลงเมทริกซ์ข้อมูลอินพุตเป็นเมทริกซ์ข้อมูลใหม่ของระดับที่กำหนดสามารถปรับปรุงได้ด้วย Pipeline เครื่องมือซึ่งโดยพื้นฐานแล้วจะใช้ในการเชื่อมโยงตัวประมาณค่าหลายตัวเข้าด้วยกัน

ตัวอย่าง

สคริปต์ python ด้านล่างโดยใช้เครื่องมือ Pipeline ของ Scikit-learn เพื่อเพิ่มความคล่องตัวในการประมวลผลล่วงหน้า (จะพอดีกับข้อมูลพหุนามลำดับที่ 3)

#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np

#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])

#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)

#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_

เอาต์พุต

array([ 3., -2., 1., -1.])

ผลลัพธ์ข้างต้นแสดงให้เห็นว่าแบบจำลองเชิงเส้นที่ได้รับการฝึกฝนเกี่ยวกับคุณลักษณะพหุนามสามารถกู้คืนค่าสัมประสิทธิ์พหุนามอินพุตที่แน่นอนได้