Scikit Learn - การสร้างแบบจำลองเชิงเส้นเพิ่มเติม
บทนี้มุ่งเน้นไปที่คุณสมบัติของพหุนามและเครื่องมือไพพ์ไลน์ใน Sklearn
ความรู้เบื้องต้นเกี่ยวกับคุณสมบัติพหุนาม
แบบจำลองเชิงเส้นที่ได้รับการฝึกอบรมเกี่ยวกับฟังก์ชันที่ไม่ใช่เชิงเส้นของข้อมูลโดยทั่วไปจะรักษาประสิทธิภาพที่รวดเร็วของวิธีเชิงเส้น นอกจากนี้ยังช่วยให้พอดีกับช่วงข้อมูลที่กว้างขึ้น นั่นเป็นเหตุผลในการเรียนรู้ของเครื่องแบบจำลองเชิงเส้นดังกล่าวซึ่งได้รับการฝึกฝนเกี่ยวกับฟังก์ชันที่ไม่ใช่เชิงเส้นจึงถูกนำมาใช้
ตัวอย่างหนึ่งคือการถดถอยเชิงเส้นอย่างง่ายสามารถขยายได้โดยการสร้างคุณลักษณะพหุนามจากสัมประสิทธิ์
ในทางคณิตศาสตร์สมมติว่าเรามีแบบจำลองการถดถอยเชิงเส้นมาตรฐานสำหรับข้อมูล 2 มิติจะมีลักษณะดังนี้ -
$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} $$ตอนนี้เราสามารถรวมคุณสมบัติในพหุนามลำดับที่สองและแบบจำลองของเราจะมีลักษณะดังนี้ -
$$ Y = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} + W_ {3} X_ {1} X_ {2} + W_ {4} X_1 ^ 2 + W_ { 5} X_2 ^ 2 $$ข้างต้นยังคงเป็นแบบจำลองเชิงเส้น ที่นี่เราเห็นว่าการถดถอยพหุนามที่ได้นั้นอยู่ในคลาสเดียวกันของโมเดลเชิงเส้นและสามารถแก้ไขได้ในทำนองเดียวกัน
ในการทำเช่นนั้น scikit-learn จะจัดเตรียมโมดูลที่ชื่อ PolynomialFeatures. โมดูลนี้แปลงเมทริกซ์ข้อมูลอินพุตเป็นเมทริกซ์ข้อมูลใหม่ของระดับที่กำหนด
พารามิเตอร์
ตารางต่อไปนี้ประกอบด้วยพารามิเตอร์ที่ใช้โดย PolynomialFeatures โมดูล
ซีเนียร์ No | พารามิเตอร์และคำอธิบาย |
---|---|
1 | degree - จำนวนเต็มค่าเริ่มต้น = 2 แสดงถึงระดับของคุณสมบัติพหุนาม |
2 | interaction_only - บูลีนค่าเริ่มต้น = เท็จ โดยค่าเริ่มต้นจะเป็นเท็จ แต่หากตั้งค่าเป็นจริงคุณลักษณะที่เป็นผลิตภัณฑ์ของคุณลักษณะการป้อนข้อมูลที่แตกต่างกันส่วนใหญ่จะถูกสร้างขึ้น คุณลักษณะดังกล่าวเรียกว่าคุณลักษณะการโต้ตอบ |
3 | include_bias - บูลีนค่าเริ่มต้น = จริง ประกอบด้วยคอลัมน์อคติกล่าวคือคุณลักษณะที่อำนาจพหุนามทั้งหมดเป็นศูนย์ |
4 | order - str ใน {'C', 'F'}, default = 'C' พารามิเตอร์นี้แสดงลำดับของอาร์เรย์เอาต์พุตในกรณีหนาแน่น คำสั่ง 'F' หมายถึงการคำนวณที่เร็วขึ้น แต่ในทางกลับกันอาจทำให้ตัวประมาณในภายหลังช้าลง |
คุณลักษณะ
ตารางต่อไปนี้ประกอบด้วยแอตทริบิวต์ที่ใช้โดย PolynomialFeatures โมดูล
ซีเนียร์ No | คุณสมบัติและคำอธิบาย |
---|---|
1 | powers_ - อาร์เรย์รูปร่าง (n_output_features, n_input_features) มันแสดง powers_ [i, j] คือเลขชี้กำลังของอินพุต jth ในเอาต์พุต ith |
2 | n_input_features _ - int ตามชื่อจะให้จำนวนคุณสมบัติการป้อนข้อมูลทั้งหมด |
3 | n_output_features _ - int ตามชื่อจะให้จำนวนคุณสมบัติเอาต์พุตพหุนามทั้งหมด |
ตัวอย่างการใช้งาน
ใช้สคริปต์ Python ต่อไปนี้ PolynomialFeatures หม้อแปลงเพื่อเปลี่ยนอาร์เรย์ของ 8 ให้เป็นรูปร่าง (4,2) -
from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)
เอาต์พุต
array(
[
[ 1., 0., 1., 0., 0., 1.],
[ 1., 2., 3., 4., 6., 9.],
[ 1., 4., 5., 16., 20., 25.],
[ 1., 6., 7., 36., 42., 49.]
]
)
การเพิ่มความคล่องตัวโดยใช้เครื่องมือ Pipeline
การประมวลผลล่วงหน้าประเภทข้างต้นเช่นการแปลงเมทริกซ์ข้อมูลอินพุตเป็นเมทริกซ์ข้อมูลใหม่ของระดับที่กำหนดสามารถปรับปรุงได้ด้วย Pipeline เครื่องมือซึ่งโดยพื้นฐานแล้วจะใช้ในการเชื่อมโยงตัวประมาณค่าหลายตัวเข้าด้วยกัน
ตัวอย่าง
สคริปต์ python ด้านล่างโดยใช้เครื่องมือ Pipeline ของ Scikit-learn เพื่อเพิ่มความคล่องตัวในการประมวลผลล่วงหน้า (จะพอดีกับข้อมูลพหุนามลำดับที่ 3)
#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np
#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])
#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)
#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_
เอาต์พุต
array([ 3., -2., 1., -1.])
ผลลัพธ์ข้างต้นแสดงให้เห็นว่าแบบจำลองเชิงเส้นที่ได้รับการฝึกฝนเกี่ยวกับคุณลักษณะพหุนามสามารถกู้คืนค่าสัมประสิทธิ์พหุนามอินพุตที่แน่นอนได้