Logistic Regression ใน Python - คู่มือฉบับย่อ
Logistic Regression เป็นวิธีการทางสถิติในการจำแนกประเภทของวัตถุ บทนี้จะให้ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยโลจิสติกส์โดยใช้ตัวอย่างบางส่วน
การจำแนกประเภท
เพื่อให้เข้าใจถึงการถดถอยโลจิสติกส์คุณควรทราบว่าการจำแนกประเภทหมายถึงอะไร ให้เราพิจารณาตัวอย่างต่อไปนี้เพื่อทำความเข้าใจสิ่งนี้ให้ดีขึ้น -
- แพทย์จำแนกเนื้องอกว่าเป็นมะเร็งหรือไม่ร้ายแรง
- ธุรกรรมธนาคารอาจเป็นการฉ้อโกงหรือเป็นของแท้
เป็นเวลาหลายปีที่มนุษย์ปฏิบัติภารกิจดังกล่าวแม้ว่าจะมีโอกาสผิดพลาดก็ตาม คำถามคือเราสามารถฝึกเครื่องจักรให้ทำงานเหล่านี้ให้เราด้วยความแม่นยำที่ดีขึ้นได้หรือไม่?
ตัวอย่างหนึ่งของเครื่องที่ทำการแบ่งประเภทคืออีเมล Clientบนเครื่องของคุณซึ่งจัดประเภทอีเมลที่เข้ามาทุกฉบับเป็น "สแปม" หรือ "ไม่ใช่สแปม" และมีความแม่นยำค่อนข้างมาก เทคนิคทางสถิติของการถดถอยโลจิสติกถูกนำไปใช้ในโปรแกรมรับส่งเมล ในกรณีนี้เราได้ฝึกฝนเครื่องของเราเพื่อแก้ปัญหาการจำแนกประเภท
Logistic Regression เป็นเพียงส่วนหนึ่งของการเรียนรู้ของเครื่องที่ใช้ในการแก้ปัญหาการจำแนกไบนารีประเภทนี้ มีเทคนิคการเรียนรู้ของเครื่องอื่น ๆ อีกมากมายที่ได้รับการพัฒนาแล้วและอยู่ในทางปฏิบัติสำหรับการแก้ปัญหาประเภทอื่น ๆ
หากคุณสังเกตในตัวอย่างทั้งหมดข้างต้นผลลัพธ์ของการทำนายมีเพียงสองค่า - ใช่หรือไม่ใช่เราเรียกสิ่งเหล่านี้ว่าคลาส - เพื่อบอกว่าเราบอกว่าลักษณนามของเราจำแนกอ็อบเจ็กต์เป็นสองคลาส ในทางเทคนิคเราสามารถพูดได้ว่าผลลัพธ์หรือตัวแปรเป้าหมายนั้นมีลักษณะเป็นสองขั้ว
มีปัญหาในการจำแนกประเภทอื่น ๆ ซึ่งผลลัพธ์อาจถูกแบ่งออกเป็นมากกว่าสองคลาส ตัวอย่างเช่นในตะกร้าที่เต็มไปด้วยผลไม้คุณจะถูกขอให้แยกผลไม้ชนิดต่างๆ ตอนนี้ตะกร้าอาจมีส้มแอปเปิ้ลมะม่วงและอื่น ๆ ดังนั้นเมื่อคุณแยกผลไม้ออกคุณจะแยกมันออกเป็นมากกว่าสองชั้น นี่คือปัญหาการจำแนกหลายตัวแปร
พิจารณาว่าธนาคารเข้าใกล้คุณในการพัฒนาแอปพลิเคชันแมชชีนเลิร์นนิงที่จะช่วยพวกเขาในการระบุผู้มีโอกาสเป็นลูกค้าที่จะเปิดการฝากระยะ (หรือที่เรียกว่าการฝากประจำโดยธนาคารบางแห่ง) กับพวกเขา ธนาคารจะทำการสำรวจอย่างสม่ำเสมอโดยการโทรทางโทรศัพท์หรือเว็บฟอร์มเพื่อรวบรวมข้อมูลเกี่ยวกับผู้มีโอกาสเป็นลูกค้า การสำรวจเป็นเรื่องทั่วไปและดำเนินการกับผู้ชมจำนวนมากซึ่งหลายคนอาจไม่สนใจที่จะจัดการกับธนาคารนี้เอง จากที่เหลือมีเพียงไม่กี่คนเท่านั้นที่สนใจที่จะเปิดฝากระยะ คนอื่น ๆ อาจสนใจสิ่งอำนวยความสะดวกอื่น ๆ ที่ธนาคารนำเสนอ ดังนั้นจึงไม่จำเป็นต้องทำการสำรวจเพื่อระบุลูกค้าที่เปิด TD งานของคุณคือการระบุลูกค้าทั้งหมดที่มีความเป็นไปได้สูงที่จะเปิด TD จากข้อมูลการสำรวจขนาดใหญ่ที่ธนาคารจะแบ่งปันกับคุณ
โชคดีที่ข้อมูลประเภทนี้เปิดเผยต่อสาธารณะสำหรับผู้ที่ต้องการพัฒนาโมเดลแมชชีนเลิร์นนิง ข้อมูลนี้จัดทำโดยนักเรียนบางคนที่ UC Irvine ด้วยเงินทุนภายนอก ฐานข้อมูลพร้อมใช้งานเป็นส่วนหนึ่งของUCI Machine Learning Repositoryและใช้กันอย่างแพร่หลายโดยนักเรียนนักการศึกษาและนักวิจัยทั่วโลก ข้อมูลที่สามารถดาวน์โหลดได้จากที่นี่
ในบทถัดไปให้เราดำเนินการพัฒนาแอปพลิเคชันโดยใช้ข้อมูลเดียวกัน
ในบทนี้เราจะเข้าใจกระบวนการที่เกี่ยวข้องกับการตั้งค่าโครงการเพื่อดำเนินการถดถอยโลจิสติกใน Python โดยละเอียด
การติดตั้ง Jupyter
เราจะใช้ Jupyter ซึ่งเป็นหนึ่งในแพลตฟอร์มที่ใช้กันอย่างแพร่หลายสำหรับการเรียนรู้ของเครื่อง หากคุณไม่ได้มี Jupyter ติดตั้งบนเครื่องของคุณดาวน์โหลดได้จากที่นี่ สำหรับการติดตั้งคุณสามารถทำตามคำแนะนำบนไซต์เพื่อติดตั้งแพลตฟอร์ม ตามที่เว็บไซต์แนะนำคุณอาจต้องการใช้Anaconda Distributionซึ่งมาพร้อมกับ Python และแพ็คเกจ Python ที่ใช้กันทั่วไปสำหรับการคำนวณทางวิทยาศาสตร์และวิทยาศาสตร์ข้อมูล ซึ่งจะช่วยบรรเทาความจำเป็นในการติดตั้งแพ็คเกจเหล่านี้ทีละรายการ
หลังจากติดตั้ง Jupyter สำเร็จแล้วให้เริ่มโปรเจ็กต์ใหม่หน้าจอของคุณในขั้นตอนนี้จะมีลักษณะดังต่อไปนี้พร้อมที่จะยอมรับรหัสของคุณ
ตอนนี้เปลี่ยนชื่อโครงการจาก Untitled1 to “Logistic Regression” โดยคลิกที่ชื่อเรื่องและแก้ไข
ขั้นแรกเราจะนำเข้าแพ็คเกจ Python หลายตัวที่เราต้องการในโค้ดของเรา
การนำเข้าแพ็คเกจ Python
เพื่อจุดประสงค์นี้ให้พิมพ์หรือตัดและวางโค้ดต่อไปนี้ในตัวแก้ไขโค้ด -
In [1]: # import statements
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
ของคุณ Notebook ควรมีลักษณะดังนี้ในขั้นตอนนี้ -
เรียกใช้รหัสโดยคลิกที่ไฟล์ Runปุ่ม. หากไม่มีการสร้างข้อผิดพลาดแสดงว่าคุณติดตั้ง Jupyter สำเร็จแล้วและพร้อมสำหรับการพัฒนาที่เหลือแล้ว
คำสั่งนำเข้าสามรายการแรกนำเข้าแพ็กเกจแพนด้า numpy และ matplotlib.pyplot ในโครงการของเรา สามคำสั่งถัดไปนำเข้าโมดูลที่ระบุจาก sklearn
งานต่อไปของเราคือการดาวน์โหลดข้อมูลที่จำเป็นสำหรับโครงการของเรา เราจะเรียนรู้สิ่งนี้ในบทถัดไป
ขั้นตอนที่เกี่ยวข้องในการรับข้อมูลสำหรับการดำเนินการถดถอยโลจิสติกใน Python จะกล่าวถึงโดยละเอียดในบทนี้
กำลังดาวน์โหลดชุดข้อมูล
หากคุณยังไม่ได้ดาวน์โหลดแล้วชุด UCI กล่าวก่อนหน้านี้ดาวน์โหลดได้ในขณะนี้จากที่นี่ คลิกที่โฟลเดอร์ข้อมูล คุณจะเห็นหน้าจอต่อไปนี้ -
ดาวน์โหลดไฟล์ bank.zip โดยคลิกที่ลิงค์ที่ระบุ ไฟล์ zip มีไฟล์ต่อไปนี้ -
เราจะใช้ไฟล์ bank.csv สำหรับการพัฒนาโมเดลของเรา ไฟล์ bank-names.txt มีคำอธิบายของฐานข้อมูลที่คุณจะต้องใช้ในภายหลัง bank-full.csv มีชุดข้อมูลขนาดใหญ่กว่ามากซึ่งคุณอาจใช้สำหรับการพัฒนาขั้นสูงเพิ่มเติม
ที่นี่เราได้รวมไฟล์ bank.csv ไว้ใน zip ต้นทางที่ดาวน์โหลดได้ ไฟล์นี้มีช่องที่คั่นด้วยเครื่องหมายจุลภาค เราได้ทำการแก้ไขบางส่วนในไฟล์ด้วย ขอแนะนำให้คุณใช้ไฟล์ที่รวมอยู่ใน zip แหล่งที่มาของโครงการเพื่อการเรียนรู้ของคุณ
กำลังโหลดข้อมูล
ในการโหลดข้อมูลจากไฟล์ csv ที่คุณคัดลอกไว้ในตอนนี้ให้พิมพ์คำสั่งต่อไปนี้และรันโค้ด
In [2]: df = pd.read_csv('bank.csv', header=0)
นอกจากนี้คุณยังสามารถตรวจสอบข้อมูลที่โหลดได้โดยเรียกใช้คำสั่งรหัสต่อไปนี้ -
IN [3]: df.head()
เมื่อรันคำสั่งคุณจะเห็นผลลัพธ์ต่อไปนี้ -
โดยทั่วไปจะพิมพ์ห้าแถวแรกของข้อมูลที่โหลด ตรวจสอบ 21 คอลัมน์ที่มีอยู่ เราจะใช้คอลัมน์เพียงไม่กี่คอลัมน์จากคอลัมน์เหล่านี้ในการพัฒนาโมเดลของเรา
ต่อไปเราต้องล้างข้อมูล ข้อมูลอาจมีบางแถวที่มีNaN. ในการกำจัดแถวดังกล่าวให้ใช้คำสั่งต่อไปนี้ -
IN [4]: df = df.dropna()
โชคดีที่ bank.csv ไม่มีแถวที่มี NaN ดังนั้นขั้นตอนนี้จึงไม่จำเป็นในกรณีของเรา อย่างไรก็ตามโดยทั่วไปเป็นการยากที่จะค้นพบแถวดังกล่าวในฐานข้อมูลขนาดใหญ่ ดังนั้นจึงปลอดภัยกว่าเสมอที่จะเรียกใช้ข้อความข้างต้นเพื่อล้างข้อมูล
Note - คุณสามารถตรวจสอบขนาดข้อมูล ณ เวลาใดก็ได้โดยใช้คำสั่งต่อไปนี้ -
IN [5]: print (df.shape)
(41188, 21)
จำนวนแถวและคอลัมน์จะถูกพิมพ์ในผลลัพธ์ดังแสดงในบรรทัดที่สองด้านบน
สิ่งต่อไปที่ต้องทำคือตรวจสอบความเหมาะสมของแต่ละคอลัมน์สำหรับแบบจำลองที่เรากำลังพยายามสร้าง
เมื่อใดก็ตามที่องค์กรใดทำการสำรวจพวกเขาจะพยายามรวบรวมข้อมูลจากลูกค้าให้ได้มากที่สุดโดยมีความคิดว่าข้อมูลนี้จะเป็นประโยชน์ต่อองค์กรไม่ทางใดก็ทางหนึ่งในภายหลัง ในการแก้ปัญหาปัจจุบันเราต้องรับข้อมูลที่เกี่ยวข้องโดยตรงกับปัญหาของเรา
กำลังแสดงฟิลด์ทั้งหมด
ตอนนี้ให้เราดูวิธีการเลือกฟิลด์ข้อมูลที่เป็นประโยชน์สำหรับเรา เรียกใช้คำสั่งต่อไปนี้ในตัวแก้ไขโค้ด
In [6]: print(list(df.columns))
คุณจะเห็นผลลัพธ์ต่อไปนี้ -
['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx',
'euribor3m', 'nr_employed', 'y']
ผลลัพธ์จะแสดงชื่อของคอลัมน์ทั้งหมดในฐานข้อมูล คอลัมน์สุดท้าย“ y” คือค่าบูลีนที่ระบุว่าลูกค้ารายนี้มีการฝากเงินระยะยาวกับธนาคารหรือไม่ ค่าของช่องนี้คือ "y" หรือ "n" คุณสามารถอ่านคำอธิบายและวัตถุประสงค์ของแต่ละคอลัมน์ในไฟล์ banks-name.txt ที่ดาวน์โหลดมาเป็นส่วนหนึ่งของข้อมูล
การกำจัดฟิลด์ที่ไม่ต้องการ
เมื่อตรวจสอบชื่อคอลัมน์คุณจะรู้ว่าบางฟิลด์ไม่มีความสำคัญกับปัญหาในมือ ตัวอย่างเช่นเขตข้อมูลเช่นmonth, day_of_weekแคมเปญ ฯลฯ ไม่มีประโยชน์สำหรับเรา เราจะลบฟิลด์เหล่านี้ออกจากฐานข้อมูลของเรา ในการวางคอลัมน์เราใช้คำสั่ง drop ดังที่แสดงด้านล่าง -
In [8]: #drop columns which are not needed.
df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]],
axis = 1, inplace = True)
คำสั่งบอกว่าวางคอลัมน์หมายเลข 0, 3, 7, 8 และอื่น ๆ เพื่อให้แน่ใจว่าดัชนีถูกเลือกอย่างถูกต้องให้ใช้คำสั่งต่อไปนี้ -
In [7]: df.columns[9]
Out[7]: 'day_of_week'
สิ่งนี้จะพิมพ์ชื่อคอลัมน์สำหรับดัชนีที่กำหนด
หลังจากวางคอลัมน์ที่ไม่จำเป็นแล้วให้ตรวจสอบข้อมูลด้วยคำสั่ง head เอาต์พุตหน้าจอจะแสดงที่นี่ -
In [9]: df.head()
Out[9]:
job marital default housing loan poutcome y
0 blue-collar married unknown yes no nonexistent 0
1 technician married no no no nonexistent 0
2 management single no yes no success 1
3 services married no no no nonexistent 0
4 retired married no yes no success 1
ตอนนี้เรามีเฉพาะฟิลด์ที่เรารู้สึกว่าสำคัญสำหรับการวิเคราะห์และการทำนายข้อมูลของเรา ความสำคัญของData Scientistมาเป็นภาพในขั้นตอนนี้ นักวิทยาศาสตร์ข้อมูลต้องเลือกคอลัมน์ที่เหมาะสมสำหรับการสร้างแบบจำลอง
ตัวอย่างเช่นประเภทของ jobแม้ว่าในแวบแรกอาจไม่สามารถโน้มน้าวให้ทุกคนรวมอยู่ในฐานข้อมูลได้ แต่ก็เป็นช่องที่มีประโยชน์มาก ไม่ใช่ลูกค้าทุกประเภทที่จะเปิด TD ผู้ที่มีรายได้น้อยไม่สามารถเปิด TD ได้ในขณะที่ผู้มีรายได้สูงมักจะเก็บเงินส่วนเกินไว้ใน TD ดังนั้นประเภทของงานจึงมีความเกี่ยวข้องอย่างมากในสถานการณ์นี้ ในทำนองเดียวกันให้เลือกคอลัมน์ที่คุณคิดว่าเกี่ยวข้องกับการวิเคราะห์ของคุณอย่างรอบคอบ
ในบทต่อไปเราจะเตรียมข้อมูลของเราสำหรับการสร้างแบบจำลอง
สำหรับการสร้างลักษณนามเราต้องเตรียมข้อมูลในรูปแบบที่โมดูลการสร้างลักษณนามถาม เราเตรียมข้อมูลโดยการทำOne Hot Encoding.
การเข้ารหัสข้อมูล
เราจะพูดถึงความหมายของการเข้ารหัสข้อมูลในไม่ช้า ขั้นแรกให้เรารันโค้ด เรียกใช้คำสั่งต่อไปนี้ในหน้าต่างรหัส
In [10]: # creating one hot encoding of the categorical columns.
data = pd.get_dummies(df, columns =['job', 'marital', 'default', 'housing', 'loan', 'poutcome'])
ดังที่ความคิดเห็นกล่าวไว้ข้อความข้างต้นจะสร้างการเข้ารหัสข้อมูลที่ร้อนแรง ให้เราดูว่ามันสร้างอะไร? ตรวจสอบข้อมูลที่สร้างขึ้นที่เรียกว่า“data” โดยการพิมพ์บันทึกส่วนหัวในฐานข้อมูล
In [11]: data.head()
คุณจะเห็นผลลัพธ์ต่อไปนี้ -
เพื่อทำความเข้าใจข้อมูลข้างต้นเราจะแสดงรายการชื่อคอลัมน์โดยเรียกใช้ไฟล์ data.columns คำสั่งดังแสดงด้านล่าง -
In [12]: data.columns
Out[12]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur',
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed',
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'job_unknown', 'marital_divorced', 'marital_married', 'marital_single',
'marital_unknown', 'default_no', 'default_unknown', 'default_yes',
'housing_no', 'housing_unknown', 'housing_yes', 'loan_no',
'loan_unknown', 'loan_yes', 'poutcome_failure', 'poutcome_nonexistent',
'poutcome_success'], dtype='object')
ตอนนี้เราจะอธิบายวิธีการเข้ารหัสแบบ hot โดยไฟล์ get_dummiesคำสั่ง คอลัมน์แรกในฐานข้อมูลที่สร้างขึ้นใหม่คือฟิลด์ "y" ซึ่งระบุว่าไคลเอนต์นี้สมัครเป็นสมาชิก TD หรือไม่ ตอนนี้ให้เราดูคอลัมน์ที่เข้ารหัส คอลัมน์แรกที่เข้ารหัสคือ“job”. ในฐานข้อมูลคุณจะพบว่าคอลัมน์ "งาน" มีค่าที่เป็นไปได้หลายค่าเช่น "admin", "blue-collar", "ผู้ประกอบการ" และอื่น ๆ สำหรับแต่ละค่าที่เป็นไปได้เรามีคอลัมน์ใหม่ที่สร้างขึ้นในฐานข้อมูลโดยมีชื่อคอลัมน์ต่อท้ายเป็นคำนำหน้า
ดังนั้นเราจึงมีคอลัมน์ที่เรียกว่า "job_admin", "job_blue-collar" และอื่น ๆ สำหรับแต่ละเขตข้อมูลที่เข้ารหัสในฐานข้อมูลดั้งเดิมของเราคุณจะพบรายการคอลัมน์ที่เพิ่มในฐานข้อมูลที่สร้างขึ้นพร้อมค่าที่เป็นไปได้ทั้งหมดที่คอลัมน์นั้นใช้ในฐานข้อมูลดั้งเดิม ตรวจสอบรายการคอลัมน์อย่างละเอียดเพื่อทำความเข้าใจว่าข้อมูลถูกจับคู่กับฐานข้อมูลใหม่อย่างไร
การทำความเข้าใจการแมปข้อมูล
เพื่อทำความเข้าใจข้อมูลที่สร้างขึ้นให้เราพิมพ์ข้อมูลทั้งหมดโดยใช้คำสั่ง data ผลลัพธ์บางส่วนหลังจากรันคำสั่งแสดงอยู่ด้านล่าง
In [13]: data
หน้าจอด้านบนแสดงสิบสองแถวแรก หากคุณเลื่อนลงไปอีกคุณจะเห็นว่ามีการทำแผนที่สำหรับทุกแถว
เอาต์พุตหน้าจอบางส่วนที่อยู่ถัดจากฐานข้อมูลจะแสดงที่นี่สำหรับการอ้างอิงอย่างรวดเร็วของคุณ
หากต้องการทำความเข้าใจข้อมูลที่แมปให้เราตรวจสอบแถวแรก
มันบอกว่าลูกค้ารายนี้ไม่ได้สมัครสมาชิก TD ตามที่ระบุด้วยค่าในฟิลด์ "y" นอกจากนี้ยังระบุด้วยว่าลูกค้ารายนี้เป็นลูกค้า "ปกสีน้ำเงิน" เมื่อเลื่อนลงไปในแนวนอนก็จะบอกคุณว่าเขามี "ที่อยู่อาศัย" และไม่ได้รับ "เงินกู้"
หลังจากการเข้ารหัสร้อนครั้งเดียวเราต้องประมวลผลข้อมูลเพิ่มเติมก่อนที่จะเริ่มสร้างโมเดลของเรา
การทิ้ง "ไม่รู้จัก"
หากเราตรวจสอบคอลัมน์ในฐานข้อมูลที่แมปคุณจะพบว่ามีคอลัมน์สองสามคอลัมน์ที่ลงท้ายด้วย "ไม่ทราบ" ตัวอย่างเช่นตรวจสอบคอลัมน์ที่ดัชนี 12 ด้วยคำสั่งต่อไปนี้ที่แสดงในภาพหน้าจอ -
In [14]: data.columns[12]
Out[14]: 'job_unknown'
สิ่งนี้บ่งชี้ว่าไม่ทราบงานสำหรับลูกค้าที่ระบุ เห็นได้ชัดว่าไม่มีประเด็นใดในการรวมคอลัมน์ดังกล่าวในการวิเคราะห์และการสร้างแบบจำลองของเรา ดังนั้นคอลัมน์ทั้งหมดที่มีค่า "ไม่ทราบ" จึงควรทิ้ง ทำได้ด้วยคำสั่งต่อไปนี้ -
In [15]: data.drop(data.columns[[12, 16, 18, 21, 24]], axis=1, inplace=True)
ตรวจสอบให้แน่ใจว่าคุณระบุหมายเลขคอลัมน์ที่ถูกต้อง ในกรณีที่มีข้อสงสัยคุณสามารถตรวจสอบชื่อคอลัมน์ได้ตลอดเวลาโดยระบุดัชนีในคำสั่งคอลัมน์ตามที่อธิบายไว้ก่อนหน้านี้
หลังจากวางคอลัมน์ที่ไม่ต้องการแล้วคุณสามารถตรวจสอบรายการสุดท้ายของคอลัมน์ดังที่แสดงในผลลัพธ์ด้านล่าง -
In [16]: data.columns
Out[16]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur',
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed',
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'marital_divorced', 'marital_married', 'marital_single', 'default_no',
'default_yes', 'housing_no', 'housing_yes', 'loan_no', 'loan_yes',
'poutcome_failure', 'poutcome_nonexistent', 'poutcome_success'],
dtype='object')
ณ จุดนี้ข้อมูลของเราพร้อมสำหรับการสร้างแบบจำลองแล้ว
เรามีประวัติแปลก ๆ ประมาณสี่หมื่นหนึ่งพันรายการ หากเราใช้ข้อมูลทั้งหมดสำหรับการสร้างแบบจำลองเราจะไม่เหลือข้อมูลสำหรับการทดสอบ โดยทั่วไปเราแบ่งชุดข้อมูลทั้งหมดออกเป็นสองส่วนกล่าวคือ 70/30 เปอร์เซ็นต์ เราใช้ข้อมูล 70% สำหรับการสร้างแบบจำลองและส่วนที่เหลือเพื่อทดสอบความแม่นยำในการคาดคะเนของโมเดลที่เราสร้างขึ้น คุณสามารถใช้อัตราส่วนการแยกที่แตกต่างกันตามความต้องการของคุณ
การสร้างคุณสมบัติอาร์เรย์
ก่อนที่เราจะแยกข้อมูลเราแยกข้อมูลออกเป็นสองอาร์เรย์ X และ Y อาร์เรย์ X ประกอบด้วยคุณสมบัติทั้งหมด (คอลัมน์ข้อมูล) ที่เราต้องการวิเคราะห์และอาร์เรย์ Y คืออาร์เรย์มิติเดียวของค่าบูลีนที่เป็นผลลัพธ์ของ การทำนาย เพื่อให้เข้าใจสิ่งนี้ให้เราเรียกใช้โค้ด
ประการแรกดำเนินการคำสั่ง Python ต่อไปนี้เพื่อสร้างอาร์เรย์ X -
In [17]: X = data.iloc[:,1:]
เพื่อตรวจสอบเนื้อหาของ X ใช้ headเพื่อพิมพ์บันทึกเริ่มต้นสองสามรายการ หน้าจอต่อไปนี้แสดงเนื้อหาของอาร์เรย์ X
In [18]: X.head ()
อาร์เรย์มีหลายแถวและ 23 คอลัมน์
ต่อไปเราจะสร้างอาร์เรย์เอาต์พุตที่มี“y” ค่า
การสร้างอาร์เรย์เอาต์พุต
ในการสร้างอาร์เรย์สำหรับคอลัมน์ค่าที่ทำนายให้ใช้คำสั่ง Python ต่อไปนี้ -
In [19]: Y = data.iloc[:,0]
ตรวจสอบเนื้อหาโดยการโทร head. ผลลัพธ์หน้าจอด้านล่างแสดงผลลัพธ์ -
In [20]: Y.head()
Out[20]: 0 0
1 0
2 1
3 0
4 1
Name: y, dtype: int64
ตอนนี้แยกข้อมูลโดยใช้คำสั่งต่อไปนี้ -
In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)
สิ่งนี้จะสร้างอาร์เรย์ทั้งสี่ที่เรียกว่า X_train, Y_train, X_test, and Y_test. ก่อนหน้านี้คุณสามารถตรวจสอบเนื้อหาของอาร์เรย์เหล่านี้ได้โดยใช้คำสั่ง head เราจะใช้อาร์เรย์ X_train และ Y_train สำหรับการฝึกโมเดลและอาร์เรย์ X_test และ Y_test สำหรับการทดสอบและตรวจสอบความถูกต้อง
ตอนนี้เราพร้อมที่จะสร้างลักษณนามของเราแล้ว เราจะมาดูกันในบทต่อไป
คุณไม่จำเป็นต้องสร้างลักษณนามตั้งแต่เริ่มต้น การสร้างลักษณนามมีความซับซ้อนและต้องการความรู้ในหลาย ๆ ด้านเช่นสถิติทฤษฎีความน่าจะเป็นเทคนิคการเพิ่มประสิทธิภาพและอื่น ๆ มีไลบรารีที่สร้างไว้ล่วงหน้าหลายแห่งในตลาดซึ่งมีการใช้งานตัวแยกประเภทเหล่านี้ที่ผ่านการทดสอบอย่างสมบูรณ์และมีประสิทธิภาพมาก เราจะใช้โมเดลที่สร้างไว้ล่วงหน้าจากไฟล์sklearn.
ลักษณนาม sklearn
การสร้างลักษณนาม Logistic Regression จากชุดเครื่องมือ sklearn นั้นไม่สำคัญและทำได้ในคำสั่งโปรแกรมเดียวดังที่แสดงไว้ที่นี่ -
In [22]: classifier = LogisticRegression(solver='lbfgs',random_state=0)
เมื่อสร้างลักษณนามแล้วคุณจะป้อนข้อมูลการฝึกของคุณลงในลักษณนามเพื่อให้สามารถปรับแต่งพารามิเตอร์ภายในและพร้อมสำหรับการคาดคะเนข้อมูลในอนาคตของคุณ ในการปรับลักษณนามเราเรียกใช้คำสั่งต่อไปนี้ -
In [23]: classifier.fit(X_train, Y_train)
ขณะนี้ลักษณนามพร้อมสำหรับการทดสอบแล้ว รหัสต่อไปนี้เป็นผลลัพธ์ของการดำเนินการของสองคำสั่งข้างต้น -
Out[23]: LogisticRegression(C = 1.0, class_weight = None, dual = False,
fit_intercept=True, intercept_scaling=1, max_iter=100,
multi_class='warn', n_jobs=None, penalty='l2', random_state=0,
solver='lbfgs', tol=0.0001, verbose=0, warm_start=False))
ตอนนี้เราพร้อมที่จะทดสอบลักษณนามที่สร้างขึ้น เราจะจัดการเรื่องนี้ในบทถัดไป
เราจำเป็นต้องทดสอบลักษณนามที่สร้างขึ้นข้างต้นก่อนที่จะนำไปใช้ในการผลิต หากการทดสอบพบว่าแบบจำลองไม่ตรงตามความแม่นยำที่ต้องการเราจะต้องย้อนกลับไปในกระบวนการข้างต้นเลือกชุดคุณสมบัติอื่น (ช่องข้อมูล) สร้างโมเดลอีกครั้งและทดสอบ นี่จะเป็นขั้นตอนซ้ำ ๆ จนกว่าลักษณนามจะตรงตามความต้องการของคุณในเรื่องความแม่นยำที่ต้องการ ดังนั้นให้เราทดสอบลักษณนามของเรา
การทำนายข้อมูลการทดสอบ
ในการทดสอบลักษณนามเราใช้ข้อมูลการทดสอบที่สร้างขึ้นในขั้นตอนก่อนหน้านี้ เราเรียกว่าpredict วิธีการบนวัตถุที่สร้างขึ้นและส่งไฟล์ X อาร์เรย์ของข้อมูลทดสอบดังแสดงในคำสั่งต่อไปนี้ -
In [24]: predicted_y = classifier.predict(X_test)
สิ่งนี้จะสร้างอาร์เรย์มิติเดียวสำหรับชุดข้อมูลการฝึกอบรมทั้งหมดที่ให้การคาดการณ์สำหรับแต่ละแถวในอาร์เรย์ X คุณสามารถตรวจสอบอาร์เรย์นี้ได้โดยใช้คำสั่งต่อไปนี้ -
In [25]: predicted_y
ต่อไปนี้เป็นผลลัพธ์จากการดำเนินการสองคำสั่งข้างต้น -
Out[25]: array([0, 0, 0, ..., 0, 0, 0])
ผลลัพธ์ระบุว่าลูกค้าสามรายแรกและสามรายสุดท้ายไม่ใช่ผู้มีโอกาสเป็นลูกค้าสำหรับ Term Deposit. คุณสามารถตรวจสอบอาร์เรย์ทั้งหมดเพื่อแยกแยะผู้มีโอกาสเป็นลูกค้า โดยใช้ข้อมูลโค้ด Python ต่อไปนี้ -
In [26]: for x in range(len(predicted_y)):
if (predicted_y[x] == 1):
print(x, end="\t")
ผลลัพธ์ของการรันโค้ดด้านบนแสดงไว้ด้านล่าง -
ผลลัพธ์จะแสดงดัชนีของแถวทั้งหมดที่เป็นผู้สมัครที่น่าจะสมัครสมาชิก TD ตอนนี้คุณสามารถให้ผลลัพธ์นี้แก่ทีมการตลาดของธนาคารซึ่งจะรับรายละเอียดการติดต่อของลูกค้าแต่ละรายในแถวที่เลือกและดำเนินการต่อไป
ก่อนที่เราจะนำโมเดลนี้ไปใช้ในการผลิตเราจำเป็นต้องตรวจสอบความถูกต้องของการทำนาย
การตรวจสอบความถูกต้อง
ในการทดสอบความถูกต้องของแบบจำลองให้ใช้วิธีการให้คะแนนบนลักษณนามที่แสดงด้านล่าง -
In [27]: print('Accuracy: {:.2f}'.format(classifier.score(X_test, Y_test)))
ผลลัพธ์หน้าจอของการรันคำสั่งนี้แสดงไว้ด้านล่าง -
Accuracy: 0.90
แสดงให้เห็นว่าความแม่นยำของโมเดลของเราคือ 90% ซึ่งถือว่าดีมากในการใช้งานส่วนใหญ่ ดังนั้นจึงไม่จำเป็นต้องปรับแต่งเพิ่มเติม ตอนนี้ลูกค้าของเราพร้อมที่จะใช้งานแคมเปญต่อไปรับรายชื่อผู้มีโอกาสเป็นลูกค้าและไล่ล่าพวกเขาเพื่อเปิด TD ด้วยอัตราความสำเร็จที่สูง
ดังที่คุณได้เห็นจากตัวอย่างข้างต้นการใช้การถดถอยโลจิสติกสำหรับการเรียนรู้ของเครื่องไม่ใช่เรื่องยาก อย่างไรก็ตามมันมาพร้อมกับข้อ จำกัด ของมันเอง การถดถอยโลจิสติกจะไม่สามารถจัดการกับคุณลักษณะเชิงหมวดหมู่จำนวนมากได้ ในตัวอย่างที่เราได้พูดถึงไปแล้วเราได้ลดจำนวนคุณสมบัติลงไปมาก
อย่างไรก็ตามหากคุณลักษณะเหล่านี้มีความสำคัญในการคาดการณ์ของเราเราจะถูกบังคับให้รวมไว้ด้วย แต่การถดถอยโลจิสติกจะไม่สามารถให้ความแม่นยำที่ดีแก่เราได้ การถดถอยโลจิสติกยังเสี่ยงต่อการเกิดปัญหามากเกินไป ไม่สามารถใช้กับปัญหาที่ไม่ใช่เชิงเส้นได้ มันจะทำงานได้ไม่ดีกับตัวแปรอิสระซึ่งไม่มีความสัมพันธ์กับเป้าหมายและมีความสัมพันธ์ซึ่งกันและกัน ดังนั้นคุณจะต้องประเมินอย่างรอบคอบถึงความเหมาะสมของการถดถอยโลจิสติกส์กับปัญหาที่คุณกำลังพยายามแก้ไข
มีหลายด้านของการเรียนรู้ของเครื่องที่มีการคิดค้นเทคนิคอื่น ๆ ในการตั้งชื่อไม่กี่เรามีอัลกอริทึมเช่น k-near Neighbor (kNN), Linear Regression, Support Vector Machines (SVM), Decision Trees, Naive Bayes และอื่น ๆ ก่อนที่จะสรุปในรูปแบบเฉพาะคุณจะต้องประเมินความสามารถในการนำเทคนิคต่างๆเหล่านี้ไปใช้กับปัญหาที่เรากำลังพยายามแก้ไข
Logistic Regression เป็นเทคนิคทางสถิติของการจำแนกไบนารี ในบทช่วยสอนนี้คุณได้เรียนรู้วิธีฝึกเครื่องให้ใช้การถดถอยโลจิสติกส์ การสร้างโมเดลแมชชีนเลิร์นนิงข้อกำหนดที่สำคัญที่สุดคือความพร้อมใช้งานของข้อมูล หากไม่มีข้อมูลที่เพียงพอและเกี่ยวข้องคุณไม่สามารถทำให้เครื่องเรียนรู้ได้
เมื่อคุณมีข้อมูลแล้วภารกิจหลักต่อไปของคุณคือการล้างข้อมูลกำจัดแถวฟิลด์ที่ไม่ต้องการและเลือกฟิลด์ที่เหมาะสมสำหรับการพัฒนาโมเดลของคุณ หลังจากเสร็จสิ้นคุณจะต้องแมปข้อมูลเป็นรูปแบบที่ลักษณนามกำหนดสำหรับการฝึกอบรม ดังนั้นการเตรียมข้อมูลจึงเป็นงานหลักในแอปพลิเคชันแมชชีนเลิร์นนิง เมื่อคุณพร้อมกับข้อมูลแล้วคุณสามารถเลือกลักษณนามประเภทใดประเภทหนึ่งได้
ในบทช่วยสอนนี้คุณได้เรียนรู้วิธีใช้ลักษณนามการถดถอยโลจิสติกที่มีให้ในไฟล์ sklearnห้องสมุด. ในการฝึกลักษณนามเราใช้ข้อมูลประมาณ 70% ในการฝึกโมเดล เราใช้ข้อมูลที่เหลือในการทดสอบ เราทดสอบความถูกต้องของแบบจำลอง หากไม่อยู่ในขอบเขตที่ยอมรับได้เราจะกลับไปเลือกชุดคุณสมบัติใหม่
ทำตามขั้นตอนทั้งหมดในการเตรียมข้อมูลฝึกโมเดลและทดสอบอีกครั้งจนกว่าคุณจะพอใจกับความแม่นยำ ก่อนที่จะทำโครงการแมชชีนเลิร์นนิงใด ๆ คุณต้องเรียนรู้และสัมผัสกับเทคนิคที่หลากหลายซึ่งได้รับการพัฒนาจนถึงปัจจุบันและได้นำไปใช้อย่างประสบความสำเร็จในอุตสาหกรรม