Logistic Regression ใน Python - การรับข้อมูล

ขั้นตอนที่เกี่ยวข้องในการรับข้อมูลสำหรับการดำเนินการถดถอยโลจิสติกส์ใน Python จะกล่าวถึงโดยละเอียดในบทนี้

กำลังดาวน์โหลดชุดข้อมูล

หากคุณยังไม่ได้ดาวน์โหลดแล้วชุด UCI กล่าวก่อนหน้านี้ดาวน์โหลดได้ในขณะนี้จากที่นี่ คลิกที่โฟลเดอร์ข้อมูล คุณจะเห็นหน้าจอต่อไปนี้ -

ดาวน์โหลดไฟล์ bank.zip โดยคลิกที่ลิงค์ที่ระบุ ไฟล์ zip มีไฟล์ต่อไปนี้ -

เราจะใช้ไฟล์ bank.csv สำหรับการพัฒนาโมเดลของเรา ไฟล์ bank-names.txt มีคำอธิบายของฐานข้อมูลที่คุณจะต้องใช้ในภายหลัง bank-full.csv มีชุดข้อมูลขนาดใหญ่กว่ามากซึ่งคุณอาจใช้สำหรับการพัฒนาขั้นสูงเพิ่มเติม

ที่นี่เราได้รวมไฟล์ bank.csv ไว้ใน zip ต้นทางที่ดาวน์โหลดได้ ไฟล์นี้มีช่องที่คั่นด้วยเครื่องหมายจุลภาค เราได้ทำการแก้ไขบางอย่างในไฟล์ด้วย ขอแนะนำให้คุณใช้ไฟล์ที่รวมอยู่ใน zip แหล่งที่มาของโครงการเพื่อการเรียนรู้ของคุณ

กำลังโหลดข้อมูล

ในการโหลดข้อมูลจากไฟล์ csv ที่คุณคัดลอกไว้ในตอนนี้ให้พิมพ์คำสั่งต่อไปนี้และรันโค้ด

In [2]: df = pd.read_csv('bank.csv', header=0)

นอกจากนี้คุณยังสามารถตรวจสอบข้อมูลที่โหลดได้โดยเรียกใช้คำสั่งรหัสต่อไปนี้ -

IN [3]: df.head()

เมื่อรันคำสั่งคุณจะเห็นผลลัพธ์ต่อไปนี้ -

โดยทั่วไปจะพิมพ์ห้าแถวแรกของข้อมูลที่โหลด ตรวจสอบ 21 คอลัมน์ที่มีอยู่ เราจะใช้เพียงไม่กี่คอลัมน์จากคอลัมน์เหล่านี้ในการพัฒนาโมเดลของเรา

ต่อไปเราต้องล้างข้อมูล ข้อมูลอาจมีบางแถวที่มีNaN. ในการกำจัดแถวดังกล่าวให้ใช้คำสั่งต่อไปนี้ -

IN [4]: df = df.dropna()

โชคดีที่ bank.csv ไม่มีแถวที่มี NaN ดังนั้นขั้นตอนนี้จึงไม่จำเป็นในกรณีของเรา อย่างไรก็ตามโดยทั่วไปเป็นการยากที่จะค้นพบแถวดังกล่าวในฐานข้อมูลขนาดใหญ่ ดังนั้นจึงปลอดภัยกว่าเสมอที่จะเรียกใช้ข้อความข้างต้นเพื่อล้างข้อมูล

Note - คุณสามารถตรวจสอบขนาดข้อมูล ณ เวลาใดก็ได้โดยใช้คำสั่งต่อไปนี้ -

IN [5]: print (df.shape)
(41188, 21)

จำนวนแถวและคอลัมน์จะถูกพิมพ์ในผลลัพธ์ดังแสดงในบรรทัดที่สองด้านบน

สิ่งต่อไปที่ต้องทำคือตรวจสอบความเหมาะสมของแต่ละคอลัมน์สำหรับแบบจำลองที่เรากำลังพยายามสร้าง