Regresi Logistik dengan Python - Mendapatkan Data
Langkah-langkah yang terlibat dalam mendapatkan data untuk melakukan regresi logistik dengan Python dibahas secara mendetail di bab ini.
Mendownload Set Data
Jika Anda belum mengunduh kumpulan data UCI yang disebutkan sebelumnya, unduh sekarang dari sini . Klik pada Folder Data. Anda akan melihat layar berikut -
Unduh file bank.zip dengan mengklik tautan yang diberikan. File zip berisi file-file berikut -
Kami akan menggunakan file bank.csv untuk pengembangan model kami. File bank-names.txt berisi deskripsi database yang Anda perlukan nanti. Bank-full.csv berisi kumpulan data yang jauh lebih besar yang dapat Anda gunakan untuk pengembangan lebih lanjut.
Di sini kami telah menyertakan file bank.csv dalam zip sumber yang dapat diunduh. File ini berisi bidang yang dipisahkan koma. Kami juga telah membuat beberapa modifikasi pada file tersebut. Disarankan agar Anda menggunakan file yang disertakan dalam zip sumber proyek untuk pembelajaran Anda.
Memuat Data
Untuk memuat data dari file csv yang baru saja Anda salin, ketik pernyataan berikut dan jalankan kodenya.
In [2]: df = pd.read_csv('bank.csv', header=0)
Anda juga akan dapat memeriksa data yang dimuat dengan menjalankan pernyataan kode berikut -
IN [3]: df.head()
Setelah perintah dijalankan, Anda akan melihat output berikut -
Pada dasarnya, ini telah mencetak lima baris pertama dari data yang dimuat. Perhatikan 21 kolom yang ada. Kami hanya akan menggunakan beberapa kolom dari ini untuk pengembangan model kami.
Selanjutnya, kita perlu membersihkan data. Data mungkin berisi beberapa baris denganNaN. Untuk menghilangkan baris seperti itu, gunakan perintah berikut -
IN [4]: df = df.dropna()
Untungnya, bank.csv tidak berisi baris apa pun dengan NaN, jadi langkah ini tidak benar-benar diperlukan dalam kasus kami. Namun, secara umum sulit untuk menemukan baris seperti itu dalam database yang besar. Jadi selalu lebih aman menjalankan pernyataan di atas untuk membersihkan data.
Note - Anda dapat dengan mudah memeriksa ukuran data kapan saja dengan menggunakan pernyataan berikut -
IN [5]: print (df.shape)
(41188, 21)
Jumlah baris dan kolom akan dicetak pada keluaran seperti yang ditunjukkan pada baris kedua di atas.
Selanjutnya yang harus dilakukan adalah memeriksa kesesuaian setiap kolom dengan model yang coba kita bangun.