Regresi Logistik dengan Python - Restrukturisasi Data
Setiap kali organisasi melakukan survei, mereka mencoba mengumpulkan informasi sebanyak mungkin dari pelanggan, dengan gagasan bahwa informasi ini akan berguna bagi organisasi dengan satu atau lain cara, di lain waktu. Untuk mengatasi masalah saat ini, kita harus mengambil informasi yang secara langsung relevan dengan masalah kita.
Menampilkan Semua Bidang
Sekarang, mari kita lihat bagaimana memilih bidang data yang berguna bagi kita. Jalankan pernyataan berikut di editor kode.
In [6]: print(list(df.columns))
Anda akan melihat output berikut -
['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx',
'euribor3m', 'nr_employed', 'y']
Outputnya menunjukkan nama semua kolom dalam database. Kolom terakhir "y" adalah nilai Boolean yang menunjukkan apakah pelanggan ini memiliki deposito berjangka di bank. Nilai bidang ini adalah "y" atau "n". Anda dapat membaca deskripsi dan tujuan setiap kolom pada file bank-name.txt yang telah diunduh sebagai bagian dari data.
Menghilangkan Bidang yang Tidak Diinginkan
Memeriksa nama kolom, Anda akan tahu bahwa beberapa kolom tidak memiliki arti penting untuk masalah yang dihadapi. Misalnya, bidang sepertimonth, day_of_week, kampanye, dll. tidak berguna bagi kami. Kami akan menghilangkan bidang ini dari database kami. Untuk menjatuhkan kolom, kami menggunakan perintah drop seperti yang ditunjukkan di bawah ini -
In [8]: #drop columns which are not needed.
df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]],
axis = 1, inplace = True)
Perintah tersebut mengatakan bahwa kolom drop nomor 0, 3, 7, 8, dan seterusnya. Untuk memastikan bahwa indeks dipilih dengan benar, gunakan pernyataan berikut -
In [7]: df.columns[9]
Out[7]: 'day_of_week'
Ini mencetak nama kolom untuk indeks yang diberikan.
Setelah menjatuhkan kolom yang tidak diperlukan, periksa data dengan pernyataan kepala. Output layar ditampilkan di sini -
In [9]: df.head()
Out[9]:
job marital default housing loan poutcome y
0 blue-collar married unknown yes no nonexistent 0
1 technician married no no no nonexistent 0
2 management single no yes no success 1
3 services married no no no nonexistent 0
4 retired married no yes no success 1
Sekarang, kami hanya memiliki bidang yang kami rasa penting untuk analisis dan prediksi data kami. PentingnyaData Scientistmulai terlihat pada langkah ini. Ilmuwan data harus memilih kolom yang sesuai untuk pembuatan model.
Misalnya, tipe jobmeskipun pada pandangan pertama mungkin tidak meyakinkan semua orang untuk dimasukkan ke dalam database, ini akan menjadi bidang yang sangat berguna. Tidak semua tipe pelanggan akan membuka TD. Orang berpenghasilan rendah mungkin tidak membuka TD, sedangkan orang berpenghasilan tinggi biasanya akan memarkir kelebihan uang mereka di TD. Jadi jenis pekerjaan menjadi sangat relevan dalam skenario ini. Demikian juga, pilihlah kolom dengan cermat yang menurut Anda akan relevan untuk analisis Anda.
Pada bab berikutnya, kami akan menyiapkan data kami untuk membangun model.