Regresi Logistik dengan Python - Restrukturisasi Data

Setiap kali organisasi melakukan survei, mereka mencoba mengumpulkan informasi sebanyak mungkin dari pelanggan, dengan gagasan bahwa informasi ini akan berguna bagi organisasi dengan satu atau lain cara, di lain waktu. Untuk mengatasi masalah saat ini, kita harus mengambil informasi yang secara langsung relevan dengan masalah kita.

Menampilkan Semua Bidang

Sekarang, mari kita lihat bagaimana memilih bidang data yang berguna bagi kita. Jalankan pernyataan berikut di editor kode.

In [6]: print(list(df.columns))

Anda akan melihat output berikut -

['age', 'job', 'marital', 'education', 'default', 'housing', 'loan', 
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays', 
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx', 
'euribor3m', 'nr_employed', 'y']

Outputnya menunjukkan nama semua kolom dalam database. Kolom terakhir "y" adalah nilai Boolean yang menunjukkan apakah pelanggan ini memiliki deposito berjangka di bank. Nilai bidang ini adalah "y" atau "n". Anda dapat membaca deskripsi dan tujuan setiap kolom pada file bank-name.txt yang telah diunduh sebagai bagian dari data.

Menghilangkan Bidang yang Tidak Diinginkan

Memeriksa nama kolom, Anda akan tahu bahwa beberapa kolom tidak memiliki arti penting untuk masalah yang dihadapi. Misalnya, bidang sepertimonth, day_of_week, kampanye, dll. tidak berguna bagi kami. Kami akan menghilangkan bidang ini dari database kami. Untuk menjatuhkan kolom, kami menggunakan perintah drop seperti yang ditunjukkan di bawah ini -

In [8]: #drop columns which are not needed.
   df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]], 
   axis = 1, inplace = True)

Perintah tersebut mengatakan bahwa kolom drop nomor 0, 3, 7, 8, dan seterusnya. Untuk memastikan bahwa indeks dipilih dengan benar, gunakan pernyataan berikut -

In [7]: df.columns[9]
Out[7]: 'day_of_week'

Ini mencetak nama kolom untuk indeks yang diberikan.

Setelah menjatuhkan kolom yang tidak diperlukan, periksa data dengan pernyataan kepala. Output layar ditampilkan di sini -

In [9]: df.head()
Out[9]:
      job   marital  default  housing  loan  poutcome    y
0     blue-collar    married  unknown yes no nonexistent 0
1     technician     married  no    no    no nonexistent 0
2     management     single   no    yes   no success     1
3     services       married  no    no    no nonexistent 0
4     retired        married  no    yes   no success     1

Sekarang, kami hanya memiliki bidang yang kami rasa penting untuk analisis dan prediksi data kami. PentingnyaData Scientistmulai terlihat pada langkah ini. Ilmuwan data harus memilih kolom yang sesuai untuk pembuatan model.

Misalnya, tipe jobmeskipun pada pandangan pertama mungkin tidak meyakinkan semua orang untuk dimasukkan ke dalam database, ini akan menjadi bidang yang sangat berguna. Tidak semua tipe pelanggan akan membuka TD. Orang berpenghasilan rendah mungkin tidak membuka TD, sedangkan orang berpenghasilan tinggi biasanya akan memarkir kelebihan uang mereka di TD. Jadi jenis pekerjaan menjadi sangat relevan dalam skenario ini. Demikian juga, pilihlah kolom dengan cermat yang menurut Anda akan relevan untuk analisis Anda.

Pada bab berikutnya, kami akan menyiapkan data kami untuk membangun model.