Python'da Lojistik Regresyon - Verileri Yeniden Yapılandırma
Herhangi bir kuruluş bir anket yaptığında, bu bilginin kuruluş için şu ya da bu şekilde daha sonraki bir noktada yararlı olacağı düşüncesiyle müşteriden olabildiğince fazla bilgi toplamaya çalışırlar. Mevcut sorunu çözmek için, sorunumuzla doğrudan ilgili olan bilgileri almalıyız.
Tüm Alanları Görüntüleme
Şimdi, bizim için yararlı olan veri alanlarını nasıl seçeceğimize bakalım. Kod düzenleyicide aşağıdaki ifadeyi çalıştırın.
In [6]: print(list(df.columns))
Aşağıdaki çıktıyı göreceksiniz -
['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx',
'euribor3m', 'nr_employed', 'y']
Çıktı, veritabanındaki tüm sütunların adlarını gösterir. Son sütun "y", bu müşterinin bankada vadeli mevduatı olup olmadığını gösteren bir Boole değeridir. Bu alanın değerleri "y" veya "n" dir. Verilerin bir parçası olarak indirilen bankalar-adı.txt dosyasındaki her bir sütunun açıklamasını ve amacını okuyabilirsiniz.
İstenmeyen Alanların Ortadan Kaldırılması
Sütun adlarını inceleyerek, bazı alanların eldeki sorun için hiçbir önemi olmadığını anlayacaksınız. Örneğin, gibi alanlarmonth, day_of_weekkampanya vb. bizim işimize yaramaz. Bu alanları veritabanımızdan kaldıracağız. Bir sütun bırakmak için aşağıda gösterildiği gibi drop komutunu kullanıyoruz -
In [8]: #drop columns which are not needed.
df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]],
axis = 1, inplace = True)
Komut, sütun numarası 0, 3, 7, 8 vb. Bıraktığını söylüyor. Dizinin doğru seçildiğinden emin olmak için aşağıdaki ifadeyi kullanın -
In [7]: df.columns[9]
Out[7]: 'day_of_week'
Bu, verilen dizin için sütun adını yazdırır.
Gerekli olmayan sütunları bıraktıktan sonra veriyi head ifadesiyle inceleyin. Ekran çıktısı burada gösterilmektedir -
In [9]: df.head()
Out[9]:
job marital default housing loan poutcome y
0 blue-collar married unknown yes no nonexistent 0
1 technician married no no no nonexistent 0
2 management single no yes no success 1
3 services married no no no nonexistent 0
4 retired married no yes no success 1
Artık sadece veri analizimiz ve tahminimiz için önemli olduğunu düşündüğümüz alanlara sahibiz. ÖnemiData Scientistbu adımda resme geliyor. Veri bilimcisi, model oluşturma için uygun sütunları seçmelidir.
Örneğin, türü jobilk bakışta herkesi veritabanına dahil etmeye ikna etmeyebilir ancak çok faydalı bir alan olacaktır. Tüm müşteri türleri TD'yi açmayacaktır. Düşük gelirli kişiler tank avcılarını açmayabilirken, yüksek gelirli kişiler genellikle fazla paralarını tank avcılarına park edeceklerdir. Dolayısıyla, bu senaryoda iş türü önemli ölçüde alakalı hale gelir. Aynı şekilde, analizinizle alakalı olacağını düşündüğünüz sütunları dikkatlice seçin.
Bir sonraki bölümde, modeli oluşturmak için verilerimizi hazırlayacağız.