Python'da Lojistik Regresyon - Veri Hazırlama

Sınıflandırıcıyı oluşturmak için, verileri sınıflandırıcı yapı modülü tarafından istenen bir formatta hazırlamalıyız. Verileri yaparak hazırlıyoruzOne Hot Encoding.

Kodlama Verileri

Verileri kodlayarak ne demek istediğimizi kısaca tartışacağız. Önce kodu çalıştıralım. Kod penceresinde aşağıdaki komutu çalıştırın.

In [10]: # creating one hot encoding of the categorical columns.
data = pd.get_dummies(df, columns =['job', 'marital', 'default', 'housing', 'loan', 'poutcome'])

Yorumun dediği gibi, yukarıdaki ifade, verilerin tek sıcak kodlamasını oluşturacaktır. Bakalım ne yarattı? Adlı oluşturulan verileri inceleyin“data” veri tabanındaki kafa kayıtlarını yazdırarak.

In [11]: data.head()

Aşağıdaki çıktıyı göreceksiniz -

Yukarıdaki verileri anlamak için, sütun adlarını çalıştırarak listeleyeceğiz. data.columns komut aşağıda gösterildiği gibi -

In [12]: data.columns
Out[12]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur',
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed', 
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'job_unknown', 'marital_divorced', 'marital_married', 'marital_single', 
'marital_unknown', 'default_no', 'default_unknown', 'default_yes', 
'housing_no', 'housing_unknown', 'housing_yes', 'loan_no',
'loan_unknown', 'loan_yes', 'poutcome_failure', 'poutcome_nonexistent', 
'poutcome_success'], dtype='object')

Şimdi, sıcak kodlamanın nasıl yapıldığını açıklayacağız. get_dummieskomut. Yeni oluşturulan veritabanındaki ilk sütun, bu müşterinin bir TD'ye abone olup olmadığını gösteren "y" alanıdır. Şimdi kodlanmış sütunlara bakalım. İlk kodlanmış sütun“job”. Veritabanında, "iş" sütununun "yönetici", "mavi yakalı", "girişimci" gibi birçok olası değeri olduğunu göreceksiniz. Olası her değer için, veritabanında sütun adı önek olarak eklenen yeni bir sütun oluşturduk.

Bu nedenle, "job_admin", "job_blue-collar" vb. Adlı sütunlarımız var. Orijinal veritabanımızdaki her kodlanmış alan için, oluşturulan veritabanına eklenen sütunların bir listesini, sütunun orijinal veritabanında aldığı tüm olası değerleri bulacaksınız. Verilerin yeni bir veritabanına nasıl eşlendiğini anlamak için sütun listesini dikkatlice inceleyin.

Veri Eşlemeyi Anlama

Üretilen verileri anlamak için, data komutunu kullanarak tüm verileri yazdıralım. Komutu çalıştırdıktan sonraki kısmi çıktı aşağıda gösterilmiştir.

In [13]: data

Yukarıdaki ekran ilk on iki satırı gösterir. Daha aşağı kaydırırsanız, eşlemenin tüm satırlar için yapıldığını görürsünüz.

Hızlı başvuru için veri tabanının daha aşağısında kısmi bir ekran çıktısı burada gösterilmektedir.

Haritalanan verileri anlamak için ilk satırı inceleyelim.

Bu müşterinin "y" alanındaki değerle gösterildiği gibi TD'ye abone olmadığını söylüyor. Bu müşterinin “mavi yakalı” bir müşteri olduğunu da gösterir. Yatay olarak aşağı kaydırıldığında, size bir “konut” sahibi olduğunu ve “kredi” almadığını söyleyecektir.

Bu sıcak kodlamadan sonra, modelimizi oluşturmaya başlamadan önce biraz daha fazla veri işlemeye ihtiyacımız var.

"Bilinmeyeni" düşürmek

Haritalanmış veritabanındaki sütunları incelersek, "bilinmeyen" ile biten birkaç sütunun varlığını göreceksiniz. Örneğin, ekran görüntüsünde gösterilen aşağıdaki komutla dizin 12'deki sütunu inceleyin -

In [14]: data.columns[12]
Out[14]: 'job_unknown'

Bu, belirtilen müşteri için işin bilinmediğini gösterir. Açıkçası, bu tür sütunları analiz ve model oluşturmamıza dahil etmenin bir anlamı yok. Bu nedenle, "bilinmeyen" değere sahip tüm sütunlar kaldırılmalıdır. Bu, aşağıdaki komutla yapılır -

In [15]: data.drop(data.columns[[12, 16, 18, 21, 24]], axis=1, inplace=True)

Doğru sütun numaralarını belirttiğinizden emin olun. Şüphe durumunda, sütun adını daha önce açıklandığı gibi sütunlar komutunda indeksini belirterek istediğiniz zaman inceleyebilirsiniz.

İstenmeyen sütunları bıraktıktan sonra, aşağıdaki çıktıda gösterildiği gibi son sütun listesini inceleyebilirsiniz -

In [16]: data.columns
Out[16]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur', 
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed', 
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'marital_divorced', 'marital_married', 'marital_single', 'default_no', 
'default_yes', 'housing_no', 'housing_yes', 'loan_no', 'loan_yes',
'poutcome_failure', 'poutcome_nonexistent', 'poutcome_success'], 
dtype='object')

Bu noktada verilerimiz model oluşturmaya hazırdır.