Python'da Lojistik Regresyon - Veri Alma

Python'da lojistik regresyon gerçekleştirmek için veri elde etmenin adımları bu bölümde ayrıntılı olarak tartışılmaktadır.

Veri Kümesini İndirme

Daha önce bahsedilen UCI veri setini henüz indirmediyseniz, şimdi buradan indirin . Veri Klasörüne tıklayın. Aşağıdaki ekranı göreceksiniz -

Verilen bağlantıya tıklayarak bank.zip dosyasını indirin. Zip dosyası aşağıdaki dosyaları içerir -

Model geliştirmemiz için bank.csv dosyasını kullanacağız. Banka-adları.txt dosyası, daha sonra ihtiyaç duyacağınız veritabanının açıklamasını içerir. Bank-full.csv, daha gelişmiş geliştirmeler için kullanabileceğiniz çok daha büyük bir veri kümesi içerir.

Burada bank.csv dosyasını indirilebilir kaynak zip dosyasına ekledik. Bu dosya virgülle ayrılmış alanları içerir. Dosyada da birkaç değişiklik yaptık. Öğrenmek için proje kaynak zipinde bulunan dosyayı kullanmanız önerilir.

Veri yükleniyor

Az önce kopyaladığınız csv dosyasından verileri yüklemek için aşağıdaki ifadeyi yazın ve kodu çalıştırın.

In [2]: df = pd.read_csv('bank.csv', header=0)

Aşağıdaki kod ifadesini çalıştırarak da yüklenen verileri inceleyebileceksiniz -

IN [3]: df.head()

Komut çalıştırıldığında, aşağıdaki çıktıyı göreceksiniz -

Temel olarak, yüklenen verilerin ilk beş satırını yazdırdı. Mevcut 21 sütunu inceleyin. Model geliştirmemiz için bunlardan sadece birkaç sütun kullanacağız.

Sonra, verileri temizlememiz gerekiyor. Veriler, aşağıdaki satırları içerebilir:NaN. Bu tür satırları ortadan kaldırmak için aşağıdaki komutu kullanın -

IN [4]: df = df.dropna()

Neyse ki, bank.csv NaN içeren herhangi bir satır içermiyor, bu nedenle bu adım bizim durumumuzda gerçekten gerekli değil. Bununla birlikte, genel olarak bu tür satırları büyük bir veritabanında keşfetmek zordur. Bu nedenle, verileri temizlemek için yukarıdaki ifadeyi çalıştırmak her zaman daha güvenlidir.

Note - Aşağıdaki ifadeyi kullanarak veri boyutunu istediğiniz zaman kolayca inceleyebilirsiniz -

IN [5]: print (df.shape)
(41188, 21)

Yukarıdaki ikinci satırda gösterildiği gibi çıktıda satır ve sütun sayısı yazdırılacaktır.

Bundan sonra yapılacak şey, her bir sütunun oluşturmaya çalıştığımız model için uygunluğunu incelemektir.