Python'da Lojistik Regresyon - Verileri Bölme

Yaklaşık kırk bin tuhaf kaydımız var. Tüm verileri model oluşturmak için kullanırsak, test için herhangi bir veri bırakılmayacaktır. Genel olarak, tüm veri setini iki kısma, örneğin yüzde 70/30 olarak ayırırız. Verilerin% 70'ini model oluşturmak için, geri kalanını ise oluşturduğumuz modelin tahminindeki doğruluğunu test etmek için kullanıyoruz. İhtiyacınıza göre farklı bir bölme oranı kullanabilirsiniz.

Özellikler Dizisi Oluşturma

Verileri bölmeden önce, verileri X ve Y olmak üzere iki diziye ayırırız. X dizisi, analiz etmek istediğimiz tüm özellikleri (veri sütunları) içerir ve Y dizisi, tek boyutlu bir boole değerleri dizisidir. Tahmini. Bunu anlamak için biraz kod çalıştıralım.

İlk olarak, X dizisini oluşturmak için aşağıdaki Python ifadesini yürütün -

In [17]: X = data.iloc[:,1:]

İçeriğini incelemek için X kullanım headbirkaç ilk kaydı yazdırmak için. Aşağıdaki ekran X dizisinin içeriğini göstermektedir.

In [18]: X.head ()

Dizinin birkaç satırı ve 23 sütunu vardır.

Daha sonra, "y”Değerleri.

Çıktı Dizisi Oluşturma

Öngörülen değer sütunu için bir dizi oluşturmak için aşağıdaki Python ifadesini kullanın -

In [19]: Y = data.iloc[:,0]

İçeriğini arayarak inceleyin head. Aşağıdaki ekran çıktısı sonucu gösterir -

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

Şimdi, aşağıdaki komutu kullanarak verileri bölün -

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

Bu, adı verilen dört diziyi oluşturacaktır. X_train, Y_train, X_test, and Y_test. Daha önce olduğu gibi bu dizilerin içeriklerini head komutunu kullanarak inceleyebilirsiniz. Modelimizi eğitmek için X_train ve Y_train dizilerini ve test etmek ve doğrulamak için X_test ve Y_test dizilerini kullanacağız.

Artık sınıflandırıcımızı oluşturmaya hazırız. Bir sonraki bölümde buna bakacağız.