Deep Learning dengan Keras - Mempersiapkan Data
Sebelum kami memasukkan data ke jaringan kami, itu harus diubah ke dalam format yang dibutuhkan oleh jaringan. Ini disebut menyiapkan data untuk jaringan. Ini umumnya terdiri dari mengubah input multi-dimensi menjadi vektor satu dimensi dan menormalkan titik data.
Pembentukan Ulang Vektor Input
Gambar dalam dataset kami terdiri dari 28 x 28 piksel. Ini harus diubah menjadi vektor berdimensi tunggal dengan ukuran 28 * 28 = 784 untuk dimasukkan ke dalam jaringan kita. Kami melakukannya dengan memanggilreshape metode pada vektor.
X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
Sekarang, vektor pelatihan kita akan terdiri dari 60.000 titik data, masing-masing terdiri dari vektor berdimensi tunggal berukuran 784. Demikian pula, vektor uji kita akan terdiri dari 10.000 titik data vektor berdimensi tunggal berukuran 784.
Normalisasi Data
Data yang berisi vektor input saat ini memiliki nilai diskrit antara 0 dan 255 - level skala abu-abu. Menormalkan nilai piksel ini antara 0 dan 1 membantu mempercepat pelatihan. Karena kita akan menggunakan penurunan gradien stokastik, menormalkan data juga akan membantu mengurangi kemungkinan macet di optima lokal.
Untuk menormalkan data, kami merepresentasikannya sebagai tipe float dan membaginya dengan 255 seperti yang ditunjukkan pada potongan kode berikut -
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_test /= 255
Sekarang mari kita lihat bagaimana tampilan data yang dinormalisasi.
Memeriksa Data Normalisasi
Untuk melihat data yang dinormalisasi, kami akan memanggil fungsi histogram seperti yang ditunjukkan di sini -
plot.hist(X_train[0])
plot.title("Digit: {}".format(y_train[0]))
Di sini, kami memplot histogram dari elemen pertama X_trainvektor. Kami juga mencetak digit yang diwakili oleh titik data ini. Output dari menjalankan kode di atas ditampilkan di sini -
Anda akan melihat kepadatan titik-titik yang memiliki nilai mendekati nol. Ini adalah titik titik hitam pada gambar, yang jelas merupakan bagian utama gambar. Titik skala abu-abu lainnya, yang mendekati warna putih, mewakili digit. Anda dapat memeriksa distribusi piksel untuk digit lain. Kode di bawah ini mencetak histogram digit pada indeks 2 dalam dataset pelatihan.
plot.hist(X_train[2])
plot.title("Digit: {}".format(y_train[2])
Output dari menjalankan kode di atas ditunjukkan di bawah ini -
Dengan membandingkan dua gambar di atas, Anda akan melihat bahwa distribusi piksel putih dalam dua gambar berbeda yang menunjukkan representasi digit yang berbeda - "5" dan "4" pada dua gambar di atas.
Selanjutnya, kami akan memeriksa distribusi data dalam kumpulan data pelatihan lengkap kami.
Memeriksa Distribusi Data
Sebelum kami melatih model pembelajaran mesin kami pada kumpulan data kami, kami harus mengetahui distribusi angka unik dalam kumpulan data kami. Gambar kami mewakili 10 digit berbeda mulai dari 0 hingga 9. Kami ingin mengetahui jumlah digit 0, 1, dll., Dalam dataset kami. Kami bisa mendapatkan informasi ini dengan menggunakanunique metode Numpy.
Gunakan perintah berikut untuk mencetak jumlah nilai unik dan jumlah kemunculan masing-masing
print(np.unique(y_train, return_counts=True))
Saat Anda menjalankan perintah di atas, Anda akan melihat output berikut -
(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint8), array([5923, 6742, 5958, 6131, 5842, 5421, 5918, 6265, 5851, 5949]))
Ini menunjukkan bahwa ada 10 nilai yang berbeda - 0 sampai 9. Ada 5923 kemunculan digit 0, 6742 kemunculan digit 1, dan seterusnya. Tangkapan layar keluaran ditampilkan di sini -
Sebagai langkah terakhir dalam persiapan data, kita perlu menyandikan data kita.
Pengkodean Data
Kami memiliki sepuluh kategori dalam kumpulan data kami. Dengan demikian, kami akan menyandikan keluaran kami dalam sepuluh kategori ini menggunakan penyandian satu hot. Kami menggunakan metode to_categorial dari utilitas Numpy untuk melakukan pengkodean. Setelah data keluaran dikodekan, setiap titik data akan diubah menjadi vektor berdimensi tunggal berukuran 10. Sebagai contoh, digit 5 sekarang akan direpresentasikan sebagai [0,0,0,0,0,1,0,0,0 , 0].
Encode data menggunakan potongan kode berikut -
n_classes = 10
Y_train = np_utils.to_categorical(y_train, n_classes)
Anda dapat memeriksa hasil encoding dengan mencetak 5 elemen pertama dari vektor Y_train yang dikategorikan.
Gunakan kode berikut untuk mencetak 5 vektor pertama -
for i in range(5):
print (Y_train[i])
Anda akan melihat output berikut -
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
[0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
Elemen pertama mewakili angka 5, elemen kedua mewakili angka 0, dan seterusnya.
Terakhir, Anda juga harus mengkategorikan data pengujian, yang dilakukan menggunakan pernyataan berikut -
Y_test = np_utils.to_categorical(y_test, n_classes)
Pada tahap ini, data Anda sepenuhnya siap untuk dimasukkan ke dalam jaringan.
Selanjutnya, datanglah bagian terpenting dan itu adalah melatih model jaringan kita.