CNTK - Jaringan Neural Berulang
Sekarang, mari kita pahami cara membuat Jaringan Neural Berulang (RNN) di CNTK.
pengantar
Kami belajar cara mengklasifikasikan gambar dengan jaringan saraf, dan ini adalah salah satu pekerjaan ikonik dalam pembelajaran mendalam. Tapi, area lain di mana neural network unggul dan banyak penelitian terjadi adalah Recurrent Neural Networks (RNN). Di sini, kita akan mengetahui apa itu RNN dan bagaimana RNN dapat digunakan dalam skenario di mana kita perlu menangani data deret waktu.
Apa itu Jaringan Neural Berulang?
Jaringan saraf berulang (RNN) dapat didefinisikan sebagai jenis khusus NN yang mampu melakukan penalaran dari waktu ke waktu. RNN terutama digunakan dalam skenario, di mana kita perlu menangani nilai yang berubah dari waktu ke waktu, yaitu data deret waktu. Untuk memahaminya dengan cara yang lebih baik, mari kita bandingkan kecil antara jaringan saraf reguler dan jaringan saraf berulang -
Seperti yang kita ketahui bahwa, dalam jaringan neural biasa, kita hanya dapat memberikan satu masukan. Ini membatasi untuk menghasilkan hanya satu prediksi. Sebagai contoh, kami dapat melakukan pekerjaan menerjemahkan teks dengan menggunakan jaringan saraf biasa.
Di sisi lain, dalam jaringan neural berulang, kami dapat memberikan urutan sampel yang menghasilkan satu prediksi. Dengan kata lain, dengan menggunakan RNN kita dapat memprediksi urutan keluaran berdasarkan urutan masukan. Misalnya, ada beberapa eksperimen yang berhasil dengan RNN dalam tugas penerjemahan.
Penggunaan Jaringan Neural Berulang
RNN dapat digunakan dengan beberapa cara. Beberapa di antaranya adalah sebagai berikut -
Memprediksi satu keluaran
Sebelum mendalami langkah-langkahnya, bahwa bagaimana RNN dapat memprediksi output tunggal berdasarkan suatu urutan, mari kita lihat bagaimana RNN dasar terlihat−
Seperti yang kita bisa pada diagram di atas, RNN berisi koneksi loopback ke input dan kapan pun, kami memberi makan urutan nilai itu akan memproses setiap elemen dalam urutan sebagai langkah waktu.
Selain itu, karena koneksi loopback, RNN dapat menggabungkan output yang dihasilkan dengan input untuk elemen berikutnya dalam urutan tersebut. Dengan cara ini, RNN akan membangun memori di seluruh urutan yang dapat digunakan untuk membuat prediksi.
Untuk membuat prediksi dengan RNN, kita dapat melakukan langkah-langkah berikut-
Pertama, untuk membuat keadaan awal tersembunyi, kita perlu memberi makan elemen pertama dari urutan masukan.
Setelah itu, untuk menghasilkan hidden state yang diperbarui, kita perlu mengambil hidden state awal dan menggabungkannya dengan elemen kedua dalam urutan masukan.
Akhirnya, untuk menghasilkan keadaan tersembunyi terakhir dan memprediksi keluaran untuk RNN, kita perlu mengambil elemen terakhir dalam urutan masukan.
Dengan cara ini, dengan bantuan koneksi loopback ini, kami dapat mengajarkan RNN untuk mengenali pola yang terjadi seiring waktu.
Memprediksi urutan
Model dasar, yang dibahas di atas, dari RNN dapat diperluas ke kasus penggunaan lain juga. Misalnya, kita dapat menggunakannya untuk memprediksi urutan nilai berdasarkan input tunggal. Dalam skenario ini, untuk membuat prediksi dengan RNN kita dapat melakukan langkah-langkah berikut -
Pertama, untuk membuat keadaan awal tersembunyi dan memprediksi elemen pertama dalam urutan keluaran, kita perlu memasukkan sampel masukan ke dalam jaringan saraf.
Setelah itu, untuk menghasilkan keadaan tersembunyi yang diperbarui dan elemen kedua dalam urutan keluaran, kita perlu menggabungkan keadaan tersembunyi awal dengan sampel yang sama.
Terakhir, untuk memperbarui status tersembunyi sekali lagi dan memprediksi elemen akhir dalam urutan keluaran, kami memberi makan sampel di lain waktu.
Memprediksi urutan
Seperti yang telah kita lihat bagaimana memprediksi nilai tunggal berdasarkan urutan dan bagaimana memprediksi urutan berdasarkan nilai tunggal. Sekarang mari kita lihat bagaimana kita bisa memprediksi urutan urutan. Dalam skenario ini, untuk membuat prediksi dengan RNN kita dapat melakukan langkah-langkah berikut -
Pertama, untuk membuat keadaan awal tersembunyi dan memprediksi elemen pertama dalam urutan keluaran, kita perlu mengambil elemen pertama dalam urutan masukan.
Setelah itu, untuk memperbarui keadaan tersembunyi dan memprediksi elemen kedua dalam urutan keluaran, kita perlu mengambil keadaan awal tersembunyi.
Akhirnya, untuk memprediksi elemen terakhir dalam urutan keluaran, kita perlu mengambil status tersembunyi yang diperbarui dan elemen terakhir dalam urutan masukan.
Bekerja dari RNN
Untuk memahami cara kerja jaringan saraf berulang (RNN), pertama-tama kita perlu memahami cara kerja lapisan berulang dalam jaringan. Jadi pertama-tama mari kita bahas bagaimana e dapat memprediksi output dengan lapisan berulang standar.
Memprediksi keluaran dengan lapisan RNN standar
Seperti yang telah kita bahas sebelumnya, juga bahwa lapisan dasar di RNN sangat berbeda dari lapisan biasa di jaringan saraf. Pada bagian sebelumnya, kami juga mendemonstrasikan dalam diagram arsitektur dasar RNN. Untuk memperbarui keadaan tersembunyi untuk urutan langkah demi langkah pertama kali kita dapat menggunakan rumus berikut -
Dalam persamaan di atas, kami menghitung keadaan tersembunyi baru dengan menghitung perkalian titik antara keadaan tersembunyi awal dan satu set bobot.
Sekarang untuk langkah berikutnya, status tersembunyi untuk langkah waktu saat ini digunakan sebagai status awal tersembunyi untuk langkah waktu berikutnya dalam urutan. Itu sebabnya, untuk memperbarui keadaan tersembunyi untuk langkah kedua kalinya, kita dapat mengulangi perhitungan yang dilakukan pada langkah pertama kali sebagai berikut -
Selanjutnya, kita dapat mengulangi proses memperbarui keadaan tersembunyi untuk langkah ketiga dan terakhir secara berurutan seperti di bawah ini -
Dan ketika kita telah memproses semua langkah di atas secara berurutan, kita dapat menghitung hasilnya sebagai berikut -
Untuk rumus di atas, kami telah menggunakan set bobot ketiga dan status tersembunyi dari langkah waktu terakhir.
Unit Berulang Lanjutan
Masalah utama dengan lapisan berulang dasar adalah masalah gradien lenyap dan karena itu tidak begitu baik dalam mempelajari korelasi jangka panjang. Dengan kata sederhana, lapisan berulang dasar tidak menangani urutan panjang dengan baik. Itulah alasan beberapa jenis lapisan berulang lainnya yang jauh lebih cocok untuk bekerja dengan urutan yang lebih panjang adalah sebagai berikut -
Memori Jangka Panjang-Pendek (LSTM)
Jaringan memori jangka pendek (LSTM) diperkenalkan oleh Hochreiter & Schmidhuber. Ini memecahkan masalah mendapatkan lapisan berulang dasar untuk mengingat sesuatu untuk waktu yang lama. Arsitektur LSTM diberikan di atas dalam diagram. Seperti yang bisa kita lihat, ia memiliki neuron masukan, sel memori, dan neuron keluaran. Untuk mengatasi masalah gradien yang menghilang, jaringan memori jangka panjang menggunakan sel memori eksplisit (menyimpan nilai sebelumnya) dan gerbang berikut -
Forget gate- Seperti namanya, ini memberitahu sel memori untuk melupakan nilai sebelumnya. Sel memori menyimpan nilai-nilai sampai gerbang yaitu 'gerbang lupa' memberitahu untuk melupakannya.
Input gate- Seperti namanya, itu menambahkan barang baru ke sel.
Output gate- Seperti namanya, gerbang keluaran memutuskan kapan harus melewati vektor dari sel ke keadaan tersembunyi berikutnya.
Gated Recurrent Units (GRUs)
Gradient recurrent units(GRU) adalah variasi kecil dari jaringan LSTM. Ini memiliki satu gerbang lebih sedikit dan kabel sedikit berbeda dari LSTM. Arsitekturnya ditunjukkan pada diagram di atas. Ia memiliki neuron masukan, sel memori yang terjaga keamanannya, dan neuron keluaran. Jaringan Gated Recurrent Units memiliki dua gerbang berikut -
Update gate- Ini menentukan dua hal berikut-
Berapa banyak informasi yang harus disimpan dari keadaan terakhir?
Berapa banyak informasi yang harus dimasukkan dari lapisan sebelumnya?
Reset gate- Fungsionalitas reset gate sangat mirip dengan fungsi lupa gate dari jaringan LSTM. Satu-satunya perbedaan adalah lokasinya yang sedikit berbeda.
Berbeda dengan jaringan memori jangka panjang, jaringan Gated Recurrent Unit sedikit lebih cepat dan lebih mudah dijalankan.
Membuat struktur RNN
Sebelum kita dapat memulai, membuat prediksi tentang keluaran dari salah satu sumber data kita, pertama-tama kita perlu membuat RNN dan membuat RNN sama seperti yang kita lakukan pada jaringan neural biasa di bagian sebelumnya. Berikut adalah kode untuk membangun satu−
from cntk.losses import squared_error
from cntk.io import CTFDeserializer, MinibatchSource, INFINITELY_REPEAT, StreamDefs, StreamDef
from cntk.learners import adam
from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
BATCH_SIZE = 14 * 10
EPOCH_SIZE = 12434
EPOCHS = 10
Mempertaruhkan banyak lapisan
Kami juga dapat menumpuk beberapa lapisan berulang di CNTK. Sebagai contoh, kita dapat menggunakan kombinasi layer− berikut
from cntk import sequence, default_options, input_variable
from cntk.layers import Recurrence, LSTM, Dropout, Dense, Sequential, Fold
features = sequence.input_variable(1)
with default_options(initial_state = 0.1):
model = Sequential([
Fold(LSTM(15)),
Dense(1)
])(features)
target = input_variable(1, dynamic_axes=model.dynamic_axes)
Seperti yang dapat kita lihat pada kode di atas, kita memiliki dua cara berikut di mana kita dapat memodelkan RNN di CNTK -
Pertama, jika kita hanya menginginkan hasil akhir dari lapisan berulang, kita dapat menggunakan Fold lapisan dalam kombinasi dengan lapisan berulang, seperti GRU, LSTM, atau bahkan RNNStep.
Kedua, sebagai alternatif, kita juga bisa menggunakan file Recurrence blok.
Melatih RNN dengan data deret waktu
Setelah kita membangun model, mari kita lihat bagaimana kita bisa melatih RNN di CNTK -
from cntk import Function
@Function
def criterion_factory(z, t):
loss = squared_error(z, t)
metric = squared_error(z, t)
return loss, metric
loss = criterion_factory(model, target)
learner = adam(model.parameters, lr=0.005, momentum=0.9)
Sekarang untuk memuat data ke dalam proses pelatihan, kita harus melakukan deserialisasi urutan dari sekumpulan file CTF. Kode berikut memilikicreate_datasource function, yang merupakan fungsi utilitas yang berguna untuk membuat sumber data pelatihan dan pengujian.
target_stream = StreamDef(field='target', shape=1, is_sparse=False)
features_stream = StreamDef(field='features', shape=1, is_sparse=False)
deserializer = CTFDeserializer(filename, StreamDefs(features=features_stream, target=target_stream))
datasource = MinibatchSource(deserializer, randomize=True, max_sweeps=sweeps)
return datasource
train_datasource = create_datasource('Training data filename.ctf')#we need to provide the location of training file we created from our dataset.
test_datasource = create_datasource('Test filename.ctf', sweeps=1) #we need to provide the location of testing file we created from our dataset.
Sekarang, karena kita telah menyiapkan sumber data, model, dan fungsi kerugian, kita dapat memulai proses pelatihan. Ini sangat mirip seperti yang kita lakukan di bagian sebelumnya dengan jaringan saraf dasar.
progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
features: train_datasource.streams.features,
target: train_datasource.streams.target
}
history = loss.train(
train_datasource,
epoch_size=EPOCH_SIZE,
parameter_learners=[learner],
model_inputs_to_streams=input_map,
callbacks=[progress_writer, test_config],
minibatch_size=BATCH_SIZE,
max_epochs=EPOCHS
)
Kami akan mendapatkan hasil yang serupa sebagai berikut -
Keluaran-
average since average since examples
loss last metric last
------------------------------------------------------
Learning rate per minibatch: 0.005
0.4 0.4 0.4 0.4 19
0.4 0.4 0.4 0.4 59
0.452 0.495 0.452 0.495 129
[…]
Memvalidasi model
Sebenarnya melakukan rediksi dengan RNN sangat mirip dengan membuat prediksi dengan model CNK lainnya. Satu-satunya perbedaan adalah, kita perlu memberikan urutan daripada sampel tunggal.
Sekarang, karena RNN kita akhirnya selesai dengan pelatihan, kita dapat memvalidasi model dengan mengujinya menggunakan beberapa urutan sampel sebagai berikut -
import pickle
with open('test_samples.pkl', 'rb') as test_file:
test_samples = pickle.load(test_file)
model(test_samples) * NORMALIZE
Keluaran-
array([[ 8081.7905],
[16597.693 ],
[13335.17 ],
...,
[11275.804 ],
[15621.697 ],
[16875.555 ]], dtype=float32)