CNTK - Bellek İçi ve Büyük Veri Kümeleri

Bu bölümde, bellek içi ve CNTK'daki büyük veri kümeleri ile nasıl çalışılacağını öğreneceğiz.

Küçük bellek içi veri kümeleriyle eğitim

Verileri CNTK eğiticisine beslemekten bahsettiğimizde, birçok yol olabilir, ancak bu, veri kümesinin boyutuna ve verilerin biçimine bağlı olacaktır. Veri kümeleri küçük bellek içi veya büyük veri kümeleri olabilir.

Bu bölümde, bellek içi veri kümeleri ile çalışacağız. Bunun için aşağıdaki iki çerçeveyi kullanacağız -

  • Numpy
  • Pandas

Numpy dizilerini kullanma

Burada CNTK'da numpy tabanlı rastgele oluşturulmuş bir veri seti ile çalışacağız. Bu örnekte, ikili sınıflandırma problemi için verileri simüle edeceğiz. Diyelim ki 4 özelliğe sahip bir dizi gözlemimiz var ve derin öğrenme modelimizle iki olası etiketi tahmin etmek istiyoruz.

Uygulama Örneği

Bunun için, önce tahmin etmek istediğimiz etiketlerin bir sıcak vektör temsilini içeren bir etiket kümesi oluşturmalıyız. Aşağıdaki adımların yardımı ile yapılabilir -

Step 1 - İçe aktar numpy aşağıdaki gibi paket -

import numpy as np
num_samples = 20000

Step 2 - Ardından, kullanarak bir etiket eşlemesi oluşturun np.eye aşağıdaki gibi işlev -

label_mapping = np.eye(2)

Step 3 - Şimdi kullanarak np.random.choice 20000 rastgele örneği aşağıdaki gibi toplayın -

y = label_mapping[np.random.choice(2,num_samples)].astype(np.float32)

Step 4 - Şimdi sonunda np.random.random işlevini kullanarak, aşağıdaki gibi rastgele kayan nokta değerleri dizisi oluşturun -

x = np.random.random(size=(num_samples, 4)).astype(np.float32)

Bir kez rastgele kayan nokta değerleri dizisi oluşturduğumuzda, bunları 32 bitlik kayan noktalı sayılara dönüştürmemiz gerekir, böylece CNTK tarafından beklenen formatla eşleştirilebilir. Bunu yapmak için aşağıdaki adımları takip edelim -

Step 5 - Yoğun ve Sıralı katman işlevlerini cntk.layers modülünden aşağıdaki gibi içe aktarın -

from cntk.layers import Dense, Sequential

Step 6- Şimdi, ağdaki katmanlar için aktivasyon fonksiyonunu içe aktarmamız gerekiyor. İthal edelimsigmoid aktivasyon fonksiyonu olarak -

from cntk import input_variable, default_options
from cntk.ops import sigmoid

Step 7- Şimdi, ağı eğitmek için kayıp işlevini içe aktarmamız gerekiyor. İthal edelimbinary_cross_entropy kayıp fonksiyonu olarak -

from cntk.losses import binary_cross_entropy

Step 8- Sonra, ağ için varsayılan seçenekleri tanımlamamız gerekiyor. Burada,sigmoidvarsayılan ayar olarak etkinleştirme işlevi. Ayrıca, Sıralı katman işlevini kullanarak modeli aşağıdaki gibi oluşturun -

with default_options(activation=sigmoid):
model = Sequential([Dense(6),Dense(2)])

Step 9 - Sonra, bir input_variable ağ için giriş görevi gören 4 giriş özelliği ile.

features = input_variable(4)

Step 10 - Şimdi, tamamlamak için, değişkenleri NN'ye bağlamamız gerekiyor.

z = model(features)

Şimdi, aşağıdaki adımların yardımıyla bir NN'miz var, onu bellek içi veri kümesini kullanarak eğitelim -

Step 11 - Bu NN'yi eğitmek için önce öğrenciyi cntk.learnersmodül. İthal edeceğizsgd öğrenci aşağıdaki gibidir -

from cntk.learners import sgd

Step 12 - Bununla birlikte ithalat ProgressPrinter itibaren cntk.logging modül de.

from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)

Step 13 - Ardından, etiketler için aşağıdaki gibi yeni bir giriş değişkeni tanımlayın -

labels = input_variable(2)

Step 14 - NN modelini eğitmek için, daha sonra, bir kayıp tanımlamamız gerekir. binary_cross_entropyişlevi. Ayrıca, model z ve etiket değişkenini de sağlayın.

loss = binary_cross_entropy(z, labels)

Step 15 - Ardından, sgd öğrenci aşağıdaki gibidir -

learner = sgd(z.parameters, lr=0.1)

Step 16- Sonunda, kayıp işlevinde tren yöntemini çağırın. Ayrıca, ona giriş verilerini sağlayın,sgd öğrenci ve progress_printer.−

training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=[progress_writer])

Eksiksiz uygulama örneği

import numpy as np
num_samples = 20000
label_mapping = np.eye(2)
y = label_mapping[np.random.choice(2,num_samples)].astype(np.float32)
x = np.random.random(size=(num_samples, 4)).astype(np.float32)
from cntk.layers import Dense, Sequential
from cntk import input_variable, default_options
from cntk.ops import sigmoid
from cntk.losses import binary_cross_entropy
with default_options(activation=sigmoid):
   model = Sequential([Dense(6),Dense(2)])
features = input_variable(4)
z = model(features)
from cntk.learners import sgd
from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)
labels = input_variable(2)
loss = binary_cross_entropy(z, labels)
learner = sgd(z.parameters, lr=0.1)
training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=[progress_writer])

Çıktı

Build info:
     Built time: *** ** **** 21:40:10
     Last modified date: *** *** ** 21:08:46 2019
     Build type: Release
     Build target: CPU-only
     With ASGD: yes
     Math lib: mkl
     Build Branch: HEAD
     Build SHA1:ae9c9c7c5f9e6072cc9c94c254f816dbdc1c5be6 (modified)
     MPI distribution: Microsoft MPI
     MPI version: 7.0.12437.6
-------------------------------------------------------------------
average   since   average   since examples
loss      last    metric    last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.52      1.52      0         0     32
1.51      1.51      0         0     96
1.48      1.46      0         0    224
1.45      1.42      0         0    480
1.42       1.4      0         0    992
1.41      1.39      0         0   2016
1.4       1.39      0         0   4064
1.39      1.39      0         0   8160
1.39      1.39      0         0  16352

Pandas DataFrame'lerini Kullanma

Numpy dizileri içerebilecekleri konusunda çok sınırlıdır ve veri depolamanın en temel yollarından biridir. Örneğin, tek bir n boyutlu dizi, tek bir veri türünün verilerini içerebilir. Ancak diğer yandan, gerçek dünyadaki birçok durum için, tek bir veri kümesinde birden fazla veri türünü işleyebilen bir kitaplığa ihtiyacımız var.

Pandas adlı Python kitaplıklarından biri, bu tür veri kümeleriyle çalışmayı kolaylaştırır. DataFrame (DF) kavramını tanıtır ve DF'ler olarak çeşitli formatlarda depolanan diskten veri kümelerini yüklememize izin verir. Örneğin CSV, JSON, Excel vb. Olarak saklanan DF'leri okuyabiliriz.

Python Pandas kütüphanesini daha detaylı olarak şu adresten öğrenebilirsiniz: https://www.tutorialspoint.com/python_pandas/index.htm.

Uygulama Örneği

Bu örnekte, iris çiçeklerinin olası üç türünü dört özelliğe dayalı olarak sınıflandırma örneğini kullanacağız. Bu derin öğrenme modelini önceki bölümlerde de oluşturduk. Model aşağıdaki gibidir -

from cntk.layers import Dense, Sequential
from cntk import input_variable, default_options
from cntk.ops import sigmoid, log_softmax
from cntk.losses import binary_cross_entropy
model = Sequential([
Dense(4, activation=sigmoid),
Dense(3, activation=log_softmax)
])
features = input_variable(4)
z = model(features)

Yukarıdaki model, tahmin edebileceğimiz sınıfların sayısını eşleştirmek için bir gizli katman ve üç nöronlu bir çıktı katmanı içerir.

Sonra, kullanacağız train yöntem ve lossağı eğitme işlevi. Bunun için, önce iris veri setini yüklemeli ve önceden işlemeliyiz, böylece NN için beklenen düzen ve veri biçimiyle eşleşir. Aşağıdaki adımların yardımı ile yapılabilir -

Step 1 - İçe aktar numpy ve Pandas aşağıdaki gibi paket -

import numpy as np
import pandas as pd

Step 2 - Ardından, read_csv veri kümesini belleğe yükleme işlevi -

df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’,
 ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)

Step 3 - Şimdi, veri kümesindeki etiketleri karşılık gelen sayısal temsilleriyle eşleştirecek bir sözlük oluşturmamız gerekiyor.

label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}

Step 4 - Şimdi, kullanarak iloc dizin oluşturucu DataFrame, ilk dört sütunu aşağıdaki gibi seçin -

x = df_source.iloc[:, :4].values

Step 5− Ardından, veri kümesi için etiketler olarak tür sütunlarını seçmemiz gerekiyor. Aşağıdaki gibi yapılabilir -

y = df_source[‘species’].values

Step 6 - Şimdi, veri kümesindeki etiketleri eşlememiz gerekiyor, bu da kullanılarak yapılabilir. label_mapping. Ayrıca kullanone_hot bunları tek etkin kodlama dizilerine dönüştürmek için kodlama.

y = np.array([one_hot(label_mapping[v], 3) for v in y])

Step 7 - Ardından, özellikleri ve eşlenen etiketleri CNTK ile kullanmak için, ikisini de kayan noktalara dönüştürmemiz gerekiyor -

x= x.astype(np.float32)
y= y.astype(np.float32)

Bildiğimiz gibi etiketler veri setinde dizeler olarak saklanır ve CNTK bu dizelerle çalışamaz. Bu nedenle, etiketleri temsil eden tek sıcak kodlanmış vektörlere ihtiyaç duyar. Bunun için bir fonksiyon tanımlayabilirizone_hot aşağıdaki gibi -

def one_hot(index, length):
result = np.zeros(length)
result[index] = index
return result

Şimdi, doğru formatta numpy dizisine sahibiz, aşağıdaki adımların yardımıyla onları modelimizi eğitmek için kullanabiliriz -

Step 8- İlk olarak, ağı eğitmek için kayıp işlevini içe aktarmamız gerekir. İthal edelimbinary_cross_entropy_with_softmax kayıp fonksiyonu olarak -

from cntk.losses import binary_cross_entropy_with_softmax

Step 9 - Bu NN'yi eğitmek için, ayrıca cntk.learnersmodül. İthal edeceğizsgd öğrenci aşağıdaki gibidir -

from cntk.learners import sgd

Step 10 - Bununla birlikte ithalat ProgressPrinter itibaren cntk.logging modül de.

from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)

Step 11 - Ardından, etiketler için aşağıdaki gibi yeni bir giriş değişkeni tanımlayın -

labels = input_variable(3)

Step 12 - NN modelini eğitmek için, daha sonra, bir kayıp tanımlamamız gerekir. binary_cross_entropy_with_softmaxişlevi. Ayrıca model z ve etiket değişkenini de sağlayın.

loss = binary_cross_entropy_with_softmax (z, labels)

Step 13 - Ardından, sgd öğrenci aşağıdaki gibidir -

learner = sgd(z.parameters, 0.1)

Step 14- Sonunda, kayıp işlevinde tren yöntemini çağırın. Ayrıca, ona giriş verilerini sağlayın,sgd öğrenci ve progress_printer.

training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=
[progress_writer],minibatch_size=16,max_epochs=5)

Eksiksiz uygulama örneği

from cntk.layers import Dense, Sequential
from cntk import input_variable, default_options
from cntk.ops import sigmoid, log_softmax
from cntk.losses import binary_cross_entropy
model = Sequential([
Dense(4, activation=sigmoid),
Dense(3, activation=log_softmax)
])
features = input_variable(4)
z = model(features)
import numpy as np
import pandas as pd
df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)
label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}
x = df_source.iloc[:, :4].values
y = df_source[‘species’].values
y = np.array([one_hot(label_mapping[v], 3) for v in y])
x= x.astype(np.float32)
y= y.astype(np.float32)
def one_hot(index, length):
result = np.zeros(length)
result[index] = index
return result
from cntk.losses import binary_cross_entropy_with_softmax
from cntk.learners import sgd
from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)
labels = input_variable(3)
loss = binary_cross_entropy_with_softmax (z, labels)
learner = sgd(z.parameters, 0.1)
training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=[progress_writer],minibatch_size=16,max_epochs=5)

Çıktı

Build info:
     Built time: *** ** **** 21:40:10
     Last modified date: *** *** ** 21:08:46 2019
     Build type: Release
     Build target: CPU-only
     With ASGD: yes
     Math lib: mkl
     Build Branch: HEAD
     Build SHA1:ae9c9c7c5f9e6072cc9c94c254f816dbdc1c5be6 (modified)
     MPI distribution: Microsoft MPI
     MPI version: 7.0.12437.6
-------------------------------------------------------------------
average    since    average   since   examples
loss        last     metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.1         1.1        0       0      16
0.835     0.704        0       0      32
1.993      1.11        0       0      48
1.14       1.14        0       0     112
[………]

Büyük veri kümeleriyle eğitim

Önceki bölümde, Numpy ve pandaları kullanarak küçük bellek içi veri kümeleriyle çalıştık, ancak tüm veri kümeleri çok küçük değil. Özellikle görüntüler, videolar, ses örnekleri içeren veri setleri büyüktür.MinibatchSourceCNTK tarafından bu kadar büyük veri kümeleriyle çalışmak için sağlanan, parçalar halinde veri yükleyebilen bir bileşendir. Bazı özellikleriMinibatchSource bileşenler aşağıdaki gibidir -

  • MinibatchSource veri kaynağından okunan örnekleri otomatik olarak rastgele hale getirerek NN'nin aşırı uymasını önleyebilir.

  • Verileri artırmak için kullanılabilecek yerleşik dönüştürme işlem hattına sahiptir.

  • Verileri eğitim sürecinden ayrı bir arka plan iş parçacığına yükler.

Aşağıdaki bölümlerde, büyük veri kümeleriyle çalışmak için bellek dışı verilerle bir minibatch kaynağının nasıl kullanılacağını keşfedeceğiz. Ayrıca onu bir NN'yi eğitmek için beslemek için nasıl kullanabileceğimizi de keşfedeceğiz.

MinibatchSource örneği oluşturma

Önceki bölümde, iris çiçeği örneğini kullandık ve Pandas DataFrames kullanarak küçük bellek içi veri kümesiyle çalıştık. Burada, bir panda DF'sinden gelen verileri kullanan kodu değiştireceğiz.MinibatchSource. İlk olarak, bir örnek oluşturmalıyızMinibatchSource aşağıdaki adımların yardımıyla -

Uygulama Örneği

Step 1 - İlk olarak cntk.io modülü minibatchsource için bileşenleri aşağıdaki gibi içe aktarır -

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer,
 INFINITY_REPEAT

Step 2 - Şimdi, kullanarak StreamDef sınıf, etiketler için bir akış tanımı oluşturun.

labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)

Step 3 - Ardından, giriş dosyasından dosyalanan özellikleri okumak için oluşturun, başka bir örnek oluşturun StreamDef aşağıdaki gibi.

feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)

Step 4 - Şimdi sağlamalıyız iris.ctf girdi olarak dosyayı ve deserializer aşağıdaki gibi -

deserializer = CTFDeserializer(‘iris.ctf’, StreamDefs(labels=
label_stream, features=features_stream)

Step 5 - Sonunda, örnek oluşturmamız gerekiyor minisourceBatch kullanarak deserializer aşağıdaki gibi -

Minibatch_source = MinibatchSource(deserializer, randomize=True)

MinibatchSource örneği oluşturma - Tam uygulama örneği

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer, INFINITY_REPEAT
labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)
feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)
deserializer = CTFDeserializer(‘iris.ctf’, StreamDefs(labels=label_stream, features=features_stream)
Minibatch_source = MinibatchSource(deserializer, randomize=True)

MCTF dosyası oluşturma

Yukarıda gördüğünüz gibi verileri 'iris.ctf' dosyasından alıyoruz. CNTK Metin Biçimi (CTF) adlı dosya biçimine sahiptir. Verileri almak için bir CTF dosyası oluşturmak zorunludur.MinibatchSourceyukarıda oluşturduğumuz örnek. Bakalım nasıl bir CTF dosyası oluşturabiliriz.

Uygulama Örneği

Step 1 - Öncelikle pandaları ve numpy paketlerini aşağıdaki gibi içe aktarmamız gerekiyor -

import pandas as pd
import numpy as np

Step 2- Sonra, veri dosyamızı, yani iris.csv'yi belleğe yüklememiz gerekiyor. Ardından, şurada saklayın:df_source değişken.

df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)

Step 3 - Şimdi, kullanarak ilocözellik olarak indeksleyici, ilk dört sütunun içeriğini alır. Ayrıca, türler sütunundaki verileri aşağıdaki gibi kullanın -

features = df_source.iloc[: , :4].values
labels = df_source[‘species’].values

Step 4- Sonra, etiket adı ile sayısal temsili arasında bir eşleme oluşturmamız gerekiyor. Oluşturarak yapılabilirlabel_mapping aşağıdaki gibi -

label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}

Step 5 - Şimdi, etiketleri aşağıdaki gibi bir dizi tek etkin kodlanmış vektöre dönüştürün -

labels = [one_hot(label_mapping[v], 3) for v in labels]

Şimdi, daha önce yaptığımız gibi, adında bir yardımcı program işlevi oluşturun. one_hotetiketleri kodlamak için. Aşağıdaki gibi yapılabilir -

def one_hot(index, length):
result = np.zeros(length)
result[index] = 1
return result

Verileri yükleyip önceden işlediğimiz için, CTF dosya formatında diskte saklama zamanı geldi. Bunu Python kodunu takip ederek yapabiliriz -

With open(‘iris.ctf’, ‘w’) as output_file:
for index in range(0, feature.shape[0]):
feature_values = ‘ ‘.join([str(x) for x in np.nditer(features[index])])
label_values = ‘ ‘.join([str(x) for x in np.nditer(labels[index])])
output_file.write(‘features {} | labels {} \n’.format(feature_values, label_values))

Bir MCTF dosyası oluşturma - Tam uygulama örneği

import pandas as pd
import numpy as np
df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)
features = df_source.iloc[: , :4].values
labels = df_source[‘species’].values
label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}
labels = [one_hot(label_mapping[v], 3) for v in labels]
def one_hot(index, length):
result = np.zeros(length)
result[index] = 1
return result
With open(‘iris.ctf’, ‘w’) as output_file:
for index in range(0, feature.shape[0]):
feature_values = ‘ ‘.join([str(x) for x in np.nditer(features[index])])
label_values = ‘ ‘.join([str(x) for x in np.nditer(labels[index])])
output_file.write(‘features {} | labels {} \n’.format(feature_values, label_values))

Verileri beslemek

Bir kez oluşturduğunuzda MinibatchSource,örneğin, onu eğitmemiz gerekiyor. Küçük bellek içi veri kümeleriyle çalışırken kullanılan eğitim mantığının aynısını kullanabiliriz. Burada kullanacağızMinibatchSource Örneğin, kayıp fonksiyonunda tren yönteminin girdisi aşağıdaki gibidir -

Uygulama Örneği

Step 1 - Eğitim oturumunun çıktısını günlüğe kaydetmek için önce ProgressPrinter'ı cntk.logging modül aşağıdaki gibidir -

from cntk.logging import ProgressPrinter

Step 2 - Daha sonra, eğitim oturumunu ayarlamak için, trainer ve training_session itibaren cntk.train modül aşağıdaki gibidir -

from cntk.train import Trainer,

Step 3 - Şimdi, bazı sabitler tanımlamamız gerekiyor. minibatch_size, samples_per_epoch ve num_epochs aşağıdaki gibi -

minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30

Step 4 - Daha sonra, CNTK'nın eğitim sırasında verileri nasıl okuyacağını bilmek için, ağ için giriş değişkeni ile minibatch kaynağındaki akışlar arasında bir eşleme tanımlamamız gerekir.

input_map = {
     features: minibatch.source.streams.features,
     labels: minibatch.source.streams.features
}

Step 5 - Daha sonra, eğitim sürecinin çıktısını kaydetmek için, progress_printer değişken ile yeni ProgressPrinter aşağıdaki gibi örnek -

progress_writer = ProgressPrinter(0)

Step 6 - Sonunda, kayıpta tren yöntemini şu şekilde çağırmamız gerekiyor -

train_history = loss.train(minibatch_source,
parameter_learners=[learner],
  model_inputs_to_streams=input_map,
callbacks=[progress_writer],
epoch_size=samples_per_epoch,
max_epochs=num_epochs)

Verilerin beslenmesi - Tam uygulama örneği

from cntk.logging import ProgressPrinter
from cntk.train import Trainer, training_session
minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
input_map = {
   features: minibatch.source.streams.features,
   labels: minibatch.source.streams.features
}
progress_writer = ProgressPrinter(0)
train_history = loss.train(minibatch_source,
parameter_learners=[learner],
model_inputs_to_streams=input_map,
callbacks=[progress_writer],
epoch_size=samples_per_epoch,
max_epochs=num_epochs)

Çıktı

-------------------------------------------------------------------
average   since   average   since  examples
loss      last     metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.21      1.21      0        0       32
1.15      0.12      0        0       96
[………]