CNTK - Ensembles de données insuffisants en mémoire

Dans ce chapitre, la façon de mesurer les performances des jeux de données en mémoire insuffisante sera expliquée.

Dans les sections précédentes, nous avons discuté de diverses méthodes pour valider les performances de notre NN, mais les méthodes dont nous avons discuté sont celles qui traitent des ensembles de données qui tiennent dans la mémoire.

Ici, la question se pose: qu'en est-il des jeux de données à mémoire insuffisante, car dans le scénario de production, nous avons besoin de beaucoup de données pour nous entraîner NN. Dans cette section, nous allons discuter de la façon de mesurer les performances lorsque vous travaillez avec des sources de minibatch et une boucle de minibatch manuelle.

Sources de minibatch

Lorsque nous travaillons avec un ensemble de données hors mémoire, c'est-à-dire des sources de mini-correspondance, nous avons besoin d'une configuration légèrement différente pour la perte, ainsi que la métrique, que la configuration que nous avons utilisée lorsque nous travaillons avec de petits ensembles de données, c'est-à-dire des ensembles de données en mémoire. Tout d'abord, nous verrons comment mettre en place un moyen de fournir des données au formateur du modèle NN.

Voici les étapes de mise en œuvre -

Step 1 - D'abord, de cntk.Le module io importe les composants pour créer la source du minibatch comme suit -

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer,
 INFINITY_REPEAT

Step 2 - Ensuite, créez une nouvelle fonction nommée say create_datasource. Cette fonction aura deux paramètres à savoir le nom de fichier et la limite, avec une valeur par défaut deINFINITELY_REPEAT.

def create_datasource(filename, limit =INFINITELY_REPEAT)

Step 3 - Maintenant, dans la fonction, en utilisant StreamDefclass crate une définition de flux pour les étiquettes qui lit dans le champ étiquettes qui a trois fonctionnalités. Nous devons également définiris_sparse à False comme suit -

labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)

Step 4 - Ensuite, créez pour lire les caractéristiques déposées à partir du fichier d'entrée, créez une autre instance de StreamDef comme suit.

feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)

Step 5 - Maintenant, initialisez le CTFDeserializerclasse d'instance. Spécifiez le nom de fichier et les flux dont nous avons besoin pour désérialiser comme suit -

deserializer = CTFDeserializer(filename, StreamDefs(labels=
label_stream, features=features_stream)

Step 6 - Ensuite, nous devons créer une instance de minisourceBatch en utilisant le désérialiseur comme suit -

Minibatch_source = MinibatchSource(deserializer, randomize=True, max_sweeps=limit)
return minibatch_source

Step 7- Enfin, nous devons fournir une source de formation et de test, que nous avons également créée dans les sections précédentes. Nous utilisons un ensemble de données sur les fleurs d'iris.

training_source = create_datasource(‘Iris_train.ctf’)
test_source = create_datasource(‘Iris_test.ctf’, limit=1)

Une fois que vous créez MinibatchSourceexemple, nous devons le former. Nous pouvons utiliser la même logique d'entraînement que celle utilisée lorsque nous travaillons avec de petits ensembles de données en mémoire. Ici, nous allons utiliserMinibatchSource exemple, comme entrée pour la méthode de train sur la fonction de perte comme suit -

Voici les étapes de mise en œuvre -

Step 1 - Pour enregistrer la sortie de la séance d'entraînement, importez d'abord le ProgressPrinter de cntk.logging module comme suit -

from cntk.logging import ProgressPrinter

Step 2 - Ensuite, pour configurer la session de formation, importez le trainer et training_session de cntk.train module comme suit -

from cntk.train import Trainer, training_session

Step 3 - Maintenant, nous devons définir un ensemble de constantes comme minibatch_size, samples_per_epoch et num_epochs comme suit -

minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
max_samples = samples_per_epoch * num_epochs

Step 4 - Ensuite, afin de savoir lire les données lors de l'apprentissage en CNTK, nous devons définir un mappage entre la variable d'entrée du réseau et les flux dans la source du minibatch.

input_map = {
   features: training_source.streams.features,
   labels: training_source.streams.labels
}

Step 5 - À côté de la journalisation de la sortie du processus d'apprentissage, initialisez le progress_printer variable avec un nouveau ProgressPrinterexemple. Également, initialisez letrainer et lui fournir le modèle comme suit -

progress_writer = ProgressPrinter(0)
trainer: training_source.streams.labels

Step 6 - Enfin, pour démarrer le processus de formation, nous devons appeler le training_session fonction comme suit -

session = training_session(trainer,
   mb_source=training_source,
   mb_size=minibatch_size,
   model_inputs_to_streams=input_map,
   max_samples=max_samples,
   test_config=test_config)
session.train()

Une fois que nous avons formé le modèle, nous pouvons ajouter une validation à cette configuration en utilisant un TestConfig objet et attribuez-le au test_config argument de mot-clé du train_session fonction.

Voici les étapes de mise en œuvre -

Step 1 - Tout d'abord, nous devons importer le TestConfig classe du module cntk.train comme suit -

from cntk.train import TestConfig

Step 2 - Maintenant, nous devons créer une nouvelle instance du TestConfig avec le test_source comme entrée -

Test_config = TestConfig(test_source)

Exemple complet

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer, INFINITY_REPEAT
def create_datasource(filename, limit =INFINITELY_REPEAT)
labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)
feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)
deserializer = CTFDeserializer(filename, StreamDefs(labels=label_stream, features=features_stream)
Minibatch_source = MinibatchSource(deserializer, randomize=True, max_sweeps=limit)
return minibatch_source
training_source = create_datasource(‘Iris_train.ctf’)
test_source = create_datasource(‘Iris_test.ctf’, limit=1)
from cntk.logging import ProgressPrinter
from cntk.train import Trainer, training_session
minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
max_samples = samples_per_epoch * num_epochs
input_map = {
   features:   training_source.streams.features,
   labels: training_source.streams.labels
 }
progress_writer = ProgressPrinter(0)
trainer: training_source.streams.labels
session = training_session(trainer,
   mb_source=training_source,
   mb_size=minibatch_size,
   model_inputs_to_streams=input_map,
   max_samples=max_samples,
   test_config=test_config)
session.train()
from cntk.train import TestConfig
Test_config = TestConfig(test_source)

Production

-------------------------------------------------------------------
average   since   average   since  examples
loss      last    metric    last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.57      1.57     0.214    0.214   16
1.38      1.28     0.264    0.289   48
[………]
Finished Evaluation [1]: Minibatch[1-1]:metric = 69.65*30;

Boucle de minibatch manuelle

Comme nous le voyons ci-dessus, il est facile de mesurer les performances de notre modèle NN pendant et après l'entraînement, en utilisant les métriques lors de l'entraînement avec des API classiques dans CNTK. Mais, d'un autre côté, les choses ne seront pas aussi faciles en travaillant avec une boucle de minibatch manuelle.

Ici, nous utilisons le modèle ci-dessous avec 4 entrées et 3 sorties de l'ensemble de données Iris Flower, créé également dans les sections précédentes -

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu, sigmoid
from cntk.learners import sgd
model = Sequential([
   Dense(4, activation=sigmoid),
   Dense(3, activation=log_softmax)
])
features = input_variable(4)
labels = input_variable(3)
z = model(features)

Ensuite, la perte pour le modèle est définie comme la combinaison de la fonction de perte d'entropie croisée et de la métrique de mesure F telle qu'utilisée dans les sections précédentes. Nous allons utiliser lecriterion_factory utilitaire, pour créer ceci en tant qu'objet de fonction CNTK comme indiqué ci-dessous -

import cntk
from cntk.losses import cross_entropy_with_softmax, fmeasure
@cntk.Function
def criterion_factory(outputs, targets):
   loss = cross_entropy_with_softmax(outputs, targets)
   metric = fmeasure(outputs, targets, beta=1)
   return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, 0.1)
label_mapping = {
   'Iris-setosa': 0,
   'Iris-versicolor': 1,
   'Iris-virginica': 2
}

Maintenant, comme nous avons défini la fonction de perte, nous allons voir comment nous pouvons l'utiliser dans le formateur, pour mettre en place une session de formation manuelle.

Voici les étapes de mise en œuvre -

Step 1 - Tout d'abord, nous devons importer les packages requis comme numpy et pandas pour charger et prétraiter les données.

import pandas as pd
import numpy as np

Step 2 - Ensuite, pour enregistrer les informations pendant l'entraînement, importez le ProgressPrinter classe comme suit -

from cntk.logging import ProgressPrinter

Step 3 - Ensuite, nous devons importer le module d'entraînement du module cntk.train comme suit -

from cntk.train import Trainer

Step 4 - Ensuite, créez une nouvelle instance de ProgressPrinter comme suit -

progress_writer = ProgressPrinter(0)

Step 5 - Maintenant, nous devons initialiser le formateur avec les paramètres la perte, l'apprenant et le progress_writer comme suit -

trainer = Trainer(z, loss, learner, progress_writer)

Step 6−Ensuite, pour entraîner le modèle, nous allons créer une boucle qui itérera trente fois sur l'ensemble de données. Ce sera la boucle d'entraînement externe.

for _ in range(0,30):

Step 7- Maintenant, nous devons charger les données du disque en utilisant des pandas. Ensuite, afin de charger le jeu de données dansmini-batches, met le chunksize argument de mot-clé à 16.

input_data = pd.read_csv('iris.csv',
names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
index_col=False, chunksize=16)

Step 8 - Maintenant, créez une boucle d'entraînement interne pour itérer sur chacun des mini-batches.

for df_batch in input_data:

Step 9 - Maintenant, dans cette boucle, lisez les quatre premières colonnes en utilisant le iloc indexeur, comme le features pour les former et les convertir en float32 -

feature_values = df_batch.iloc[:,:4].values
feature_values = feature_values.astype(np.float32)

Step 10 - Maintenant, lisez la dernière colonne comme les étiquettes à partir desquelles vous entraîner, comme suit -

label_values = df_batch.iloc[:,-1]

Step 11 - Ensuite, nous utiliserons des vecteurs one-hot pour convertir les chaînes d'étiquettes en leur présentation numérique comme suit -

label_values = label_values.map(lambda x: label_mapping[x])

Step 12- Après cela, prenez la présentation numérique des étiquettes. Ensuite, convertissez-les en un tableau numpy, il est donc plus facile de travailler avec eux comme suit -

label_values = label_values.values

Step 13 - Maintenant, nous devons créer un nouveau tableau numpy qui a le même nombre de lignes que les valeurs d'étiquette que nous avons converties.

encoded_labels = np.zeros((label_values.shape[0], 3))

Step 14 - Maintenant, afin de créer des étiquettes encodées à chaud, sélectionnez les colonnes en fonction des valeurs d'étiquette numériques.

encoded_labels[np.arange(label_values.shape[0]), label_values] = 1.

Step 15 - Enfin, nous devons invoquer le train_minibatch méthode sur le formateur et fournissez les caractéristiques et les étiquettes traitées pour le minibatch.

trainer.train_minibatch({features: feature_values, labels: encoded_labels})

Exemple complet

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu, sigmoid
from cntk.learners import sgd
model = Sequential([
   Dense(4, activation=sigmoid),
   Dense(3, activation=log_softmax)
])
features = input_variable(4)
labels = input_variable(3)
z = model(features)
import cntk
from cntk.losses import cross_entropy_with_softmax, fmeasure
@cntk.Function
def criterion_factory(outputs, targets):
   loss = cross_entropy_with_softmax(outputs, targets)
   metric = fmeasure(outputs, targets, beta=1)
   return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, 0.1)
label_mapping = {
   'Iris-setosa': 0,
   'Iris-versicolor': 1,
   'Iris-virginica': 2
}
import pandas as pd
import numpy as np
from cntk.logging import ProgressPrinter
from cntk.train import Trainer
progress_writer = ProgressPrinter(0)
trainer = Trainer(z, loss, learner, progress_writer)
for _ in range(0,30):
   input_data = pd.read_csv('iris.csv',
      names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
      index_col=False, chunksize=16)
for df_batch in input_data:
   feature_values = df_batch.iloc[:,:4].values
   feature_values = feature_values.astype(np.float32)
   label_values = df_batch.iloc[:,-1]
label_values = label_values.map(lambda x: label_mapping[x])
label_values = label_values.values
   encoded_labels = np.zeros((label_values.shape[0], 3))
   encoded_labels[np.arange(label_values.shape[0]), 
label_values] = 1.
   trainer.train_minibatch({features: feature_values, labels: encoded_labels})

Production

-------------------------------------------------------------------
average    since    average   since  examples
loss       last      metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.45       1.45     -0.189    -0.189   16
1.24       1.13     -0.0382    0.0371  48
[………]

Dans la sortie ci-dessus, nous avons obtenu à la fois la sortie pour la perte et la métrique pendant l'entraînement. C'est parce que nous avons combiné une métrique et une perte dans un objet de fonction et utilisé une imprimante de progression dans la configuration du formateur.

Maintenant, pour évaluer les performances du modèle, nous devons effectuer la même tâche que pour la formation du modèle, mais cette fois, nous devons utiliser un Evaluatorinstance pour tester le modèle. Il est montré dans le code Python suivant -

from cntk import Evaluator
evaluator = Evaluator(loss.outputs[1], [progress_writer])
input_data = pd.read_csv('iris.csv',
   names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
index_col=False, chunksize=16)
for df_batch in input_data:
   feature_values = df_batch.iloc[:,:4].values
   feature_values = feature_values.astype(np.float32)
   label_values = df_batch.iloc[:,-1]
   label_values = label_values.map(lambda x: label_mapping[x])
   label_values = label_values.values
   encoded_labels = np.zeros((label_values.shape[0], 3))
   encoded_labels[np.arange(label_values.shape[0]), label_values] = 1.
   evaluator.test_minibatch({ features: feature_values, labels:
      encoded_labels})
evaluator.summarize_test_progress()

Maintenant, nous allons obtenir la sortie quelque chose comme ce qui suit -

Production

Finished Evaluation [1]: Minibatch[1-11]:metric = 74.62*143;