Microsoft Cognitive Toolkit - Guide rapide

Dans ce chapitre, nous apprendrons ce qu'est CNTK, ses fonctionnalités, la différence entre sa version 1.0 et 2.0 et les points forts importants de la version 2.7.

Qu'est-ce que Microsoft Cognitive Toolkit (CNTK)?

Microsoft Cognitive Toolkit (CNTK), anciennement connue sous le nom de Computational Network Toolkit, est une boîte à outils gratuite, facile à utiliser, open source et de qualité commerciale qui nous permet de former des algorithmes d'apprentissage en profondeur pour apprendre comme le cerveau humain. Cela nous permet de créer des systèmes d'apprentissage en profondeur populaires tels quefeed-forward neural network time series prediction systems and Convolutional neural network (CNN) image classifiers.

Pour des performances optimales, ses fonctions de framework sont écrites en C ++. Bien que nous puissions appeler sa fonction en utilisant C ++, l'approche la plus couramment utilisée pour la même chose est d'utiliser un programme Python.

Caractéristiques de CNTK

Voici quelques-unes des fonctionnalités et capacités offertes dans la dernière version de Microsoft CNTK:

Composants intégrés

  • CNTK a des composants intégrés hautement optimisés qui peuvent gérer des données multidimensionnelles denses ou éparses de Python, C ++ ou BrainScript.

  • Nous pouvons implémenter CNN, FNN, RNN, la normalisation de lots et la séquence à séquence avec attention.

  • Il nous fournit la fonctionnalité pour ajouter de nouveaux composants de base définis par l'utilisateur sur le GPU à partir de Python.

  • Il fournit également un réglage automatique des hyperparamètres.

  • Nous pouvons mettre en œuvre l'apprentissage par renforcement, les réseaux d'adversaires génératifs (GAN), l'apprentissage supervisé et non supervisé.

  • Pour les ensembles de données massifs, CNTK a des lecteurs optimisés intégrés.

Utilisation efficace des ressources

  • CNTK nous fournit un parallélisme de haute précision sur plusieurs GPU / machines via SGD 1 bit.

  • Pour s'adapter aux plus grands modèles de la mémoire GPU, il fournit le partage de mémoire et d'autres méthodes intégrées.

Exprimez facilement nos propres réseaux

  • CNTK dispose d'API complètes pour définir votre propre réseau, les apprenants, les lecteurs, la formation et l'évaluation à partir de Python, C ++ et BrainScript.

  • En utilisant CNTK, nous pouvons facilement évaluer des modèles avec Python, C ++, C # ou BrainScript.

  • Il fournit à la fois des API de haut niveau et de bas niveau.

  • Sur la base de nos données, il peut automatiquement façonner l'inférence.

  • Il a des boucles de réseau neuronal récurrent symbolique (RNN) entièrement optimisées.

Mesurer les performances du modèle

  • CNTK fournit divers composants pour mesurer les performances des réseaux de neurones que vous créez.

  • Génère des données de journal à partir de votre modèle et de l'optimiseur associé, que nous pouvons utiliser pour surveiller le processus de formation.

Version 1.0 par rapport à la version 2.0

Le tableau suivant compare CNTK version 1.0 et 2.0:

Version 1.0 Version 2.0
Il est sorti en 2016. Il s'agit d'une réécriture importante de la version 1.0 et a été publiée en juin 2017.
Il utilisait un langage de script propriétaire appelé BrainScript. Ses fonctions de framework peuvent être appelées en utilisant C ++, Python. Nous pouvons facilement charger nos modules en C # ou Java. BrainScript est également pris en charge par la version 2.0.
Il fonctionne à la fois sur les systèmes Windows et Linux mais pas directement sur Mac OS. Il fonctionne également sur les systèmes Windows (Win 8.1, Win 10, Server 2012 R2 et versions ultérieures) et Linux, mais pas directement sur Mac OS.

Points forts importants de la version 2.7

Version 2.7est la dernière version principale publiée de Microsoft Cognitive Toolkit. Il a un support complet pour ONNX 1.4.1. Voici quelques faits saillants importants de cette dernière version publiée de CNTK.

  • Prise en charge complète d'ONNX 1.4.1.

  • Prise en charge de CUDA 10 pour les systèmes Windows et Linux.

  • Il prend en charge la boucle avancée de réseaux de neurones récurrents (RNN) dans l'exportation ONNX.

  • Il peut exporter plus de modèles de 2 Go au format ONNX.

  • Il prend en charge FP16 dans l'action de formation du langage de script BrainScript.

Ici, nous allons comprendre l'installation de CNTK sous Windows et sous Linux. De plus, le chapitre explique l'installation du package CNTK, les étapes d'installation d'Anaconda, les fichiers CNTK, la structure des répertoires et l'organisation de la bibliothèque CNTK.

Conditions préalables

Pour installer CNTK, nous devons avoir Python installé sur nos ordinateurs. Vous pouvez aller sur le lienhttps://www.python.org/downloads/et sélectionnez la dernière version de votre système d'exploitation, c'est-à-dire Windows et Linux / Unix. Pour un tutoriel de base sur Python, vous pouvez vous référer au lienhttps://www.tutorialspoint.com/python3/index.htm.

CNTK est pris en charge pour Windows ainsi que pour Linux, nous allons donc les parcourir tous les deux.

Installation sous Windows

Afin d'exécuter CNTK sur Windows, nous utiliserons le Anaconda versionde Python. Nous le savons, Anaconda est une redistribution de Python. Il comprend des packages supplémentaires commeScipy etScikit-learn qui sont utilisés par CNTK pour effectuer divers calculs utiles.

Alors, voyons d'abord les étapes pour installer Anaconda sur votre machine -

Step 1−Téléchargez d'abord les fichiers d'installation à partir du site Web public https://www.anaconda.com/distribution/.

Step 2 - Une fois que vous avez téléchargé les fichiers d'installation, démarrez l'installation et suivez les instructions du lien https://docs.anaconda.com/anaconda/install/.

Step 3- Une fois installé, Anaconda installera également d'autres utilitaires, qui incluront automatiquement tous les exécutables Anaconda dans la variable PATH de votre ordinateur. Nous pouvons gérer notre environnement Python à partir de cette invite, installer des packages et exécuter des scripts Python.

Installation du package CNTK

Une fois l'installation d'Anaconda terminée, vous pouvez utiliser la méthode la plus courante pour installer le package CNTK via l'exécutable pip en utilisant la commande suivante -

pip install cntk

Il existe diverses autres méthodes pour installer Cognitive Toolkit sur votre ordinateur. Microsoft dispose d'un ensemble soigné de documentation qui explique en détail les autres méthodes d'installation. Veuillez suivre le lienhttps://docs.microsoft.com/en-us/cognitive-toolkit/Setup-CNTK-on-your-machine.

Installation sous Linux

L'installation de CNTK sous Linux est un peu différente de son installation sous Windows. Ici, pour Linux, nous allons utiliser Anaconda pour installer CNTK, mais au lieu d'un programme d'installation graphique pour Anaconda, nous utiliserons un programme d'installation basé sur un terminal sur Linux. Bien que le programme d'installation fonctionne avec presque toutes les distributions Linux, nous avons limité la description à Ubuntu.

Alors, voyons d'abord les étapes pour installer Anaconda sur votre machine -

Étapes pour installer Anaconda

Step 1- Avant d'installer Anaconda, assurez-vous que le système est entièrement à jour. Pour vérifier, exécutez d'abord les deux commandes suivantes à l'intérieur d'un terminal -

sudo apt update
sudo apt upgrade

Step 2 - Une fois l'ordinateur mis à jour, obtenez l'URL du site Web public https://www.anaconda.com/distribution/ pour les derniers fichiers d'installation d'Anaconda.

Step 3 - Une fois l'URL copiée, ouvrez une fenêtre de terminal et exécutez la commande suivante -

wget -0 anaconda-installer.sh url SHAPE \* MERGEFORMAT 
     y

	
	
	             f
 
 
      x
	  
|                     }

Remplace le url espace réservé avec l'URL copiée à partir du site Web Anaconda.

Step 4 - Ensuite, avec l'aide de la commande suivante, nous pouvons installer Anaconda -

sh ./anaconda-installer.sh

La commande ci-dessus installera par défaut Anaconda3 dans notre répertoire personnel.

Installation du package CNTK

Une fois l'installation d'Anaconda terminée, vous pouvez utiliser la méthode la plus courante pour installer le package CNTK via l'exécutable pip en utilisant la commande suivante -

pip install cntk

Examen des fichiers CNTK et de la structure des répertoires

Une fois CNTK installé en tant que package Python, nous pouvons examiner sa structure de fichiers et de répertoires. C'est àC:\Users\ \Anaconda3\Lib\site-packages\cntk, comme indiqué ci-dessous dans la capture d'écran.

Vérification de l'installation CNTK

Une fois CNTK installé en tant que package Python, vous devez vérifier que CNTK a été installé correctement. À partir du shell de commande Anaconda, démarrez l'interpréteur Python en entrantipython. Ensuite, importez CNTK en entrant la commande suivante.

import cntk as c

Une fois importé, vérifiez sa version à l'aide de la commande suivante -

print(c.__version__)

L'interpréteur répondra avec la version CNTK installée. S'il ne répond pas, il y aura un problème avec l'installation.

L'organisation des bibliothèques CNTK

CNTK, un package python techniquement, est organisé en 13 sous-packages de haut niveau et 8 sous-packages plus petits. Le tableau suivant comprend les 10 packages les plus fréquemment utilisés:

Sr. Non Nom et description du package
1

cntk.io

Contient des fonctions de lecture de données. Par exemple: next_minibatch ()

2

cntk.layers

Contient des fonctions de haut niveau pour créer des réseaux de neurones. Par exemple: Dense ()

3

cntk.learners

Contient des fonctions pour la formation. Par exemple: sgd ()

4

cntk.losses

Contient des fonctions pour mesurer l'erreur d'entraînement. Par exemple: squared_error ()

5

cntk.metrics

Contient des fonctions pour mesurer l'erreur du modèle. Par exemple: classificatoin_error

6

cntk.ops

Contient des fonctions de bas niveau pour créer des réseaux de neurones. Par exemple: tanh ()

sept

cntk.random

Contient des fonctions pour générer des nombres aléatoires. Par exemple: normal ()

8

cntk.train

Contient des fonctions de formation. Par exemple: train_minibatch ()

9

cntk.initializer

Contient des initialiseurs de paramètres de modèle. Par exemple: normal () et uniforme ()

dix

cntk.variables

Contient des constructions de bas niveau. Par exemple: Parameter () et Variable ()

Microsoft Cognitive Toolkit propose deux versions de build différentes, à savoir CPU uniquement et GPU uniquement.

Version de construction du processeur uniquement

La version CPU de CNTK utilise uniquement Intel MKLML optimisé, où MKLML est le sous-ensemble de MKL (Math Kernel Library) et publié avec Intel MKL-DNN en tant que version terminée d'Intel MKL pour MKL-DNN.

GPU uniquement version de construction

D'autre part, la version de CNTK uniquement GPU utilise des bibliothèques NVIDIA hautement optimisées telles que CUB et cuDNN. Il prend en charge la formation distribuée sur plusieurs GPU et plusieurs machines. Pour une formation distribuée encore plus rapide dans CNTK, la version GPU-build comprend également -

  • SGD quantifié 1bit développé par MSR.

  • Algorithmes d'entraînement parallèles SGD en mode bloc.

Activation du GPU avec CNTK sous Windows

Dans la section précédente, nous avons vu comment installer la version de base de CNTK à utiliser avec le processeur. Voyons maintenant comment nous pouvons installer CNTK à utiliser avec un GPU. Mais avant de vous y plonger en profondeur, vous devez d'abord disposer d'une carte graphique prise en charge.

À l'heure actuelle, CNTK prend en charge la carte graphique NVIDIA avec au moins la prise en charge de CUDA 3.0. Pour vous en assurer, vous pouvez vérifier àhttps://developer.nvidia.com/cuda-gpus si votre GPU prend en charge CUDA.

Alors, voyons les étapes pour activer GPU avec CNTK sur Windows OS -

Step 1 - En fonction de la carte graphique que vous utilisez, vous devez d'abord disposer des derniers pilotes GeForce ou Quadro pour votre carte graphique.

Step 2 - Une fois que vous avez téléchargé les pilotes, vous devez installer la boîte à outils CUDA version 9.0 pour Windows à partir du site Web de NVIDIA https://developer.nvidia.com/cuda-90-download-archive?target_os=Windows&target_arch=x86_64. Après l'installation, exécutez le programme d'installation et suivez les instructions.

Step 3 - Ensuite, vous devez installer les binaires cuDNN à partir du site Web NVIDIA https://developer.nvidia.com/rdp/form/cudnn-download-survey. Avec la version CUDA 9.0, cuDNN 7.4.1 fonctionne bien. Fondamentalement, cuDNN est une couche au-dessus de CUDA, utilisée par CNTK.

Step 4 - Après avoir téléchargé les binaires cuDNN, vous devez extraire le fichier zip dans le dossier racine de l'installation de votre boîte à outils CUDA.

Step 5- C'est la dernière étape qui permettra l'utilisation du GPU dans CNTK. Exécutez la commande suivante dans l'invite Anaconda sur le système d'exploitation Windows -

pip install cntk-gpu

Activation du GPU avec CNTK sous Linux

Voyons comment nous pouvons activer GPU avec CNTK sur Linux OS -

Téléchargement de la boîte à outils CUDA

Tout d'abord, vous devez installer la boîte à outils CUDA à partir du site Web NVIDIA https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type = runfilelocal .

Lancer le programme d'installation

Maintenant, une fois que vous avez des binaires sur le disque, exécutez le programme d'installation en ouvrant un terminal et en exécutant la commande suivante et les instructions à l'écran -

sh cuda_9.0.176_384.81_linux-run

Modifier le script de profil Bash

Après avoir installé la boîte à outils CUDA sur votre machine Linux, vous devez modifier le script de profil BASH. Pour cela, ouvrez d'abord le fichier $ HOME / .bashrc dans l'éditeur de texte. Maintenant, à la fin du script, incluez les lignes suivantes -

export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64\ ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
Installing

Installation des bibliothèques cuDNN

Enfin, nous devons installer les binaires cuDNN. Il peut être téléchargé depuis le site Web de NVIDIAhttps://developer.nvidia.com/rdp/form/cudnn-download-survey. Avec la version CUDA 9.0, cuDNN 7.4.1 fonctionne bien. Fondamentalement, cuDNN est une couche au-dessus de CUDA, utilisée par CNTK.

Une fois la version téléchargée pour Linux, extrayez-la sur le /usr/local/cuda-9.0 dossier en utilisant la commande suivante -

tar xvzf -C /usr/local/cuda-9.0/ cudnn-9.0-linux-x64-v7.4.1.5.tgz

Modifiez le chemin d'accès au nom de fichier selon vos besoins.

Dans ce chapitre, nous apprendrons en détail les séquences dans CNTK et sa classification.

Tenseurs

Le concept sur lequel travaille CNTK est tensor. Fondamentalement, les entrées, sorties et paramètres CNTK sont organisés commetensors, qui est souvent considérée comme une matrice généralisée. Chaque tenseur a unrank -

  • Le tenseur de rang 0 est un scalaire.

  • Le tenseur de rang 1 est un vecteur.

  • Le tenseur de rang 2 est une matrice.

Ici, ces différentes dimensions sont appelées axes.

Axes statiques et axes dynamiques

Comme son nom l'indique, les axes statiques ont la même longueur tout au long de la vie du réseau. En revanche, la longueur des axes dynamiques peut varier d'une instance à l'autre. En fait, leur longueur n'est généralement pas connue avant la présentation de chaque minibatch.

Les axes dynamiques sont comme des axes statiques car ils définissent également un regroupement significatif des nombres contenus dans le tenseur.

Exemple

Pour clarifier les choses, voyons comment un mini-lot de courts clips vidéo est représenté dans CNTK. Supposons que la résolution des clips vidéo est de 640 * 480. Et, les clips sont également tournés en couleur qui est généralement encodée avec trois canaux. Cela signifie en outre que notre minibatch a ce qui suit -

  • 3 axes statiques de longueur 640, 480 et 3 respectivement.

  • Deux axes dynamiques; la longueur de la vidéo et les axes du mini-match.

Cela signifie que si un minibatch contient 16 vidéos dont chacune mesure 240 images, sera représenté comme 16*240*3*640*480 tenseurs.

Travailler avec des séquences dans CNTK

Laissez-nous comprendre les séquences dans CNTK en apprenant d'abord sur le réseau de mémoire à long terme.

Réseau de mémoire à long terme (LSTM)

Les réseaux de mémoire à long terme (LSTM) ont été introduits par Hochreiter & Schmidhuber. Cela a résolu le problème d'obtenir une couche récurrente de base pour se souvenir des choses pendant longtemps. L'architecture de LSTM est donnée ci-dessus dans le schéma. Comme nous pouvons le voir, il a des neurones d'entrée, des cellules mémoire et des neurones de sortie. Afin de lutter contre le problème du gradient de disparition, les réseaux de mémoire à long terme utilisent une cellule mémoire explicite (stocke les valeurs précédentes) et les portes suivantes -

  • Forget gate- Comme son nom l'indique, il indique à la cellule mémoire d'oublier les valeurs précédentes. La cellule de mémoire stocke les valeurs jusqu'à ce que la porte, c'est-à-dire «oublier la porte», lui dise de les oublier.

  • Input gate - Comme son nom l'indique, il ajoute de nouveaux éléments à la cellule.

  • Output gate - Comme son nom l'indique, la porte de sortie décide quand passer les vecteurs de la cellule à l'état caché suivant.

Il est très facile de travailler avec des séquences en CNTK. Voyons-le à l'aide de l'exemple suivant -

import sys
import os
from cntk import Trainer, Axis
from cntk.io import MinibatchSource, CTFDeserializer, StreamDef, StreamDefs,\
   INFINITELY_REPEAT
from cntk.learners import sgd, learning_parameter_schedule_per_sample
from cntk import input_variable, cross_entropy_with_softmax, \
   classification_error, sequence
from cntk.logging import ProgressPrinter
from cntk.layers import Sequential, Embedding, Recurrence, LSTM, Dense
def create_reader(path, is_training, input_dim, label_dim):
   return MinibatchSource(CTFDeserializer(path, StreamDefs(
      features=StreamDef(field='x', shape=input_dim, is_sparse=True),
      labels=StreamDef(field='y', shape=label_dim, is_sparse=False)
   )), randomize=is_training,
   max_sweeps=INFINITELY_REPEAT if is_training else 1)
def LSTM_sequence_classifier_net(input, num_output_classes, embedding_dim,
LSTM_dim, cell_dim):
   lstm_classifier = Sequential([Embedding(embedding_dim),
      Recurrence(LSTM(LSTM_dim, cell_dim)),
      sequence.last,
      Dense(num_output_classes)])
return lstm_classifier(input)
def train_sequence_classifier():
   input_dim = 2000
   cell_dim = 25
   hidden_dim = 25
   embedding_dim = 50
   num_output_classes = 5
   features = sequence.input_variable(shape=input_dim, is_sparse=True)
   label = input_variable(num_output_classes)
   classifier_output = LSTM_sequence_classifier_net(
   features, num_output_classes, embedding_dim, hidden_dim, cell_dim)
   ce = cross_entropy_with_softmax(classifier_output, label)
   pe =      classification_error(classifier_output, label)
   rel_path = ("../../../Tests/EndToEndTests/Text/" +
      "SequenceClassification/Data/Train.ctf")
   path = os.path.join(os.path.dirname(os.path.abspath(__file__)), rel_path)
   reader = create_reader(path, True, input_dim, num_output_classes)
input_map = {
   features: reader.streams.features,
   label: reader.streams.labels
}
lr_per_sample = learning_parameter_schedule_per_sample(0.0005)
progress_printer = ProgressPrinter(0)
trainer = Trainer(classifier_output, (ce, pe),
sgd(classifier_output.parameters, lr=lr_per_sample),progress_printer)
minibatch_size = 200
for i in range(255):
   mb = reader.next_minibatch(minibatch_size, input_map=input_map)
trainer.train_minibatch(mb)
   evaluation_average = float(trainer.previous_minibatch_evaluation_average)
   loss_average = float(trainer.previous_minibatch_loss_average)
return evaluation_average, loss_average
if __name__ == '__main__':
   error, _ = train_sequence_classifier()
   print(" error: %f" % error)
average  since  average  since  examples
loss     last   metric   last
------------------------------------------------------
1.61    1.61    0.886     0.886     44
1.61     1.6    0.714     0.629    133
 1.6    1.59     0.56     0.448    316
1.57    1.55    0.479      0.41    682
1.53     1.5    0.464     0.449   1379
1.46     1.4    0.453     0.441   2813
1.37    1.28     0.45     0.447   5679
 1.3    1.23    0.448     0.447  11365

error: 0.333333

L'explication détaillée du programme ci-dessus sera couverte dans les sections suivantes, en particulier lorsque nous construirons des réseaux neuronaux récurrents.

Ce chapitre traite de la construction d'un modèle de régression logistique dans CNTK.

Bases du modèle de régression logistique

La régression logistique, l'une des techniques de ML les plus simples, est une technique spécialement conçue pour la classification binaire. En d'autres termes, pour créer un modèle de prédiction dans des situations où la valeur de la variable à prédire peut être l'une des deux valeurs catégorielles. L'un des exemples les plus simples de régression logistique est de prédire si la personne est un homme ou une femme, en fonction de son âge, de sa voix, de ses cheveux, etc.

Exemple

Comprenons mathématiquement le concept de régression logistique à l'aide d'un autre exemple -

Supposons que nous voulions prédire la solvabilité d'une demande de prêt; 0 signifie rejeter et 1 signifie approuver, en fonction du candidatdebt , income et credit rating. Nous représentons la dette avec X1, les revenus avec X2 et la cote de crédit avec X3.

Dans la régression logistique, nous déterminons une valeur de poids, représentée par w, pour chaque fonctionnalité et une seule valeur de biais, représentée par b.

Supposons maintenant,

X1 = 3.0
X2 = -2.0
X3 = 1.0

Et supposons que nous déterminions le poids et le biais comme suit -

W1 = 0.65, W2 = 1.75, W3 = 2.05 and b = 0.33

Maintenant, pour prédire la classe, nous devons appliquer la formule suivante -

Z = (X1*W1)+(X2*W2)+(X3+W3)+b
i.e. Z = (3.0)*(0.65) + (-2.0)*(1.75) + (1.0)*(2.05) + 0.33
= 0.83

Ensuite, nous devons calculer P = 1.0/(1.0 + exp(-Z)). Ici, la fonction exp () est le nombre d'Euler.

P = 1.0/(1.0 + exp(-0.83)
= 0.6963

La valeur P peut être interprétée comme la probabilité que la classe soit 1. Si P <0,5, la prédiction est class = 0 sinon la prédiction (P> = 0,5) est class = 1.

Pour déterminer les valeurs de poids et de biais, nous devons obtenir un ensemble de données d'apprentissage ayant les valeurs de prédicteur d'entrée connues et les valeurs d'étiquettes de classe correctes connues. Après cela, nous pouvons utiliser un algorithme, généralement Gradient Descent, afin de trouver les valeurs de poids et de biais.

Exemple d'implémentation du modèle LR

Pour ce modèle LR, nous allons utiliser l'ensemble de données suivant -

1.0, 2.0, 0
3.0, 4.0, 0
5.0, 2.0, 0
6.0, 3.0, 0
8.0, 1.0, 0
9.0, 2.0, 0
1.0, 4.0, 1
2.0, 5.0, 1
4.0, 6.0, 1
6.0, 5.0, 1
7.0, 3.0, 1
8.0, 5.0, 1

Pour démarrer cette implémentation de modèle LR dans CNTK, nous devons d'abord importer les packages suivants -

import numpy as np
import cntk as C

Le programme est structuré avec la fonction main () comme suit -

def main():
print("Using CNTK version = " + str(C.__version__) + "\n")

Maintenant, nous devons charger les données d'entraînement en mémoire comme suit -

data_file = ".\\dataLRmodel.txt"
print("Loading data from " + data_file + "\n")
features_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",", skiprows=0, usecols=[0,1])
labels_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",", skiprows=0, usecols=[2], ndmin=2)

Maintenant, nous allons créer un programme de formation qui crée un modèle de régression logistique compatible avec les données de formation -

features_dim = 2
labels_dim = 1
X = C.ops.input_variable(features_dim, np.float32)
y = C.input_variable(labels_dim, np.float32)
W = C.parameter(shape=(features_dim, 1)) # trainable cntk.Parameter
b = C.parameter(shape=(labels_dim))
z = C.times(X, W) + b
p = 1.0 / (1.0 + C.exp(-z))
model = p

Maintenant, nous devons créer Lerner et le formateur comme suit -

ce_error = C.binary_cross_entropy(model, y) # CE a bit more principled for LR
fixed_lr = 0.010
learner = C.sgd(model.parameters, fixed_lr)
trainer = C.Trainer(model, (ce_error), [learner])
max_iterations = 4000

Formation modèle LR

Une fois que nous avons créé le modèle LR, ensuite, il est temps de commencer le processus de formation -

np.random.seed(4)
N = len(features_mat)
for i in range(0, max_iterations):
row = np.random.choice(N,1) # pick a random row from training items
trainer.train_minibatch({ X: features_mat[row], y: labels_mat[row] })
if i % 1000 == 0 and i > 0:
mcee = trainer.previous_minibatch_loss_average
print(str(i) + " Cross-entropy error on curr item = %0.4f " % mcee)

Maintenant, à l'aide du code suivant, nous pouvons imprimer les poids et biais du modèle -

np.set_printoptions(precision=4, suppress=True)
print("Model weights: ")
print(W.value)
print("Model bias:")
print(b.value)
print("")
if __name__ == "__main__":
main()

Formation d'un modèle de régression logistique - Exemple complet

import numpy as np
import cntk as C
   def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
data_file = ".\\dataLRmodel.txt" # provide the name and the location of data file
print("Loading data from " + data_file + "\n")
features_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",", skiprows=0, usecols=[0,1])
labels_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",", skiprows=0, usecols=[2], ndmin=2)
features_dim = 2
labels_dim = 1
X = C.ops.input_variable(features_dim, np.float32)
y = C.input_variable(labels_dim, np.float32)
W = C.parameter(shape=(features_dim, 1)) # trainable cntk.Parameter
b = C.parameter(shape=(labels_dim))
z = C.times(X, W) + b
p = 1.0 / (1.0 + C.exp(-z))
model = p
ce_error = C.binary_cross_entropy(model, y) # CE a bit more principled for LR
fixed_lr = 0.010
learner = C.sgd(model.parameters, fixed_lr)
trainer = C.Trainer(model, (ce_error), [learner])
max_iterations = 4000
np.random.seed(4)
N = len(features_mat)
for i in range(0, max_iterations):
row = np.random.choice(N,1) # pick a random row from training items
trainer.train_minibatch({ X: features_mat[row], y: labels_mat[row] })
if i % 1000 == 0 and i > 0:
mcee = trainer.previous_minibatch_loss_average
print(str(i) + " Cross-entropy error on curr item = %0.4f " % mcee)
np.set_printoptions(precision=4, suppress=True)
print("Model weights: ")
print(W.value)
print("Model bias:")
print(b.value)
if __name__ == "__main__":
  main()

Production

Using CNTK version = 2.7
1000 cross entropy error on curr item = 0.1941
2000 cross entropy error on curr item = 0.1746
3000 cross entropy error on curr item = 0.0563
Model weights:
[-0.2049]
   [0.9666]]
Model bias:
[-2.2846]

Prédiction à l'aide du modèle LR entraîné

Une fois que le modèle LR a été formé, nous pouvons l'utiliser pour la prédiction comme suit -

Tout d'abord, notre programme d'évaluation importe le package numpy et charge les données d'entraînement dans une matrice de caractéristiques et une matrice d'étiquette de classe de la même manière que le programme d'entraînement que nous implémentons ci-dessus -

import numpy as np
def main():
data_file = ".\\dataLRmodel.txt" # provide the name and the location of data file
features_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",",
skiprows=0, usecols=(0,1))
labels_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",",
skiprows=0, usecols=[2], ndmin=2)

Ensuite, il est temps de définir les valeurs des poids et du biais qui ont été déterminés par notre programme de formation -

print("Setting weights and bias values \n")
weights = np.array([0.0925, 1.1722], dtype=np.float32)
bias = np.array([-4.5400], dtype=np.float32)
N = len(features_mat)
features_dim = 2

Ensuite, notre programme d'évaluation calculera la probabilité de régression logistique en parcourant chaque élément de formation comme suit -

print("item pred_prob pred_label act_label result")
for i in range(0, N): # each item
   x = features_mat[i]
   z = 0.0
   for j in range(0, features_dim):
   z += x[j] * weights[j]
   z += bias[0]
   pred_prob = 1.0 / (1.0 + np.exp(-z))
  pred_label = 0 if pred_prob < 0.5 else 1
   act_label = labels_mat[i]
   pred_str = ‘correct’ if np.absolute(pred_label - act_label) < 1.0e-5 \
    else ‘WRONG’
  print("%2d %0.4f %0.0f %0.0f %s" % \ (i, pred_prob, pred_label, act_label, pred_str))

Maintenant, montrons comment faire des prédictions -

x = np.array([9.5, 4.5], dtype=np.float32)
print("\nPredicting class for age, education = ")
print(x)
z = 0.0
for j in range(0, features_dim):
z += x[j] * weights[j]
z += bias[0]
p = 1.0 / (1.0 + np.exp(-z))
print("Predicted p = " + str(p))
if p < 0.5: print("Predicted class = 0")
else: print("Predicted class = 1")

Programme complet d'évaluation des prédictions

import numpy as np
def main():
data_file = ".\\dataLRmodel.txt" # provide the name and the location of data file
features_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",",
skiprows=0, usecols=(0,1))
labels_mat = np.loadtxt(data_file, dtype=np.float32, delimiter=",",
skiprows=0, usecols=[2], ndmin=2)
print("Setting weights and bias values \n")
weights = np.array([0.0925, 1.1722], dtype=np.float32)
bias = np.array([-4.5400], dtype=np.float32)
N = len(features_mat)
features_dim = 2
print("item pred_prob pred_label act_label result")
for i in range(0, N): # each item
   x = features_mat[i]
   z = 0.0
   for j in range(0, features_dim):
     z += x[j] * weights[j]
   z += bias[0]
   pred_prob = 1.0 / (1.0 + np.exp(-z))
   pred_label = 0 if pred_prob < 0.5 else 1
   act_label = labels_mat[i]
   pred_str = ‘correct’ if np.absolute(pred_label - act_label) < 1.0e-5 \
     else ‘WRONG’
  print("%2d %0.4f %0.0f %0.0f %s" % \ (i, pred_prob, pred_label, act_label, pred_str))
x = np.array([9.5, 4.5], dtype=np.float32)
print("\nPredicting class for age, education = ")
print(x)
z = 0.0
for j in range(0, features_dim):
   z += x[j] * weights[j]
z += bias[0]
p = 1.0 / (1.0 + np.exp(-z))
print("Predicted p = " + str(p))
if p < 0.5: print("Predicted class = 0")
else: print("Predicted class = 1")
if __name__ == "__main__":
  main()

Production

Définition des poids et des valeurs de biais.

Item  pred_prob  pred_label  act_label  result
0   0.3640         0             0     correct
1   0.7254         1             0      WRONG
2   0.2019         0             0     correct
3   0.3562         0             0     correct
4   0.0493         0             0     correct
5   0.1005         0             0     correct
6   0.7892         1             1     correct
7   0.8564         1             1     correct
8   0.9654         1             1     correct
9   0.7587         1             1     correct
10  0.3040         0             1      WRONG
11  0.7129         1             1     correct
Predicting class for age, education =
[9.5 4.5]
Predicting p = 0.526487952
Predicting class = 1

Ce chapitre traite des concepts de Neural Network en ce qui concerne CNTK.

Comme nous le savons, plusieurs couches de neurones sont utilisées pour créer un réseau de neurones. Mais, la question se pose que dans CNTK comment pouvons-nous modéliser les couches d'un NN? Cela peut être fait à l'aide des fonctions de couche définies dans le module de couche.

Fonction de calque

En fait, dans CNTK, travailler avec les couches a une sensation de programmation fonctionnelle distincte. La fonction de calque ressemble à une fonction régulière et produit une fonction mathématique avec un ensemble de paramètres prédéfinis. Voyons comment nous pouvons créer le type de calque le plus basique, Dense, à l'aide de la fonction de calque.

Exemple

À l'aide des étapes de base suivantes, nous pouvons créer le type de couche le plus basique -

Step 1 - Tout d'abord, nous devons importer la fonction de couche dense du package des couches de CNTK.

from cntk.layers import Dense

Step 2 - Ensuite, à partir du package racine CNTK, nous devons importer la fonction input_variable.

from cntk import input_variable

Step 3- Maintenant, nous devons créer une nouvelle variable d'entrée en utilisant la fonction input_variable. Nous devons également fournir sa taille.

feature = input_variable(100)

Step 4 - Enfin, nous allons créer une nouvelle couche en utilisant la fonction Dense tout en fournissant le nombre de neurones que nous voulons.

layer = Dense(40)(feature)

Maintenant, nous pouvons appeler la fonction de couche dense configurée pour connecter la couche dense à l'entrée.

Exemple d'implémentation complet

from cntk.layers import Dense
from cntk import input_variable
feature= input_variable(100)
layer = Dense(40)(feature)

Personnalisation des calques

Comme nous l'avons vu, CNTK nous fournit un très bon ensemble de valeurs par défaut pour la construction de NN. Basé suractivationfonction et autres paramètres que nous choisissons, le comportement ainsi que les performances du NN sont différents. C'est un autre algorithme de dérivation très utile. Voilà la raison, il est bon de comprendre ce que l'on peut configurer.

Étapes pour configurer une couche dense

Chaque couche dans NN a ses options de configuration uniques et lorsque nous parlons de couche dense, nous avons les paramètres importants suivants à définir:

  • shape - Comme son nom l'indique, il définit la forme de sortie de la couche qui détermine en outre le nombre de neurones dans cette couche.

  • activation - Il définit la fonction d'activation de cette couche, afin de pouvoir transformer les données d'entrée.

  • init- Il définit la fonction d'initialisation de cette couche. Il initialisera les paramètres de la couche lorsque nous commencerons à entraîner le NN.

Voyons les étapes à l'aide desquelles nous pouvons configurer un Dense couche -

Step1 - Tout d'abord, nous devons importer le Dense fonction de couche du package des couches de CNTK.

from cntk.layers import Dense

Step2 - Ensuite du package CNTK ops, nous devons importer le sigmoid operator. Il sera utilisé pour configurer comme fonction d'activation.

from cntk.ops import sigmoid

Step3 - Maintenant, à partir du package d'initialisation, nous devons importer le glorot_uniform initialiseur.

from cntk.initializer import glorot_uniform

Step4 - Enfin, nous allons créer une nouvelle couche en utilisant la fonction Dense et en fournissant le nombre de neurones comme premier argument. Aussi, fournissez lesigmoid opérateur comme activation fonction et le glorot_uniform comme le init fonction pour la couche.

layer = Dense(50, activation = sigmoid, init = glorot_uniform)

Exemple d'implémentation complet -

from cntk.layers import Dense
from cntk.ops import sigmoid
from cntk.initializer import glorot_uniform
layer = Dense(50, activation = sigmoid, init = glorot_uniform)

Optimiser les paramètres

Jusqu'à présent, nous avons vu comment créer la structure d'un NN et comment configurer divers paramètres. Ici, nous allons voir comment nous pouvons optimiser les paramètres d'un NN. Avec l'aide de la combinaison de deux composants à savoirlearners et trainers, nous pouvons optimiser les paramètres d'un NN.

composant formateur

Le premier composant utilisé pour optimiser les paramètres d'un NN est trainercomposant. Il implémente essentiellement le processus de rétropropagation. Si nous parlons de son fonctionnement, il passe les données à travers le NN pour obtenir une prédiction.

Après cela, il utilise un autre composant appelé apprenant afin d'obtenir les nouvelles valeurs des paramètres dans un NN. Une fois qu'il a obtenu les nouvelles valeurs, il applique ces nouvelles valeurs et répète le processus jusqu'à ce qu'un critère de sortie soit satisfait.

composante apprenant

Le deuxième composant utilisé pour optimiser les paramètres d'un NN est learner composant, qui est essentiellement responsable de l'exécution de l'algorithme de descente de gradient.

Apprenants inclus dans la bibliothèque CNTK

Voici la liste de certains des apprenants intéressants inclus dans la bibliothèque CNTK -

  • Stochastic Gradient Descent (SGD) - Cet apprenant représente la descente de gradient stochastique de base, sans aucun extras.

  • Momentum Stochastic Gradient Descent (MomentumSGD) - Avec SGD, cet apprenant applique l'élan pour surmonter le problème des maxima locaux.

  • RMSProp - Cet apprenant, pour contrôler le taux de descente, utilise des taux d'apprentissage décroissants.

  • Adam - Cet apprenant, afin de diminuer le taux de descente au fil du temps, utilise l'élan décroissant.

  • Adagrad - Cet apprenant, pour les fonctionnalités fréquentes et peu fréquentes, utilise des taux d'apprentissage différents.

CNTK - Création du premier réseau neuronal

Ce chapitre développera la création d'un réseau neuronal dans CNTK.

Construire la structure du réseau

Afin d'appliquer les concepts CNTK pour construire notre premier NN, nous allons utiliser NN pour classer les espèces de fleurs d'iris en fonction des propriétés physiques de la largeur et de la longueur des sépales, ainsi que de la largeur et de la longueur des pétales. L'ensemble de données que nous utiliserons ensemble de données d'iris qui décrit les propriétés physiques de différentes variétés de fleurs d'iris -

  • Longueur sépale
  • Largeur sépale
  • Longueur des pétales
  • Largeur des pétales
  • Classe ie iris setosa ou iris versicolor ou iris virginica

Ici, nous allons construire un NN régulier appelé NN feedforward. Voyons les étapes de mise en œuvre pour construire la structure de NN -

Step 1 - Tout d'abord, nous allons importer les composants nécessaires tels que nos types de couches, les fonctions d'activation et une fonction qui nous permet de définir une variable d'entrée pour notre NN, à partir de la bibliothèque CNTK.

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu

Step 2- Après cela, nous créerons notre modèle en utilisant la fonction séquentielle. Une fois créé, nous l'alimenterons avec les couches que nous voulons. Ici, nous allons créer deux couches distinctes dans notre NN; un avec quatre neurones et un autre avec trois neurones.

model = Sequential([Dense(4, activation=relu), Dense(3, activation=log_sogtmax)])

Step 3- Enfin, afin de compiler le NN, nous allons lier le réseau à la variable d'entrée. Il a une couche d'entrée avec quatre neurones et une couche de sortie avec trois neurones.

feature= input_variable(4)
z = model(feature)

Appliquer une fonction d'activation

Il existe de nombreuses fonctions d'activation parmi lesquelles choisir et choisir la bonne fonction d'activation fera certainement une grande différence dans les performances de notre modèle d'apprentissage en profondeur.

Au niveau de la couche de sortie

Choisir un activation La fonction au niveau de la couche de sortie dépendra du type de problème que nous allons résoudre avec notre modèle.

  • Pour un problème de régression, nous devrions utiliser un linear activation function sur la couche de sortie.

  • Pour un problème de classification binaire, nous devrions utiliser un sigmoid activation function sur la couche de sortie.

  • Pour un problème de classification multi-classes, nous devrions utiliser un softmax activation function sur la couche de sortie.

  • Ici, nous allons construire un modèle pour prédire l'une des trois classes. Cela signifie que nous devons utilisersoftmax activation function au niveau de la couche de sortie.

Au niveau de la couche cachée

Choisir un activation La fonction au niveau de la couche cachée nécessite une certaine expérimentation pour surveiller les performances afin de voir quelle fonction d'activation fonctionne bien.

  • Dans un problème de classification, nous devons prédire la probabilité qu'un échantillon appartienne à une classe spécifique. C'est pourquoi nous avons besoin d'unactivation functioncela nous donne des valeurs probabilistes. Pour atteindre cet objectif,sigmoid activation function peut nous aider.

  • L'un des problèmes majeurs associés à la fonction sigmoïde est le problème du gradient de disparition. Pour surmonter ce problème, nous pouvons utiliserReLU activation function qui couvre toutes les valeurs négatives à zéro et fonctionne comme un filtre pass-through pour les valeurs positives.

Choisir une fonction de perte

Une fois que nous avons la structure de notre modèle NN, nous devons l'optimiser. Pour l'optimisation, nous avons besoin d'unloss function. contrairement àactivation functions, nous avons très peu de choix de fonctions de perte. Cependant, le choix d'une fonction de perte dépendra du type de problème que nous allons résoudre avec notre modèle.

Par exemple, dans un problème de classification, nous devrions utiliser une fonction de perte qui peut mesurer la différence entre une classe prédite et une classe réelle.

fonction de perte

Pour le problème de classification, nous allons résoudre avec notre modèle NN, categorical cross entropyla fonction de perte est le meilleur candidat. Dans CNTK, il est implémenté commecross_entropy_with_softmax qui peut être importé de cntk.losses package, comme suit -

label= input_variable(3)
loss = cross_entropy_with_softmax(z, label)

Métrique

Avec la structure de notre modèle NN et une fonction de perte à appliquer, nous avons tous les ingrédients pour commencer à faire la recette pour optimiser notre modèle d'apprentissage en profondeur. Mais, avant de nous plonger dans ce sujet, nous devons en apprendre davantage sur les métriques.

cntk.metrics

CNTK a le package nommé cntk.metricsà partir de laquelle nous pouvons importer les métriques que nous allons utiliser. Au fur et à mesure que nous construisons un modèle de classification, nous utiliseronsclassification_error matrice qui produira un nombre entre 0 et 1. Le nombre entre 0 et 1 indique le pourcentage d'échantillons correctement prédit -

Tout d'abord, nous devons importer la métrique depuis cntk.metrics paquet -

from cntk.metrics import classification_error
error_rate = classification_error(z, label)

La fonction ci-dessus a en fait besoin de la sortie du NN et de l'étiquette attendue comme entrée.

CNTK - Formation du réseau neuronal

Ici, nous allons comprendre la formation du réseau neuronal dans CNTK.

Formation d'un modèle en CNTK

Dans la section précédente, nous avons défini tous les composants du modèle d'apprentissage en profondeur. Il est maintenant temps de le former. Comme nous l'avons vu précédemment, nous pouvons entraîner un modèle NN dans CNTK en utilisant la combinaison delearner et trainer.

Choisir un apprenant et mettre en place une formation

Dans cette section, nous définirons le learner. CNTK fournit plusieurslearnersà choisir. Pour notre modèle, défini dans les sections précédentes, nous utiliseronsStochastic Gradient Descent (SGD) learner.

Afin de former le réseau de neurones, configurons le learner et trainer à l'aide des étapes suivantes -

Step 1 - Tout d'abord, nous devons importer sgd fonction de cntk.lerners paquet.

from cntk.learners import sgd

Step 2 - Ensuite, nous devons importer Trainer fonction de cntk.trainPaquet .trainer.

from cntk.train.trainer import Trainer

Step 3 - Maintenant, nous devons créer un learner. Il peut être créé en invoquantsgd fonction en plus de fournir les paramètres du modèle et une valeur pour le taux d'apprentissage.

learner = sgd(z.parametrs, 0.01)

Step 4 - Enfin, nous devons initialiser le trainer. Il faut prévoir le réseau, la combinaison desloss et metric avec le learner.

trainer = Trainer(z, (loss, error_rate), [learner])

Le taux d'apprentissage qui contrôle la vitesse d'optimisation doit être un petit nombre entre 0,1 et 0,001.

Choix d'un apprenant et mise en place de la formation - Exemple complet

from cntk.learners import sgd
from cntk.train.trainer import Trainer
learner = sgd(z.parametrs, 0.01)
trainer = Trainer(z, (loss, error_rate), [learner])

Alimentation des données dans le formateur

Une fois que nous avons choisi et configuré le formateur, il est temps de charger l'ensemble de données. Nous avons sauvé leiris ensemble de données en tant que fichier.CSV fichier et nous utiliserons le package de gestion de données nommé pandas pour charger l'ensemble de données.

Étapes pour charger l'ensemble de données à partir du fichier .CSV

Step 1 - Tout d'abord, nous devons importer le pandas paquet.

from import pandas as pd

Step 2 - Maintenant, nous devons invoquer la fonction nommée read_csv pour charger le fichier .csv à partir du disque.

df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, 
‘petal_length’, ‘petal_width’, index_col=False)

Une fois que nous avons chargé l'ensemble de données, nous devons le diviser en un ensemble d'entités et une étiquette.

Étapes pour diviser le jeu de données en entités et en étiquettes

Step 1- Tout d'abord, nous devons sélectionner toutes les lignes et les quatre premières colonnes de l'ensemble de données. Cela peut être fait en utilisantiloc fonction.

x = df_source.iloc[:, :4].values

Step 2- Ensuite, nous devons sélectionner la colonne des espèces dans l'ensemble de données iris. Nous utiliserons la propriété values ​​pour accéder au sous-jacentnumpy tableau.

x = df_source[‘species’].values

Étapes pour coder la colonne des espèces en une représentation vectorielle numérique

Comme nous l'avons vu précédemment, notre modèle est basé sur la classification, il nécessite des valeurs d'entrée numériques. Par conséquent, nous devons ici coder la colonne des espèces en une représentation vectorielle numérique. Voyons les étapes pour le faire -

Step 1- Tout d'abord, nous devons créer une expression de liste pour itérer sur tous les éléments du tableau. Ensuite, effectuez une recherche dans le dictionnaire label_mapping pour chaque valeur.

label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}

Step 2- Ensuite, convertissez cette valeur numérique convertie en un vecteur encodé à chaud. Nous utiliseronsone_hot fonction comme suit -

def one_hot(index, length):
result = np.zeros(length)
result[index] = 1
return result

Step 3 - Enfin, nous devons transformer cette liste convertie en un numpy tableau.

y = np.array([one_hot(label_mapping[v], 3) for v in y])

Étapes pour détecter le surajustement

La situation, lorsque votre modèle se souvient des échantillons mais ne peut pas déduire de règles à partir des échantillons d'apprentissage, est surajustement. À l'aide des étapes suivantes, nous pouvons détecter le surajustement sur notre modèle -

Step 1 - D'abord, de sklearn package, importez le train_test_split fonction de la model_selection module.

from sklearn.model_selection import train_test_split

Step 2 - Ensuite, nous devons invoquer la fonction train_test_split avec les caractéristiques x et les étiquettes y comme suit -

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0-2, 
stratify=y)

Nous avons spécifié un test_size de 0,2 pour mettre de côté 20% du total des données.

label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}

Étapes pour alimenter l'ensemble de formation et l'ensemble de validation dans notre modèle

Step 1 - Afin de former notre modèle, nous allons d'abord invoquer le train_minibatchméthode. Ensuite, donnez-lui un dictionnaire qui mappe les données d'entrée à la variable d'entrée que nous avons utilisée pour définir le NN et sa fonction de perte associée.

trainer.train_minibatch({ features: X_train, label: y_train})

Step 2 - Ensuite, appelez train_minibatch en utilisant la boucle for suivante -

for _epoch in range(10):
trainer.train_minbatch ({ feature: X_train, label: y_train})
print(‘Loss: {}, Acc: {}’.format(
trainer.previous_minibatch_loss_average,
trainer.previous_minibatch_evaluation_average))

Introduire des données dans le formateur - Exemple complet

from import pandas as pd
df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, index_col=False)
x = df_source.iloc[:, :4].values
x = df_source[‘species’].values
label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}
def one_hot(index, length):
result = np.zeros(length)
result[index] = 1
return result
y = np.array([one_hot(label_mapping[v], 3) for v in y])
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0-2, stratify=y)
label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}
trainer.train_minibatch({ features: X_train, label: y_train})
for _epoch in range(10):
trainer.train_minbatch ({ feature: X_train, label: y_train})
print(‘Loss: {}, Acc: {}’.format(
trainer.previous_minibatch_loss_average,
trainer.previous_minibatch_evaluation_average))

Mesurer les performances de NN

Afin d'optimiser notre modèle NN, chaque fois que nous transmettons des données via le formateur, il mesure les performances du modèle via la métrique que nous avons configurée pour le formateur. Une telle mesure des performances du modèle NN pendant la formation se fait sur les données de formation. Mais d'un autre côté, pour une analyse complète des performances du modèle, nous devons également utiliser des données de test.

Ainsi, pour mesurer les performances du modèle à l'aide des données de test, nous pouvons appeler le test_minibatch méthode sur le trainer comme suit -

trainer.test_minibatch({ features: X_test, label: y_test})

Faire des prédictions avec NN

Une fois que vous avez formé un modèle d'apprentissage en profondeur, le plus important est de faire des prédictions à l'aide de celui-ci. Afin de faire une prédiction à partir du NN formé ci-dessus, nous pouvons suivre les étapes données -

Step 1 - Tout d'abord, nous devons choisir un élément aléatoire de l'ensemble de test en utilisant la fonction suivante -

np.random.choice

Step 2 - Ensuite, nous devons sélectionner les données d'échantillon de l'ensemble de test en utilisant sample_index.

Step 3 - Maintenant, afin de convertir la sortie numérique vers le NN en une étiquette réelle, créez un mappage inversé.

Step 4 - Maintenant, utilisez le sampleLes données. Faites une prédiction en invoquant le NN z en tant que fonction.

Step 5- Maintenant, une fois que vous avez obtenu la sortie prédite, prenez l'indice du neurone qui a la valeur la plus élevée comme valeur prédite. Cela peut être fait en utilisant lenp.argmax fonction de la numpy paquet.

Step 6 - Enfin, convertissez la valeur d'index en étiquette réelle en utilisant inverted_mapping.

Faire des prédictions avec NN - Exemple complet

sample_index = np.random.choice(X_test.shape[0])
sample = X_test[sample_index]
inverted_mapping = {
   1:’Iris-setosa’,
   2:’Iris-versicolor’,
   3:’Iris-virginica’
}
prediction = z(sample)
predicted_label = inverted_mapping[np.argmax(prediction)]
print(predicted_label)

Production

Après avoir entraîné le modèle d'apprentissage en profondeur ci-dessus et l'avoir exécuté, vous obtiendrez le résultat suivant:

Iris-versicolor

CNTK - En mémoire et grands ensembles de données

Dans ce chapitre, nous allons apprendre comment travailler avec les ensembles de données en mémoire et volumineux dans CNTK.

Entraînement avec de petits ensembles de données en mémoire

Lorsque nous parlons d'alimenter des données dans le formateur CNTK, il peut y avoir de nombreuses façons, mais cela dépendra de la taille de l'ensemble de données et du format des données. Les ensembles de données peuvent être de petits ensembles de données en mémoire ou de grands ensembles de données.

Dans cette section, nous allons travailler avec des ensembles de données en mémoire. Pour cela, nous utiliserons les deux frameworks suivants -

  • Numpy
  • Pandas

Utilisation de tableaux Numpy

Ici, nous travaillerons avec un ensemble de données généré aléatoirement basé sur numpy dans CNTK. Dans cet exemple, nous allons simuler des données pour un problème de classification binaire. Supposons que nous ayons un ensemble d'observations avec 4 fonctionnalités et que nous souhaitons prédire deux étiquettes possibles avec notre modèle d'apprentissage en profondeur.

Exemple d'implémentation

Pour cela, nous devons d'abord générer un ensemble d'étiquettes contenant une représentation vectorielle ponctuelle des étiquettes, que nous voulons prédire. Cela peut être fait à l'aide des étapes suivantes -

Step 1 - Importez le numpy paquet comme suit -

import numpy as np
num_samples = 20000

Step 2 - Ensuite, générez un mappage d'étiquettes en utilisant np.eye fonction comme suit -

label_mapping = np.eye(2)

Step 3 - Maintenant en utilisant np.random.choice fonction, collectez les 20000 échantillons aléatoires comme suit -

y = label_mapping[np.random.choice(2,num_samples)].astype(np.float32)

Step 4 - Enfin, en utilisant la fonction np.random.random, générez un tableau de valeurs flottantes aléatoires comme suit -

x = np.random.random(size=(num_samples, 4)).astype(np.float32)

Une fois que nous générons un tableau de valeurs à virgule flottante aléatoires, nous devons les convertir en nombres à virgule flottante 32 bits afin qu'il puisse être mis en correspondance avec le format attendu par CNTK. Suivons les étapes ci-dessous pour ce faire -

Step 5 - Importez les fonctions de couche dense et séquentielle du module cntk.layers comme suit -

from cntk.layers import Dense, Sequential

Step 6- Maintenant, nous devons importer la fonction d'activation pour les couches du réseau. Importons lesigmoid comme fonction d'activation -

from cntk import input_variable, default_options
from cntk.ops import sigmoid

Step 7- Maintenant, nous devons importer la fonction de perte pour former le réseau. Importonsbinary_cross_entropy comme fonction de perte -

from cntk.losses import binary_cross_entropy

Step 8- Ensuite, nous devons définir les options par défaut pour le réseau. Ici, nous fournirons lesigmoidfonction d'activation comme paramètre par défaut. Créez également le modèle à l'aide de la fonction de calque séquentiel comme suit -

with default_options(activation=sigmoid):
model = Sequential([Dense(6),Dense(2)])

Step 9 - Ensuite, initialisez un input_variable avec 4 fonctions d'entrée servant d'entrée pour le réseau.

features = input_variable(4)

Step 10 - Maintenant, pour le compléter, nous devons connecter la variable features au NN.

z = model(features)

Donc, maintenant nous avons un NN, à l'aide des étapes suivantes, entraînons-le en utilisant un jeu de données en mémoire -

Step 11 - Pour former ce NN, nous devons d'abord importer l'apprenant de cntk.learnersmodule. Nous importeronssgd l'apprenant comme suit -

from cntk.learners import sgd

Step 12 - Parallèlement à cela, importez le ProgressPrinter de cntk.logging module également.

from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)

Step 13 - Ensuite, définissez une nouvelle variable d'entrée pour les étiquettes comme suit -

labels = input_variable(2)

Step 14 - Afin d'entraîner le modèle NN, nous devons ensuite définir une perte à l'aide du binary_cross_entropyfonction. Fournissez également le modèle z et la variable labels.

loss = binary_cross_entropy(z, labels)

Step 15 - Ensuite, initialisez le sgd l'apprenant comme suit -

learner = sgd(z.parameters, lr=0.1)

Step 16- Enfin, appelez la méthode train sur la fonction perte. Aussi, fournissez-lui les données d'entrée, lesgd l'apprenant et le progress_printer.−

training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=[progress_writer])

Exemple d'implémentation complet

import numpy as np
num_samples = 20000
label_mapping = np.eye(2)
y = label_mapping[np.random.choice(2,num_samples)].astype(np.float32)
x = np.random.random(size=(num_samples, 4)).astype(np.float32)
from cntk.layers import Dense, Sequential
from cntk import input_variable, default_options
from cntk.ops import sigmoid
from cntk.losses import binary_cross_entropy
with default_options(activation=sigmoid):
   model = Sequential([Dense(6),Dense(2)])
features = input_variable(4)
z = model(features)
from cntk.learners import sgd
from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)
labels = input_variable(2)
loss = binary_cross_entropy(z, labels)
learner = sgd(z.parameters, lr=0.1)
training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=[progress_writer])

Production

Build info:
     Built time: *** ** **** 21:40:10
     Last modified date: *** *** ** 21:08:46 2019
     Build type: Release
     Build target: CPU-only
     With ASGD: yes
     Math lib: mkl
     Build Branch: HEAD
     Build SHA1:ae9c9c7c5f9e6072cc9c94c254f816dbdc1c5be6 (modified)
     MPI distribution: Microsoft MPI
     MPI version: 7.0.12437.6
-------------------------------------------------------------------
average   since   average   since examples
loss      last    metric    last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.52      1.52      0         0     32
1.51      1.51      0         0     96
1.48      1.46      0         0    224
1.45      1.42      0         0    480
1.42       1.4      0         0    992
1.41      1.39      0         0   2016
1.4       1.39      0         0   4064
1.39      1.39      0         0   8160
1.39      1.39      0         0  16352

Utilisation de Pandas DataFrames

Les tableaux Numpy sont très limités dans ce qu'ils peuvent contenir et constituent l'un des moyens les plus élémentaires de stocker des données. Par exemple, un seul tableau à n dimensions peut contenir des données d'un seul type de données. Mais d'un autre côté, pour de nombreux cas réels, nous avons besoin d'une bibliothèque capable de gérer plus d'un type de données dans un seul ensemble de données.

L'une des bibliothèques Python appelée Pandas facilite le travail avec ce type d'ensembles de données. Il introduit le concept de DataFrame (DF) et nous permet de charger des ensembles de données à partir d'un disque stocké dans divers formats sous forme de DF. Par exemple, nous pouvons lire les DF stockés au format CSV, JSON, Excel, etc.

Vous pouvez apprendre la bibliothèque Python Pandas plus en détail sur https://www.tutorialspoint.com/python_pandas/index.htm.

Exemple d'implémentation

Dans cet exemple, nous allons utiliser l'exemple de la classification de trois espèces possibles de fleurs d'iris en fonction de quatre propriétés. Nous avons également créé ce modèle d'apprentissage en profondeur dans les sections précédentes. Le modèle est le suivant -

from cntk.layers import Dense, Sequential
from cntk import input_variable, default_options
from cntk.ops import sigmoid, log_softmax
from cntk.losses import binary_cross_entropy
model = Sequential([
Dense(4, activation=sigmoid),
Dense(3, activation=log_softmax)
])
features = input_variable(4)
z = model(features)

Le modèle ci-dessus contient une couche cachée et une couche de sortie avec trois neurones pour correspondre au nombre de classes que nous pouvons prédire.

Ensuite, nous utiliserons le train méthode et lossfonction pour former le réseau. Pour cela, nous devons d'abord charger et prétraiter l'ensemble de données iris, afin qu'il corresponde à la disposition et au format de données attendus pour le NN. Cela peut être fait à l'aide des étapes suivantes -

Step 1 - Importez le numpy et Pandas paquet comme suit -

import numpy as np
import pandas as pd

Step 2 - Ensuite, utilisez le read_csv fonction pour charger le jeu de données en mémoire -

df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’,
 ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)

Step 3 - Nous devons maintenant créer un dictionnaire qui mappera les étiquettes de l'ensemble de données avec leur représentation numérique correspondante.

label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}

Step 4 - Maintenant, en utilisant iloc indexeur sur le DataFrame, sélectionnez les quatre premières colonnes comme suit -

x = df_source.iloc[:, :4].values

Step 5- Ensuite, nous devons sélectionner les colonnes d'espèces comme étiquettes pour l'ensemble de données. Cela peut être fait comme suit -

y = df_source[‘species’].values

Step 6 - Maintenant, nous devons mapper les étiquettes dans l'ensemble de données, ce qui peut être fait en utilisant label_mapping. Utiliser aussione_hot encodage pour les convertir en tableaux d'encodage one-hot.

y = np.array([one_hot(label_mapping[v], 3) for v in y])

Step 7 - Ensuite, pour utiliser les fonctionnalités et les étiquettes mappées avec CNTK, nous devons les convertir tous les deux en flottants -

x= x.astype(np.float32)
y= y.astype(np.float32)

Comme nous le savons, les étiquettes sont stockées dans l'ensemble de données sous forme de chaînes et CNTK ne peut pas fonctionner avec ces chaînes. C'est la raison pour laquelle il a besoin de vecteurs encodés à chaud représentant les étiquettes. Pour cela, on peut définir une fonction direone_hot comme suit -

def one_hot(index, length):
result = np.zeros(length)
result[index] = index
return result

Maintenant, nous avons le tableau numpy dans le format correct, à l'aide des étapes suivantes, nous pouvons les utiliser pour entraîner notre modèle -

Step 8- Tout d'abord, nous devons importer la fonction de perte pour former le réseau. Importonsbinary_cross_entropy_with_softmax comme fonction de perte -

from cntk.losses import binary_cross_entropy_with_softmax

Step 9 - Pour former ce NN, nous devons également importer l'apprenant de cntk.learnersmodule. Nous importeronssgd l'apprenant comme suit -

from cntk.learners import sgd

Step 10 - Parallèlement à cela, importez le ProgressPrinter de cntk.logging module également.

from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)

Step 11 - Ensuite, définissez une nouvelle variable d'entrée pour les étiquettes comme suit -

labels = input_variable(3)

Step 12 - Afin d'entraîner le modèle NN, nous devons ensuite définir une perte à l'aide du binary_cross_entropy_with_softmaxfonction. Fournissez également le modèle z et la variable labels.

loss = binary_cross_entropy_with_softmax (z, labels)

Step 13 - Ensuite, initialisez le sgd l'apprenant comme suit -

learner = sgd(z.parameters, 0.1)

Step 14- Enfin, appelez la méthode train sur la fonction perte. Aussi, fournissez-lui les données d'entrée, lesgd l'apprenant et le progress_printer.

training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=
[progress_writer],minibatch_size=16,max_epochs=5)

Exemple d'implémentation complet

from cntk.layers import Dense, Sequential
from cntk import input_variable, default_options
from cntk.ops import sigmoid, log_softmax
from cntk.losses import binary_cross_entropy
model = Sequential([
Dense(4, activation=sigmoid),
Dense(3, activation=log_softmax)
])
features = input_variable(4)
z = model(features)
import numpy as np
import pandas as pd
df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)
label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}
x = df_source.iloc[:, :4].values
y = df_source[‘species’].values
y = np.array([one_hot(label_mapping[v], 3) for v in y])
x= x.astype(np.float32)
y= y.astype(np.float32)
def one_hot(index, length):
result = np.zeros(length)
result[index] = index
return result
from cntk.losses import binary_cross_entropy_with_softmax
from cntk.learners import sgd
from cntk.logging import ProgressPrinter
progress_writer = ProgressPrinter(0)
labels = input_variable(3)
loss = binary_cross_entropy_with_softmax (z, labels)
learner = sgd(z.parameters, 0.1)
training_summary=loss.train((x,y),parameter_learners=[learner],callbacks=[progress_writer],minibatch_size=16,max_epochs=5)

Production

Build info:
     Built time: *** ** **** 21:40:10
     Last modified date: *** *** ** 21:08:46 2019
     Build type: Release
     Build target: CPU-only
     With ASGD: yes
     Math lib: mkl
     Build Branch: HEAD
     Build SHA1:ae9c9c7c5f9e6072cc9c94c254f816dbdc1c5be6 (modified)
     MPI distribution: Microsoft MPI
     MPI version: 7.0.12437.6
-------------------------------------------------------------------
average    since    average   since   examples
loss        last     metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.1         1.1        0       0      16
0.835     0.704        0       0      32
1.993      1.11        0       0      48
1.14       1.14        0       0     112
[………]

Formation avec de grands ensembles de données

Dans la section précédente, nous avons travaillé avec de petits ensembles de données en mémoire à l'aide de Numpy et de pandas, mais tous les ensembles de données ne sont pas aussi petits. En particulier, les ensembles de données contenant des images, des vidéos et des échantillons sonores sont volumineux.MinibatchSourceest un composant capable de charger des données par blocs, fourni par CNTK pour travailler avec des ensembles de données aussi volumineux. Certaines des caractéristiques deMinibatchSource les composants sont les suivants -

  • MinibatchSource peut empêcher le surajustement de NN en randomisant automatiquement les échantillons lus depuis la source de données.

  • Il a un pipeline de transformation intégré qui peut être utilisé pour augmenter les données.

  • Il charge les données sur un thread d'arrière-plan distinct du processus d'entraînement.

Dans les sections suivantes, nous allons explorer comment utiliser une source de minibatch avec des données insuffisantes en mémoire pour travailler avec de grands ensembles de données. Nous allons également explorer, comment nous pouvons l'utiliser pour nourrir pour la formation d'un NN.

Création d'une instance MinibatchSource

Dans la section précédente, nous avons utilisé l'exemple de fleur d'iris et travaillé avec un petit jeu de données en mémoire à l'aide de Pandas DataFrames. Ici, nous remplacerons le code qui utilise les données d'un pandas DF parMinibatchSource. Tout d'abord, nous devons créer une instance deMinibatchSource à l'aide des étapes suivantes -

Exemple d'implémentation

Step 1 - D'abord, de cntk.io module importer les composants pour la minibatchsource comme suit -

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer,
 INFINITY_REPEAT

Step 2 - Maintenant, en utilisant StreamDef classe, créez une définition de flux pour les étiquettes.

labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)

Step 3 - Ensuite, créez pour lire les caractéristiques déposées à partir du fichier d'entrée, créez une autre instance de StreamDef comme suit.

feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)

Step 4 - Maintenant, nous devons fournir iris.ctf comme entrée et initialisez le deserializer comme suit -

deserializer = CTFDeserializer(‘iris.ctf’, StreamDefs(labels=
label_stream, features=features_stream)

Step 5 - Enfin, nous devons créer une instance de minisourceBatch en utilisant deserializer comme suit -

Minibatch_source = MinibatchSource(deserializer, randomize=True)

Création d'une instance MinibatchSource - Exemple d'implémentation complet

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer, INFINITY_REPEAT
labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)
feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)
deserializer = CTFDeserializer(‘iris.ctf’, StreamDefs(labels=label_stream, features=features_stream)
Minibatch_source = MinibatchSource(deserializer, randomize=True)

Création d'un fichier MCTF

Comme vous l'avez vu ci-dessus, nous prenons les données du fichier «iris.ctf». Il a le format de fichier appelé CNTK Text Format (CTF). Il est obligatoire de créer un fichier CTF pour obtenir les données duMinibatchSourceinstance que nous avons créée ci-dessus. Voyons comment nous pouvons créer un fichier CTF.

Exemple d'implémentation

Step 1 - Tout d'abord, nous devons importer les paquets pandas et numpy comme suit -

import pandas as pd
import numpy as np

Step 2- Ensuite, nous devons charger notre fichier de données, ie iris.csv en mémoire. Ensuite, stockez-le dans ledf_source variable.

df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)

Step 3 - Maintenant, en utilisant ilocindexer comme fonctionnalités, prenez le contenu des quatre premières colonnes. Utilisez également les données de la colonne des espèces comme suit -

features = df_source.iloc[: , :4].values
labels = df_source[‘species’].values

Step 4- Ensuite, nous devons créer un mappage entre le nom de l'étiquette et sa représentation numérique. Cela peut être fait en créantlabel_mapping comme suit -

label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}

Step 5 - Maintenant, convertissez les étiquettes en un ensemble de vecteurs encodés à chaud comme suit -

labels = [one_hot(label_mapping[v], 3) for v in labels]

Maintenant, comme nous l'avons fait auparavant, créez une fonction utilitaire appelée one_hotpour encoder les étiquettes. Cela peut être fait comme suit -

def one_hot(index, length):
result = np.zeros(length)
result[index] = 1
return result

Comme nous avons chargé et prétraité les données, il est temps de les stocker sur disque au format de fichier CTF. Nous pouvons le faire à l'aide du code Python suivant -

With open(‘iris.ctf’, ‘w’) as output_file:
for index in range(0, feature.shape[0]):
feature_values = ‘ ‘.join([str(x) for x in np.nditer(features[index])])
label_values = ‘ ‘.join([str(x) for x in np.nditer(labels[index])])
output_file.write(‘features {} | labels {} \n’.format(feature_values, label_values))

Création d'un fichier MCTF - Exemple d'implémentation complet

import pandas as pd
import numpy as np
df_source = pd.read_csv(‘iris.csv’, names = [‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘species’], index_col=False)
features = df_source.iloc[: , :4].values
labels = df_source[‘species’].values
label_mapping = {‘Iris-Setosa’ : 0, ‘Iris-Versicolor’ : 1, ‘Iris-Virginica’ : 2}
labels = [one_hot(label_mapping[v], 3) for v in labels]
def one_hot(index, length):
result = np.zeros(length)
result[index] = 1
return result
With open(‘iris.ctf’, ‘w’) as output_file:
for index in range(0, feature.shape[0]):
feature_values = ‘ ‘.join([str(x) for x in np.nditer(features[index])])
label_values = ‘ ‘.join([str(x) for x in np.nditer(labels[index])])
output_file.write(‘features {} | labels {} \n’.format(feature_values, label_values))

Nourrir les données

Une fois que vous créez MinibatchSource,exemple, nous devons le former. Nous pouvons utiliser la même logique d'entraînement que celle utilisée lorsque nous travaillons avec de petits ensembles de données en mémoire. Ici, nous allons utiliserMinibatchSource instance comme entrée pour la méthode de train sur la fonction de perte comme suit -

Exemple d'implémentation

Step 1 - Pour enregistrer la sortie de la session de formation, importez d'abord ProgressPrinter depuis cntk.logging module comme suit -

from cntk.logging import ProgressPrinter

Step 2 - Ensuite, pour configurer la session de formation, importez le trainer et training_session de cntk.train module comme suit -

from cntk.train import Trainer,

Step 3 - Maintenant, nous devons définir un ensemble de constantes comme minibatch_size, samples_per_epoch et num_epochs comme suit -

minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30

Step 4 - Ensuite, afin de savoir CNTK comment lire les données pendant l'entraînement, nous devons définir un mappage entre la variable d'entrée pour le réseau et les flux dans la source du minibatch.

input_map = {
     features: minibatch.source.streams.features,
     labels: minibatch.source.streams.features
}

Step 5 - Ensuite, pour enregistrer la sortie du processus de formation, initialisez le progress_printer variable avec un nouveau ProgressPrinter exemple comme suit -

progress_writer = ProgressPrinter(0)

Step 6 - Enfin, nous devons invoquer la méthode de train sur la perte comme suit -

train_history = loss.train(minibatch_source,
parameter_learners=[learner],
  model_inputs_to_streams=input_map,
callbacks=[progress_writer],
epoch_size=samples_per_epoch,
max_epochs=num_epochs)

Nourrir les données - Exemple d'implémentation complet

from cntk.logging import ProgressPrinter
from cntk.train import Trainer, training_session
minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
input_map = {
   features: minibatch.source.streams.features,
   labels: minibatch.source.streams.features
}
progress_writer = ProgressPrinter(0)
train_history = loss.train(minibatch_source,
parameter_learners=[learner],
model_inputs_to_streams=input_map,
callbacks=[progress_writer],
epoch_size=samples_per_epoch,
max_epochs=num_epochs)

Production

-------------------------------------------------------------------
average   since   average   since  examples
loss      last     metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.21      1.21      0        0       32
1.15      0.12      0        0       96
[………]

CNTK - Mesure des performances

Ce chapitre explique comment mesurer les performances du modèle dans CNKT.

Stratégie pour valider les performances du modèle

Après avoir construit un modèle ML, nous avions l'habitude de le former à l'aide d'un ensemble d'échantillons de données. Grâce à cette formation, notre modèle ML apprend et dérive quelques règles générales. Les performances du modèle ML sont importantes lorsque nous introduisons de nouveaux échantillons, c'est-à-dire des échantillons différents de ceux fournis au moment de la formation, au modèle. Le modèle se comporte différemment dans ce cas. Il peut être pire de faire une bonne prédiction sur ces nouveaux échantillons.

Mais le modèle doit également bien fonctionner pour les nouveaux échantillons, car dans l'environnement de production, nous obtiendrons une entrée différente de celle utilisée pour les échantillons de données à des fins de formation. C'est la raison pour laquelle nous devons valider le modèle ML en utilisant un ensemble d'échantillons différents des échantillons que nous avons utilisés à des fins de formation. Ici, nous allons discuter de deux techniques différentes pour créer un ensemble de données pour valider un NN.

Ensemble de données hold-out

C'est l'une des méthodes les plus simples pour créer un ensemble de données pour valider un NN. Comme son nom l'indique, dans cette méthode, nous retiendrons un ensemble d'échantillons de la formation (disons 20%) et l'utiliserons pour tester les performances de notre modèle ML. Le diagramme suivant montre le rapport entre les échantillons de formation et de validation -

Le modèle de jeu de données hold-out garantit que nous avons suffisamment de données pour entraîner notre modèle ML et en même temps, nous aurons un nombre raisonnable d'échantillons pour obtenir une bonne mesure des performances du modèle.

Afin de les inclure dans l'ensemble d'apprentissage et l'ensemble de tests, il est recommandé de choisir des échantillons aléatoires dans l'ensemble de données principal. Il garantit une répartition uniforme entre la formation et l'ensemble de test.

Voici un exemple dans lequel nous produisons notre propre jeu de données d'exclusion en utilisant train_test_split fonction de la scikit-learn bibliothèque.

Exemple

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
# Here above test_size = 0.2 represents that we provided 20% of the data as test data.
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors=3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Providing sample data and the model will make prediction out of that data
sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] print("Predictions:", pred_species)

Production

Predictions: ['versicolor', 'virginica']

Lors de l'utilisation de CNTK, nous devons randomiser l'ordre de notre ensemble de données à chaque fois que nous entraînons notre modèle car -

  • Les algorithmes d'apprentissage profond sont fortement influencés par les générateurs de nombres aléatoires.

  • L'ordre dans lequel nous fournissons les échantillons à NN pendant l'entraînement affecte considérablement ses performances.

Le principal inconvénient de l'utilisation de la technique des jeux de données d'exclusion est qu'elle n'est pas fiable car parfois nous obtenons de très bons résultats, mais parfois, nous obtenons de mauvais résultats.

Validation croisée du pli K

Pour rendre notre modèle ML plus fiable, il existe une technique appelée validation croisée K-fold. Dans la nature, la technique de validation croisée du pli K est la même que la technique précédente, mais elle la répète plusieurs fois, généralement environ 5 à 10 fois. Le diagramme suivant représente son concept -

Fonctionnement de la validation croisée du pli K

Le fonctionnement de la validation croisée du pli K peut être compris à l'aide des étapes suivantes -

Step 1- Comme dans la technique de jeu de données Hand-out, dans la technique de validation croisée K-fold, nous devons d'abord diviser le jeu de données en un ensemble de formation et de test. Idéalement, le ratio est de 80 à 20, soit 80% de l'ensemble d'apprentissage et 20% de l'ensemble de test.

Step 2 - Ensuite, nous devons former notre modèle à l'aide de l'ensemble d'apprentissage.

Step 3−Enfin, nous utiliserons l'ensemble de test pour mesurer les performances de notre modèle. La seule différence entre la technique de jeu de données Hold-out et la technique de validation k-cross est que le processus ci-dessus est répété généralement 5 à 10 fois et à la fin, la moyenne est calculée sur toutes les mesures de performance. Cette moyenne serait les indicateurs de performance finaux.

Voyons un exemple avec un petit jeu de données -

Exemple

from numpy import array
from sklearn.model_selection import KFold
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0])
kfold = KFold(5, True, 1)
for train, test in kfold.split(data):
   print('train: %s, test: %s' % (data[train],(data[test]))

Production

train: [0.1 0.2 0.4 0.5 0.6 0.7 0.8 0.9], test: [0.3 1. ]
train: [0.1 0.2 0.3 0.4 0.6 0.8 0.9 1. ], test: [0.5 0.7]
train: [0.2 0.3 0.5 0.6 0.7 0.8 0.9 1. ], test: [0.1 0.4]
train: [0.1 0.3 0.4 0.5 0.6 0.7 0.9 1. ], test: [0.2 0.8]
train: [0.1 0.2 0.3 0.4 0.5 0.7 0.8 1. ], test: [0.6 0.9]

Comme nous le voyons, en raison de l'utilisation d'un scénario d'entraînement et de test plus réaliste, la technique de validation croisée k-fold nous donne une mesure des performances beaucoup plus stable, mais, en revanche, cela prend beaucoup de temps lors de la validation des modèles d'apprentissage en profondeur.

CNTK ne prend pas en charge la validation k-cross, nous devons donc écrire notre propre script pour le faire.

Détecter le sous-ajustement et le sur-ajustement

Que nous utilisions l'ensemble de données Hand-out ou la technique de validation croisée de K-fold, nous découvrirons que la sortie des métriques sera différente pour l'ensemble de données utilisé pour la formation et l'ensemble de données utilisé pour la validation.

Détecter le surajustement

Le phénomène appelé surajustement est une situation dans laquelle notre modèle ML modélise les données d'entraînement de manière exceptionnelle, mais ne parvient pas à bien fonctionner sur les données de test, c'est-à-dire n'a pas été en mesure de prédire les données de test.

Cela se produit lorsqu'un modèle d'apprentissage automatique apprend un modèle et un bruit spécifiques à partir des données d'apprentissage à un point tel que cela a un impact négatif sur la capacité de ce modèle à généraliser des données d'apprentissage à des données nouvelles, c'est-à-dire invisibles. Ici, le bruit est l'information non pertinente ou le caractère aléatoire d'un ensemble de données.

Voici les deux façons à l'aide desquelles nous pouvons détecter les conditions météorologiques, notre modèle est sur-ajusté ou non -

  • Le modèle overfit fonctionnera bien sur les mêmes échantillons que nous avons utilisés pour l'entraînement, mais il fonctionnera très mal sur les nouveaux échantillons, c'est-à-dire des échantillons différents de l'entraînement.

  • Le modèle est surajusté lors de la validation si la métrique de l'ensemble de test est inférieure à la même métrique que nous utilisons sur notre ensemble d'entraînement.

Détecter le sous-ajustement

Une autre situation qui peut survenir dans notre ML est le sous-ajustement. Il s'agit d'une situation où notre modèle ML n'a pas bien modélisé les données d'entraînement et ne parvient pas à prédire la sortie utile. Lorsque nous commencerons à nous entraîner à la première époque, notre modèle sera sous-adapté, mais deviendra moins sous-adapté à mesure que la formation progressera.

L'un des moyens de détecter si notre modèle est sous-adapté ou non consiste à examiner les métriques pour l'ensemble d'entraînement et l'ensemble de test. Notre modèle sera sous-adapté si la métrique sur l'ensemble de test est supérieure à la métrique sur l'ensemble d'apprentissage.

CNTK - Classification des réseaux neuronaux

Dans ce chapitre, nous étudierons comment classer un réseau de neurones en utilisant CNTK.

introduction

La classification peut être définie comme le processus permettant de prédire les étiquettes de sortie catégorielles ou les réponses pour les données d'entrée données. La sortie catégorisée, qui sera basée sur ce que le modèle a appris en phase de formation, peut avoir la forme telle que "Noir" ou "Blanc" ou "spam" ou "pas de spam".

D'un autre côté, mathématiquement, c'est la tâche d'approximer une fonction de mappage, disons f des variables d'entrée dire X aux variables de sortie dire Y.

Un exemple classique de problème de classification peut être la détection de spam dans les e-mails. Il est évident qu'il ne peut y avoir que deux catégories de sortie, "spam" et "pas de spam".

Pour implémenter une telle classification, nous devons d'abord faire la formation du classificateur où les e-mails "spam" et "pas de spam" seraient utilisés comme données de formation. Une fois que le classificateur s'est entraîné avec succès, il peut être utilisé pour détecter un e-mail inconnu.

Ici, nous allons créer un 4-5-3 NN en utilisant un ensemble de données de fleurs d'iris ayant les éléments suivants -

  • Nœuds à 4 entrées (un pour chaque valeur de prédicteur).

  • 5 nœuds de traitement cachés.

  • 3 nœuds de sortie (car il existe trois espèces possibles dans le jeu de données iris).

Chargement de l'ensemble de données

Nous utiliserons un ensemble de données sur les fleurs d'iris, à partir duquel nous voulons classer les espèces de fleurs d'iris en fonction des propriétés physiques de la largeur et de la longueur des sépales, ainsi que de la largeur et de la longueur des pétales. L'ensemble de données décrit les propriétés physiques de différentes variétés de fleurs d'iris -

  • Longueur sépale

  • Largeur sépale

  • Longueur des pétales

  • Largeur des pétales

  • Classe ie iris setosa ou iris versicolor ou iris virginica

Nous avons iris.CSVfichier que nous avons utilisé auparavant dans les chapitres précédents également. Il peut être chargé à l'aide dePandasbibliothèque. Mais, avant de l'utiliser ou de le charger pour notre classificateur, nous devons préparer les fichiers d'entraînement et de test, afin qu'il puisse être utilisé facilement avec CNTK.

Préparation des fichiers de formation et de test

L'ensemble de données Iris est l'un des ensembles de données les plus populaires pour les projets ML. Il contient 150 éléments de données et les données brutes se présentent comme suit -

5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
…
7.0 3.2 4.7 1.4 versicolor
6.4 3.2 4.5 1.5 versicolor
…
6.3 3.3 6.0 2.5 virginica
5.8 2.7 5.1 1.9 virginica

Comme indiqué précédemment, les quatre premières valeurs de chaque ligne décrivent les propriétés physiques des différentes variétés, à savoir la longueur du sépale, la largeur du sépale, la longueur du pétale, la largeur du pétale des fleurs d'iris.

Mais, nous devrions avoir à convertir les données au format, qui peut être facilement utilisé par CNTK et ce format est le fichier .ctf (nous avons également créé un iris.ctf dans la section précédente). Cela ressemblera à ceci -

|attribs 5.1 3.5 1.4 0.2|species 1 0 0
|attribs 4.9 3.0 1.4 0.2|species 1 0 0
…
|attribs 7.0 3.2 4.7 1.4|species 0 1 0
|attribs 6.4 3.2 4.5 1.5|species 0 1 0
…
|attribs 6.3 3.3 6.0 2.5|species 0 0 1
|attribs 5.8 2.7 5.1 1.9|species 0 0 1

Dans les données ci-dessus, la balise | attribs marque le début de la valeur de l'entité et la balise | species marque les valeurs de l'étiquette de classe. Nous pouvons également utiliser tout autre nom d'étiquette de notre souhait, même si nous pouvons également ajouter un identifiant d'article. Par exemple, regardez les données suivantes -

|ID 001 |attribs 5.1 3.5 1.4 0.2|species 1 0 0 |#setosa
|ID 002 |attribs 4.9 3.0 1.4 0.2|species 1 0 0 |#setosa
…
|ID 051 |attribs 7.0 3.2 4.7 1.4|species 0 1 0 |#versicolor
|ID 052 |attribs 6.4 3.2 4.5 1.5|species 0 1 0 |#versicolor
…

Il y a au total 150 éléments de données dans l'ensemble de données d'iris et pour cet exemple, nous utiliserons la règle de jeu de données de 80 à 20, c'est-à-dire 80% (120 éléments) éléments de données à des fins de formation et les 20% restants (30 éléments) éléments de données pour les tests objectif.

Construire un modèle de classification

Tout d'abord, nous devons traiter les fichiers de données au format CNTK et pour cela nous allons utiliser la fonction d'assistance nommée create_reader comme suit -

def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='attribs', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='species', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src

Maintenant, nous devons définir les arguments d'architecture pour notre NN et également fournir l'emplacement des fichiers de données. Cela peut être fait à l'aide du code python suivant -

def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 4
hidden_dim = 5
output_dim = 3
train_file = ".\\...\\" #provide the name of the training file(120 data items)
test_file = ".\\...\\" #provide the name of the test file(30 data items)

Maintenant, avec l'aide de la ligne de code suivante, notre programme créera le NN non entraîné -

X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
nnet = oLayer
model = C.ops.softmax(nnet)

Désormais, une fois que nous avons créé le modèle dual sans formation, nous devons configurer un objet d'algorithme d'apprentissage et l'utiliser ensuite pour créer un objet de formation Trainer. Nous allons utiliser l'apprenant SGD etcross_entropy_with_softmax fonction de perte -

tr_loss = C.cross_entropy_with_softmax(nnet, Y)
tr_clas = C.classification_error(nnet, Y)
max_iter = 2000
batch_size = 10
learn_rate = 0.01
learner = C.sgd(nnet.parameters, learn_rate)
trainer = C.Trainer(nnet, (tr_loss, tr_clas), [learner])

Codez l'algorithme d'apprentissage comme suit -

max_iter = 2000
batch_size = 10
lr_schedule = C.learning_parameter_schedule_per_sample([(1000, 0.05), (1, 0.01)])
mom_sch = C.momentum_schedule([(100, 0.99), (0, 0.95)], batch_size)
learner = C.fsadagrad(nnet.parameters, lr=lr_schedule, momentum=mom_sch)
trainer = C.Trainer(nnet, (tr_loss, tr_clas), [learner])

Maintenant, une fois que nous avons terminé avec l'objet Trainer, nous devons créer une fonction de lecture pour lire les données d'entraînement -

rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
iris_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }

Il est maintenant temps de former notre modèle NN -

for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=iris_input_map) trainer.train_minibatch(curr_batch)
if i % 500 == 0:
mcee = trainer.previous_minibatch_loss_average
macc = (1.0 - trainer.previous_minibatch_evaluation_average) * 100
print("batch %4d: mean loss = %0.4f, accuracy = %0.2f%% " \ % (i, mcee, macc))

Une fois que nous avons terminé l'entraînement, évaluons le modèle à l'aide d'éléments de données de test -

print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
iris_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 30
all_test = rdr.next_minibatch(num_test, input_map=iris_input_map) acc = (1.0 - trainer.test_minibatch(all_test)) * 100
print("Classification accuracy = %0.2f%%" % acc)

Après avoir évalué la précision de notre modèle NN formé, nous l'utiliserons pour faire une prédiction sur des données invisibles -

np.set_printoptions(precision = 1, suppress=True)
unknown = np.array([[6.4, 3.2, 4.5, 1.5]], dtype=np.float32)
print("\nPredicting Iris species for input features: ")
print(unknown[0]) pred_prob = model.eval(unknown)
np.set_printoptions(precision = 4, suppress=True)
print("Prediction probabilities are: ")
print(pred_prob[0])

Modèle de classification complet

Import numpy as np
Import cntk as C
def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='attribs', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='species', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src
def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 4
hidden_dim = 5
output_dim = 3
train_file = ".\\...\\" #provide the name of the training file(120 data items)
test_file = ".\\...\\" #provide the name of the test file(30 data items)
X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
nnet = oLayer
model = C.ops.softmax(nnet)
tr_loss = C.cross_entropy_with_softmax(nnet, Y)
tr_clas = C.classification_error(nnet, Y)
max_iter = 2000
batch_size = 10
learn_rate = 0.01
learner = C.sgd(nnet.parameters, learn_rate)
trainer = C.Trainer(nnet, (tr_loss, tr_clas), [learner])
max_iter = 2000
batch_size = 10
lr_schedule = C.learning_parameter_schedule_per_sample([(1000, 0.05), (1, 0.01)])
mom_sch = C.momentum_schedule([(100, 0.99), (0, 0.95)], batch_size)
learner = C.fsadagrad(nnet.parameters, lr=lr_schedule, momentum=mom_sch)
trainer = C.Trainer(nnet, (tr_loss, tr_clas), [learner])
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
iris_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=iris_input_map) trainer.train_minibatch(curr_batch)
if i % 500 == 0:
mcee = trainer.previous_minibatch_loss_average
macc = (1.0 - trainer.previous_minibatch_evaluation_average) * 100
print("batch %4d: mean loss = %0.4f, accuracy = %0.2f%% " \ % (i, mcee, macc))
print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
iris_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 30
all_test = rdr.next_minibatch(num_test, input_map=iris_input_map) acc = (1.0 - trainer.test_minibatch(all_test)) * 100
print("Classification accuracy = %0.2f%%" % acc)
np.set_printoptions(precision = 1, suppress=True)
unknown = np.array([[7.0, 3.2, 4.7, 1.4]], dtype=np.float32)
print("\nPredicting species for input features: ")
print(unknown[0])
pred_prob = model.eval(unknown)
np.set_printoptions(precision = 4, suppress=True)
print("Prediction probabilities: ")
print(pred_prob[0])
if __name__== ”__main__”:
main()

Production

Using CNTK version = 2.7
batch 0: mean loss = 1.0986, mean accuracy = 40.00%
batch 500: mean loss = 0.6677, mean accuracy = 80.00%
batch 1000: mean loss = 0.5332, mean accuracy = 70.00%
batch 1500: mean loss = 0.2408, mean accuracy = 100.00%
Evaluating test data
Classification accuracy = 94.58%
Predicting species for input features:
[7.0 3.2 4.7 1.4]
Prediction probabilities:
[0.0847 0.736 0.113]

Enregistrer le modèle entraîné

Cet ensemble de données Iris ne contient que 150 éléments de données, il ne faudrait donc que quelques secondes pour entraîner le modèle de classificateur NN, mais l'entraînement sur un vaste ensemble de données contenant des centaines ou des milliers d'éléments de données peut prendre des heures, voire des jours.

Nous pouvons sauvegarder notre modèle pour ne pas avoir à le conserver à partir de zéro. Avec l'aide du code Python suivant, nous pouvons enregistrer notre NN formé -

nn_classifier = “.\\neuralclassifier.model” #provide the name of the file
model.save(nn_classifier, format=C.ModelFormat.CNTKv2)

Voici les arguments de save() fonction utilisée ci-dessus -

  • Le nom de fichier est le premier argument de save()fonction. Il peut également être écrit avec le chemin du fichier.

  • Un autre paramètre est le format paramètre qui a une valeur par défaut C.ModelFormat.CNTKv2.

Chargement du modèle entraîné

Une fois que vous avez enregistré le modèle entraîné, il est très facile de charger ce modèle. Il suffit d'utiliser leload ()fonction. Vérifions cela dans l'exemple suivant -

import numpy as np
import cntk as C
model = C.ops.functions.Function.load(“.\\neuralclassifier.model”)
np.set_printoptions(precision = 1, suppress=True)
unknown = np.array([[7.0, 3.2, 4.7, 1.4]], dtype=np.float32)
print("\nPredicting species for input features: ")
print(unknown[0])
pred_prob = model.eval(unknown)
np.set_printoptions(precision = 4, suppress=True)
print("Prediction probabilities: ")
print(pred_prob[0])

L'avantage du modèle enregistré est que, une fois que vous chargez un modèle enregistré, il peut être utilisé exactement comme si le modèle venait d'être entraîné.

CNTK - Classification binaire du réseau neuronal

Comprenons ce qu'est la classification binaire des réseaux de neurones à l'aide de CNTK, dans ce chapitre.

La classification binaire utilisant NN est comme la classification multi-classes, la seule chose est qu'il n'y a que deux nœuds de sortie au lieu de trois ou plus. Ici, nous allons effectuer une classification binaire à l'aide d'un réseau de neurones en utilisant deux techniques à savoir la technique à un nœud et à deux nœuds. La technique à un nœud est plus courante que la technique à deux nœuds.

Chargement de l'ensemble de données

Pour que ces deux techniques soient mises en œuvre à l'aide de NN, nous utiliserons un ensemble de données sur les billets de banque. L'ensemble de données peut être téléchargé à partir du référentiel UCI Machine Learning qui est disponible surhttps://archive.ics.uci.edu/ml/datasets/banknote+authentication.

Pour notre exemple, nous utiliserons 50 éléments de données authentiques ayant une falsification de classe = 0, et les 50 premiers faux éléments ayant une falsification de classe = 1.

Préparation des fichiers de formation et de test

Il y a 1372 éléments de données dans l'ensemble de données complet. L'ensemble de données brutes se présente comme suit -

3.6216, 8.6661, -2.8076, -0.44699, 0
4.5459, 8.1674, -2.4586, -1.4621, 0
…
-1.3971, 3.3191, -1.3927, -1.9948, 1
0.39012, -0.14279, -0.031994, 0.35084, 1

Maintenant, nous devons d'abord convertir ces données brutes au format CNTK à deux nœuds, ce qui serait le suivant -

|stats 3.62160000 8.66610000 -2.80730000 -0.44699000 |forgery 0 1 |# authentic 
|stats 4.54590000 8.16740000 -2.45860000 -1.46210000 |forgery 0 1 |# authentic 
. . .
|stats -1.39710000 3.31910000 -1.39270000 -1.99480000 |forgery 1 0 |# fake 
|stats 0.39012000 -0.14279000 -0.03199400 0.35084000 |forgery 1 0 |# fake

Vous pouvez utiliser le programme python suivant pour créer des données au format CNTK à partir de données brutes -

fin = open(".\\...", "r") #provide the location of saved dataset text file.
for line in fin:
   line = line.strip()
   tokens = line.split(",")
   if tokens[4] == "0":
    print("|stats %12.8f %12.8f %12.8f %12.8f |forgery 0 1 |# authentic" % \
(float(tokens[0]), float(tokens[1]), float(tokens[2]), float(tokens[3])) )
   else:
    print("|stats %12.8f %12.8f %12.8f %12.8f |forgery 1 0 |# fake" % \
(float(tokens[0]), float(tokens[1]), float(tokens[2]), float(tokens[3])) )
fin.close()

Modèle de classification binaire à deux nœuds

Il y a très peu de différence entre la classification à deux nœuds et la classification multi-classes. Ici, nous devons d'abord traiter les fichiers de données au format CNTK et pour cela nous allons utiliser la fonction d'assistance nomméecreate_reader comme suit -

def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='stats', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='forgery', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src

Maintenant, nous devons définir les arguments d'architecture pour notre NN et également fournir l'emplacement des fichiers de données. Cela peut être fait à l'aide du code python suivant -

def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 4
hidden_dim = 10
output_dim = 2
train_file = ".\\...\\" #provide the name of the training file
test_file = ".\\...\\" #provide the name of the test file

Maintenant, avec l'aide de la ligne de code suivante, notre programme créera le NN non entraîné -

X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
nnet = oLayer
model = C.ops.softmax(nnet)

Désormais, une fois que nous avons créé le modèle dual sans formation, nous devons configurer un objet d'algorithme d'apprentissage et l'utiliser ensuite pour créer un objet de formation Trainer. Nous allons utiliser l'apprenant SGD et la fonction de perte cross_entropy_with_softmax -

tr_loss = C.cross_entropy_with_softmax(nnet, Y)
tr_clas = C.classification_error(nnet, Y)
max_iter = 500
batch_size = 10
learn_rate = 0.01
learner = C.sgd(nnet.parameters, learn_rate)
trainer = C.Trainer(nnet, (tr_loss, tr_clas), [learner])

Maintenant, une fois que nous avons terminé avec l'objet Trainer, nous devons créer une fonction de lecture pour lire les données d'entraînement -

rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
banknote_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }

Maintenant, il est temps de former notre modèle NN -

for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=iris_input_map) trainer.train_minibatch(curr_batch)
if i % 500 == 0:
mcee = trainer.previous_minibatch_loss_average
macc = (1.0 - trainer.previous_minibatch_evaluation_average) * 100
print("batch %4d: mean loss = %0.4f, accuracy = %0.2f%% " \ % (i, mcee, macc))

Une fois la formation terminée, évaluons le modèle à l'aide d'éléments de données de test -

print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
banknote_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=iris_input_map) acc = (1.0 - trainer.test_minibatch(all_test)) * 100
print("Classification accuracy = %0.2f%%" % acc)

Après avoir évalué la précision de notre modèle NN formé, nous l'utiliserons pour faire une prédiction sur des données invisibles -

np.set_printoptions(precision = 1, suppress=True)
unknown = np.array([[0.6, 1.9, -3.3, -0.3]], dtype=np.float32)
print("\nPredicting Banknote authenticity for input features: ")
print(unknown[0])
pred_prob = model.eval(unknown)
np.set_printoptions(precision = 4, suppress=True)
print("Prediction probabilities are: ")
print(pred_prob[0])
if pred_prob[0,0] < pred_prob[0,1]:
  print(“Prediction: authentic”)
else:
  print(“Prediction: fake”)

Modèle de classification complet à deux nœuds

def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='stats', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='forgery', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src
def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 4
hidden_dim = 10
output_dim = 2
train_file = ".\\...\\" #provide the name of the training file
test_file = ".\\...\\" #provide the name of the test file
X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
withC.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
nnet = oLayer
model = C.ops.softmax(nnet)
tr_loss = C.cross_entropy_with_softmax(nnet, Y)
tr_clas = C.classification_error(nnet, Y)
max_iter = 500
batch_size = 10
learn_rate = 0.01
learner = C.sgd(nnet.parameters, learn_rate)
trainer = C.Trainer(nnet, (tr_loss, tr_clas), [learner])
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
banknote_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=iris_input_map) trainer.train_minibatch(curr_batch)
if i % 500 == 0:
mcee = trainer.previous_minibatch_loss_average
macc = (1.0 - trainer.previous_minibatch_evaluation_average) * 100
print("batch %4d: mean loss = %0.4f, accuracy = %0.2f%% " \ % (i, mcee, macc))
print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
banknote_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=iris_input_map) acc = (1.0 - trainer.test_minibatch(all_test)) * 100
print("Classification accuracy = %0.2f%%" % acc)
np.set_printoptions(precision = 1, suppress=True)
unknown = np.array([[0.6, 1.9, -3.3, -0.3]], dtype=np.float32)
print("\nPredicting Banknote authenticity for input features: ")
print(unknown[0])
pred_prob = model.eval(unknown)
np.set_printoptions(precision = 4, suppress=True)
print("Prediction probabilities are: ")
print(pred_prob[0])
if pred_prob[0,0] < pred_prob[0,1]:
print(“Prediction: authentic”)
else:
print(“Prediction: fake”)
if __name__== ”__main__”:
main()

Production

Using CNTK version = 2.7
batch 0: mean loss = 0.6928, accuracy = 80.00%
batch 50: mean loss = 0.6877, accuracy = 70.00%
batch 100: mean loss = 0.6432, accuracy = 80.00%
batch 150: mean loss = 0.4978, accuracy = 80.00%
batch 200: mean loss = 0.4551, accuracy = 90.00%
batch 250: mean loss = 0.3755, accuracy = 90.00%
batch 300: mean loss = 0.2295, accuracy = 100.00%
batch 350: mean loss = 0.1542, accuracy = 100.00%
batch 400: mean loss = 0.1581, accuracy = 100.00%
batch 450: mean loss = 0.1499, accuracy = 100.00%
Evaluating test data
Classification accuracy = 84.58%
Predicting banknote authenticity for input features:
[0.6 1.9 -3.3 -0.3]
Prediction probabilities are:
[0.7847 0.2536]
Prediction: fake

Modèle de classification binaire à un nœud

Le programme de mise en œuvre est presque comme nous l'avons fait ci-dessus pour la classification à deux nœuds. Le principal changement est que lors de l'utilisation de la technique de classification à deux nœuds.

Nous pouvons utiliser la fonction classification_error () intégrée de CNTK, mais en cas de classification à un nœud, CNTK ne prend pas en charge la fonction classification_error (). C'est la raison pour laquelle nous devons implémenter une fonction définie par le programme comme suit -

def class_acc(mb, x_var, y_var, model):
num_correct = 0; num_wrong = 0
x_mat = mb[x_var].asarray()
y_mat = mb[y_var].asarray()
for i in range(mb[x_var].shape[0]):
   p = model.eval(x_mat[i]
   y = y_mat[i]
   if p[0,0] < 0.5 and y[0,0] == 0.0 or p[0,0] >= 0.5 and y[0,0] == 1.0:
num_correct += 1
 else:
  num_wrong += 1
return (num_correct * 100.0)/(num_correct + num_wrong)

Avec ce changement, voyons l'exemple complet de classification à un nœud -

Modèle de classification complet à un nœud

import numpy as np
import cntk as C
def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='stats', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='forgery', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src
def class_acc(mb, x_var, y_var, model):
num_correct = 0; num_wrong = 0
x_mat = mb[x_var].asarray()
y_mat = mb[y_var].asarray()
for i in range(mb[x_var].shape[0]):
  p = model.eval(x_mat[i]
  y = y_mat[i]
  if p[0,0] < 0.5 and y[0,0] == 0.0 or p[0,0] >= 0.5 and y[0,0] == 1.0:
  num_correct += 1
 else:
  num_wrong += 1
return (num_correct * 100.0)/(num_correct + num_wrong)
def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 4
hidden_dim = 10
output_dim = 1
train_file = ".\\...\\" #provide the name of the training file
test_file = ".\\...\\" #provide the name of the test file
X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
model = oLayer
tr_loss = C.cross_entropy_with_softmax(model, Y)
max_iter = 1000
batch_size = 10
learn_rate = 0.01
learner = C.sgd(model.parameters, learn_rate)
trainer = C.Trainer(model, (tr_loss), [learner])
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
banknote_input_map = {X : rdr.streams.x_src, Y : rdr.streams.y_src }
for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=iris_input_map) trainer.train_minibatch(curr_batch)
if i % 100 == 0:
mcee=trainer.previous_minibatch_loss_average
ca = class_acc(curr_batch, X,Y, model)
print("batch %4d: mean loss = %0.4f, accuracy = %0.2f%% " \ % (i, mcee, ca))
print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
banknote_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=iris_input_map)
acc = class_acc(all_test, X,Y, model)
print("Classification accuracy = %0.2f%%" % acc)
np.set_printoptions(precision = 1, suppress=True)
unknown = np.array([[0.6, 1.9, -3.3, -0.3]], dtype=np.float32)
print("\nPredicting Banknote authenticity for input features: ")
print(unknown[0])
pred_prob = model.eval({X:unknown})
print("Prediction probability: ")
print(“%0.4f” % pred_prob[0,0])
if pred_prob[0,0] < 0.5:
  print(“Prediction: authentic”)
else:
  print(“Prediction: fake”)
if __name__== ”__main__”:
   main()

Production

Using CNTK version = 2.7
batch 0: mean loss = 0.6936, accuracy = 10.00%
batch 100: mean loss = 0.6882, accuracy = 70.00%
batch 200: mean loss = 0.6597, accuracy = 50.00%
batch 300: mean loss = 0.5298, accuracy = 70.00%
batch 400: mean loss = 0.4090, accuracy = 100.00%
batch 500: mean loss = 0.3790, accuracy = 90.00%
batch 600: mean loss = 0.1852, accuracy = 100.00%
batch 700: mean loss = 0.1135, accuracy = 100.00%
batch 800: mean loss = 0.1285, accuracy = 100.00%
batch 900: mean loss = 0.1054, accuracy = 100.00%
Evaluating test data
Classification accuracy = 84.00%
Predicting banknote authenticity for input features:
[0.6 1.9 -3.3 -0.3]
Prediction probability:
0.8846
Prediction: fake

CNTK - Régression du réseau neuronal

Ce chapitre vous aidera à comprendre la régression du réseau neuronal en ce qui concerne CNTK.

introduction

Comme nous savons que, pour prédire une valeur numérique à partir d'une ou plusieurs variables prédictives, nous utilisons la régression. Prenons un exemple de prédiction de la valeur médiane d'une maison dans, disons, l'une des 100 villes. Pour ce faire, nous avons des données qui incluent -

  • Une statistique de criminalité pour chaque ville.

  • L'âge des maisons dans chaque ville.

  • Une mesure de la distance entre chaque ville et un emplacement privilégié.

  • Le ratio élèves-enseignant dans chaque ville.

  • Une statistique démographique raciale pour chaque ville.

  • La valeur médiane des maisons dans chaque ville.

Sur la base de ces cinq variables prédictives, nous aimerions prédire la valeur médiane des maisons. Et pour cela, nous pouvons créer un modèle de régression linéaire le long des lignes de -

Y = a0+a1(crime)+a2(house-age)+(a3)(distance)+(a4)(ratio)+(a5)(racial)

Dans l'équation ci-dessus -

Y est une valeur médiane prédite

a0 est une constante et

a1 à a5 sont toutes des constantes associées aux cinq prédicteurs dont nous avons discuté ci-dessus.

Nous avons également une approche alternative d'utilisation d'un réseau neuronal. Cela créera un modèle de prédiction plus précis.

Ici, nous allons créer un modèle de régression de réseau neuronal en utilisant CNTK.

Chargement de l'ensemble de données

Pour implémenter la régression du réseau neuronal à l'aide de CNTK, nous utiliserons l'ensemble de données des valeurs des maisons de la région de Boston. L'ensemble de données peut être téléchargé à partir du référentiel UCI Machine Learning qui est disponible surhttps://archive.ics.uci.edu/ml/machine-learning-databases/housing/. Cet ensemble de données a un total de 14 variables et 506 instances.

Mais, pour notre programme de mise en œuvre, nous allons utiliser six des 14 variables et 100 instances. Sur 6, 5 en tant que prédicteurs et un en tant que valeur à prédire. Sur 100 instances, nous en utiliserons 80 pour la formation et 20 pour les tests. La valeur que nous voulons prédire est le prix médian des logements dans une ville. Voyons les cinq prédicteurs que nous utiliserons -

  • Crime per capita in the town - Nous nous attendrions à ce que des valeurs plus petites soient associées à ce prédicteur.

  • Proportion of owner - unités occupées construites avant 1940 - Nous nous attendrions à ce que des valeurs plus petites soient associées à ce prédicteur, car une valeur plus élevée signifie une maison plus ancienne.

  • Weighed distance of the town to five Boston employment centers.

  • Area school pupil-to-teacher ratio.

  • An indirect metric of the proportion of black residents in the town.

Préparation des fichiers de formation et de test

Comme nous l'avons fait auparavant, nous devons d'abord convertir les données brutes au format CNTK. Nous allons utiliser les 80 premiers éléments de données à des fins de formation, le format CNTK délimité par des tabulations est donc le suivant -

|predictors 1.612820 96.90 3.76 21.00 248.31 |medval 13.50
|predictors 0.064170 68.20 3.36 19.20 396.90 |medval 18.90
|predictors 0.097440 61.40 3.38 19.20 377.56 |medval 20.00
. . .

Les 20 éléments suivants, également convertis au format CNTK, seront utilisés à des fins de test.

Construire un modèle de régression

Tout d'abord, nous devons traiter les fichiers de données au format CNTK et pour cela, nous allons utiliser la fonction d'assistance nommée create_reader comme suit -

def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='predictors', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='medval', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src

Ensuite, nous devons créer une fonction d'assistance qui accepte un objet mini-batch CNTK et calcule une métrique de précision personnalisée.

def mb_accuracy(mb, x_var, y_var, model, delta):
   num_correct = 0
   num_wrong = 0
   x_mat = mb[x_var].asarray()
   y_mat = mb[y_var].asarray()
for i in range(mb[x_var].shape[0]):
  v = model.eval(x_mat[i])
  y = y_mat[i]
if np.abs(v[0,0] – y[0,0]) < delta:
   num_correct += 1
else:
   num_wrong += 1
return (num_correct * 100.0)/(num_correct + num_wrong)

Maintenant, nous devons définir les arguments d'architecture pour notre NN et également fournir l'emplacement des fichiers de données. Cela peut être fait à l'aide du code python suivant -

def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 5
hidden_dim = 20
output_dim = 1
train_file = ".\\...\\" #provide the name of the training file(80 data items)
test_file = ".\\...\\" #provide the name of the test file(20 data items)

Maintenant, avec l'aide de la ligne de code suivante, notre programme créera le NN non entraîné -

X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
model = C.ops.alias(oLayer)

Maintenant, une fois que nous avons créé le modèle dual non entraîné, nous devons configurer un objet d'algorithme d'apprentissage. Nous allons utiliser l'apprenant SGD etsquared_error fonction de perte -

tr_loss = C.squared_error(model, Y)
max_iter = 3000
batch_size = 5
base_learn_rate = 0.02
sch=C.learning_parameter_schedule([base_learn_rate, base_learn_rate/2], minibatch_size=batch_size, epoch_size=int((max_iter*batch_size)/2))
learner = C.sgd(model.parameters, sch)
trainer = C.Trainer(model, (tr_loss), [learner])

Maintenant, une fois que nous avons terminé avec l'objet algorithme d'apprentissage, nous devons créer une fonction de lecture pour lire les données d'apprentissage -

rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }

Maintenant, il est temps de former notre modèle NN -

for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=boston_input_map) trainer.train_minibatch(curr_batch)
if i % int(max_iter/10) == 0:
mcee = trainer.previous_minibatch_loss_average
acc = mb_accuracy(curr_batch, X, Y, model, delta=3.00)
print("batch %4d: mean squared error = %8.4f, accuracy = %5.2f%% " \ % (i, mcee, acc))

Une fois que nous avons terminé l'entraînement, évaluons le modèle à l'aide d'éléments de données de test -

print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=boston_input_map)
acc = mb_accuracy(all_test, X, Y, model, delta=3.00)
print("Prediction accuracy = %0.2f%%" % acc)

Après avoir évalué la précision de notre modèle NN formé, nous l'utiliserons pour faire une prédiction sur des données invisibles -

np.set_printoptions(precision = 2, suppress=True)
unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32)
print("\nPredicting median home value for feature/predictor values: ")
print(unknown[0])
pred_prob = model.eval({X: unknown)
print("\nPredicted value is: ")
print(“$%0.2f (x1000)” %pred_value[0,0])

Modèle de régression complet

import numpy as np
import cntk as C
def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='predictors', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='medval', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src
def mb_accuracy(mb, x_var, y_var, model, delta):
num_correct = 0
num_wrong = 0
x_mat = mb[x_var].asarray()
y_mat = mb[y_var].asarray()
for i in range(mb[x_var].shape[0]):
   v = model.eval(x_mat[i])
   y = y_mat[i]
if np.abs(v[0,0] – y[0,0]) < delta:
   num_correct += 1
else:
   num_wrong += 1
return (num_correct * 100.0)/(num_correct + num_wrong)
def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 5
hidden_dim = 20
output_dim = 1
train_file = ".\\...\\" #provide the name of the training file(80 data items)
test_file = ".\\...\\" #provide the name of the test file(20 data items)
X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
model = C.ops.alias(oLayer)
tr_loss = C.squared_error(model, Y)
max_iter = 3000
batch_size = 5
base_learn_rate = 0.02
sch = C.learning_parameter_schedule([base_learn_rate, base_learn_rate/2], minibatch_size=batch_size, epoch_size=int((max_iter*batch_size)/2))
learner = C.sgd(model.parameters, sch)
trainer = C.Trainer(model, (tr_loss), [learner])
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=boston_input_map) trainer.train_minibatch(curr_batch)
if i % int(max_iter/10) == 0:
   mcee = trainer.previous_minibatch_loss_average
   acc = mb_accuracy(curr_batch, X, Y, model, delta=3.00)
   print("batch %4d: mean squared error = %8.4f, accuracy = %5.2f%% " \ % (i, mcee, acc))
   print("\nEvaluating test data \n")
   rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
   boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
   num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=boston_input_map)
acc = mb_accuracy(all_test, X, Y, model, delta=3.00)
print("Prediction accuracy = %0.2f%%" % acc)
np.set_printoptions(precision = 2, suppress=True)
unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32)
print("\nPredicting median home value for feature/predictor values: ")
print(unknown[0])
pred_prob = model.eval({X: unknown)
print("\nPredicted value is: ")
print(“$%0.2f (x1000)” %pred_value[0,0])
if __name__== ”__main__”:
   main()

Production

Using CNTK version = 2.7
batch 0: mean squared error = 385.6727, accuracy = 0.00%
batch 300: mean squared error = 41.6229, accuracy = 20.00%
batch 600: mean squared error = 28.7667, accuracy = 40.00%
batch 900: mean squared error = 48.6435, accuracy = 40.00%
batch 1200: mean squared error = 77.9562, accuracy = 80.00%
batch 1500: mean squared error = 7.8342, accuracy = 60.00%
batch 1800: mean squared error = 47.7062, accuracy = 60.00%
batch 2100: mean squared error = 40.5068, accuracy = 40.00%
batch 2400: mean squared error = 46.5023, accuracy = 40.00%
batch 2700: mean squared error = 15.6235, accuracy = 60.00%
Evaluating test data
Prediction accuracy = 64.00%
Predicting median home value for feature/predictor values:
[0.09 50. 4.5 17. 350.]
Predicted value is:
$21.02(x1000)

Enregistrer le modèle entraîné

Cet ensemble de données sur la valeur Boston Home ne contient que 506 éléments de données (parmi lesquels nous n'en avons poursuivi que 100). Par conséquent, il ne faudrait que quelques secondes pour entraîner le modèle de régresseur NN, mais l'entraînement sur un vaste ensemble de données contenant des centaines ou des milliers d'éléments de données peut prendre des heures, voire des jours.

Nous pouvons sauvegarder notre modèle afin de ne pas avoir à le conserver à partir de zéro. Avec l'aide du code Python suivant, nous pouvons enregistrer notre NN formé -

nn_regressor = “.\\neuralregressor.model” #provide the name of the file
model.save(nn_regressor, format=C.ModelFormat.CNTKv2)

Voici les arguments de la fonction save () utilisée ci-dessus -

  • Le nom de fichier est le premier argument de save()fonction. Il peut également être écrit avec le chemin du fichier.

  • Un autre paramètre est le format paramètre qui a une valeur par défaut C.ModelFormat.CNTKv2.

Chargement du modèle entraîné

Une fois que vous avez enregistré le modèle entraîné, il est très facile de charger ce modèle. Nous n'avons besoin que de la fonction load (). Vérifions cela dans l'exemple suivant -

import numpy as np
import cntk as C
model = C.ops.functions.Function.load(“.\\neuralregressor.model”)
np.set_printoptions(precision = 2, suppress=True)
unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32)
print("\nPredicting area median home value for feature/predictor values: ")
print(unknown[0])
pred_prob = model.eval({X: unknown)
print("\nPredicted value is: ")
print(“$%0.2f (x1000)” %pred_value[0,0])

L'avantage du modèle enregistré est qu'une fois que vous chargez un modèle enregistré, il peut être utilisé exactement comme si le modèle venait d'être entraîné.

CNTK - Modèle de classification

Ce chapitre vous aidera à comprendre comment mesurer les performances du modèle de classification dans CNTK. Commençons par la matrice de confusion.

Matrice de confusion

Matrice de confusion - un tableau avec la sortie prévue par rapport à la sortie attendue est le moyen le plus simple de mesurer les performances d'un problème de classification, où la sortie peut être de deux types de classes ou plus.

Afin de comprendre son fonctionnement, nous allons créer une matrice de confusion pour un modèle de classification binaire qui prédit si une transaction par carte de crédit était normale ou une fraude. Il est montré comme suit -

Fraude réelle Normal réel

Predicted fraud

Vrai positif

Faux positif

Predicted normal

Faux négatif

Vrai négatif

Comme nous pouvons le voir, l'exemple de matrice de confusion ci-dessus contient 2 colonnes, une pour la fraude de classe et l'autre pour la classe normale. De la même manière, nous avons 2 lignes, une est ajoutée pour la fraude de classe et une autre est ajoutée pour la classe normale. Voici l'explication des termes associés à la matrice de confusion -

  • True Positives - Lorsque la classe réelle et la classe prévue du point de données sont à la fois 1.

  • True Negatives - Lorsque la classe réelle et la classe prédite du point de données sont égales à 0.

  • False Positives - Lorsque la classe réelle du point de données est 0 et la classe prévue du point de données est 1.

  • False Negatives - Lorsque la classe réelle du point de données est 1 et la classe prévue du point de données est 0.

Voyons comment nous pouvons calculer le nombre de choses différentes à partir de la matrice de confusion -

  • Accuracy- C'est le nombre de prédictions correctes faites par notre modèle de classification ML. Il peut être calculé à l'aide de la formule suivante -

  • Precision−Il nous indique combien d'échantillons ont été correctement prédits parmi tous les échantillons que nous avons prédits. Il peut être calculé à l'aide de la formule suivante -

  • Recall or Sensitivity- Rappel est le nombre de positifs renvoyés par notre modèle de classification ML. En d'autres termes, il nous indique combien de cas de fraude dans l'ensemble de données ont été réellement détectés par le modèle. Il peut être calculé à l'aide de la formule suivante -

  • Specificity- En face de rappel, il donne le nombre de négatifs retournés par notre modèle de classification ML. Il peut être calculé à l'aide de la formule suivante -

Mesure F

Nous pouvons utiliser la mesure F comme alternative à la matrice de confusion. La raison principale derrière cela, nous ne pouvons pas maximiser le rappel et la précision en même temps. Il existe une relation très forte entre ces métriques et qui peut être comprise à l'aide de l'exemple suivant -

Supposons que nous souhaitons utiliser un modèle DL pour classer les échantillons cellulaires comme cancéreux ou normaux. Ici, pour atteindre une précision maximale, nous devons réduire le nombre de prédictions à 1. Bien que cela puisse nous donner une précision d'environ 100%, mais le rappel deviendra vraiment faible.

D'un autre côté, si nous voulons atteindre le maximum de rappel, nous devons faire autant de prédictions que possible. Bien que cela puisse nous permettre d'atteindre environ 100% de rappel, la précision deviendra vraiment faible.

En pratique, nous devons trouver un moyen d'équilibrer la précision et le rappel. La métrique de mesure F nous permet de le faire, car elle exprime une moyenne harmonique entre précision et rappel.

Cette formule est appelée la mesure F1, où le terme supplémentaire appelé B est mis à 1 pour obtenir un rapport égal de précision et de rappel. Afin de souligner le rappel, nous pouvons fixer le facteur B à 2. Par contre, pour accentuer la précision, nous pouvons fixer le facteur B à 0,5.

Utilisation de CNTK pour mesurer les performances de classification

Dans la section précédente, nous avons créé un modèle de classification en utilisant le jeu de données Iris flower. Ici, nous mesurerons ses performances en utilisant une matrice de confusion et une métrique de mesure F.

Créer une matrice de confusion

Nous avons déjà créé le modèle afin de pouvoir démarrer le processus de validation, qui comprend confusion matrix, sur le même. Tout d'abord, nous allons créer une matrice de confusion à l'aide duconfusion_matrix fonction de scikit-learn. Pour cela, nous avons besoin des vraies étiquettes pour nos échantillons de test et des étiquettes prédites pour les mêmes échantillons de test.

Calculons la matrice de confusion en utilisant le code Python suivant -

from sklearn.metrics import confusion_matrix
y_true = np.argmax(y_test, axis=1)
y_pred = np.argmax(z(X_test), axis=1)
matrix = confusion_matrix(y_true=y_true, y_pred=y_pred)
print(matrix)

Production

[[10 0 0]
[ 0 1 9]
[ 0 0 10]]

Nous pouvons également utiliser la fonction de carte thermique pour visualiser une matrice de confusion comme suit -

import seaborn as sns
import matplotlib.pyplot as plt
g = sns.heatmap(matrix,
     annot=True,
     xticklabels=label_encoder.classes_.tolist(),
     yticklabels=label_encoder.classes_.tolist(),
     cmap='Blues')
g.set_yticklabels(g.get_yticklabels(), rotation=0)
plt.show()

Nous devrions également avoir un seul numéro de performance, que nous pouvons utiliser pour comparer le modèle. Pour cela, nous devons calculer l'erreur de classification en utilisantclassification_error fonction, à partir du package de métriques dans CNTK comme effectué lors de la création du modèle de classification.

Maintenant, pour calculer l'erreur de classification, exécutez la méthode de test sur la fonction de perte avec un ensemble de données. Après cela, CNTK prélèvera les échantillons que nous avons fournis en entrée pour cette fonction et effectuera une prédiction basée sur les caractéristiques d'entrée X_test.

loss.test([X_test, y_test])

Production

{'metric': 0.36666666666, 'samples': 30}

Mettre en œuvre des mesures F

Pour mettre en œuvre des mesures F, CNTK comprend également une fonction appelée fmeasures. Nous pouvons utiliser cette fonction, tout en entraînant le NN en remplaçant la cellulecntk.metrics.classification_error, avec un appel à cntk.losses.fmeasure lors de la définition de la fonction d'usine de critère comme suit -

import cntk
@cntk.Function
def criterion_factory(output, target):
   loss = cntk.losses.cross_entropy_with_softmax(output, target)
metric = cntk.losses.fmeasure(output, target)
   return loss, metric

Après avoir utilisé la fonction cntk.losses.fmeasure, nous obtiendrons une sortie différente pour le loss.test appel de méthode donné comme suit -

loss.test([X_test, y_test])

Production

{'metric': 0.83101488749, 'samples': 30}

CNTK - Modèle de régression

Ici, nous allons étudier la mesure de la performance par rapport à un modèle de régression.

Bases de la validation d'un modèle de régression

Comme nous savons que les modèles de régression sont différents des modèles de classification, en ce sens qu'il n'y a pas de mesure binaire du bien ou du mal pour les échantillons d'individus. Dans les modèles de régression, nous voulons mesurer à quel point la prédiction est proche de la valeur réelle. Plus la valeur de prédiction est proche de la sortie attendue, meilleures sont les performances du modèle.

Ici, nous allons mesurer les performances de NN utilisé pour la régression en utilisant différentes fonctions de taux d'erreur.

Calcul de la marge d'erreur

Comme indiqué précédemment, lors de la validation d'un modèle de régression, nous ne pouvons pas dire si une prédiction est bonne ou mauvaise. Nous voulons que notre prédiction soit aussi proche que possible de la valeur réelle. Mais, une petite marge d'erreur est acceptable ici.

La formule de calcul de la marge d'erreur est la suivante -

Ici,

Predicted value = indiqué y par un chapeau

Real value = prédit par y

Tout d'abord, nous devons calculer la distance entre la valeur prévue et la valeur réelle. Ensuite, pour obtenir un taux d'erreur global, nous devons additionner ces distances au carré et calculer la moyenne. C'est ce qu'on appelle lemean squared fonction d'erreur.

Mais, si nous voulons des chiffres de performance qui expriment une marge d'erreur, nous avons besoin d'une formule qui exprime l'erreur absolue. La formule pourmean absolute la fonction d'erreur est la suivante -

La formule ci-dessus prend la distance absolue entre la valeur prévue et la valeur réelle.

Utilisation de CNTK pour mesurer les performances de régression

Ici, nous verrons comment utiliser les différentes métriques, dont nous avons discuté en combinaison avec CNTK. Nous utiliserons un modèle de régression, qui prédit les miles par gallon pour les voitures en suivant les étapes ci-dessous.

Étapes de mise en œuvre -

Step 1 - Tout d'abord, nous devons importer les composants requis depuis cntk paquet comme suit -

from cntk import default_option, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import relu

Step 2 - Ensuite, nous devons définir une fonction d'activation par défaut à l'aide du default_optionsles fonctions. Ensuite, créez un nouvel ensemble de couches séquentielles et fournissez deux couches denses de 64 neurones chacune. Ensuite, nous ajoutons une couche Dense supplémentaire (qui agira comme couche de sortie) à l'ensemble de couches séquentielles et donnons 1 neurone sans activation comme suit -

with default_options(activation=relu):
model = Sequential([Dense(64),Dense(64),Dense(1,activation=None)])

Step 3- Une fois le réseau créé, nous devons créer une fonction d'entrée. Nous devons nous assurer qu'il a la même forme que les fonctionnalités que nous allons utiliser pour la formation.

features = input_variable(X.shape[1])

Step 4 - Maintenant, nous devons créer un autre input_variable avec la taille 1. Il sera utilisé pour stocker la valeur attendue pour NN.

target = input_variable(1)
z = model(features)

Maintenant, nous devons former le modèle et pour ce faire, nous allons diviser l'ensemble de données et effectuer un prétraitement en utilisant les étapes de mise en œuvre suivantes -

Step 5−Tout d'abord, importez StandardScaler depuis sklearn.preprocessing pour obtenir les valeurs comprises entre -1 et +1. Cela nous aidera à éviter l'explosion des problèmes de gradient dans le NN.

from sklearn.preprocessing import StandardScalar

Step 6 - Ensuite, importez train_test_split depuis sklearn.model_selection comme suit -

from sklearn.model_selection import train_test_split

Step 7 - Lâchez le mpg colonne de l'ensemble de données à l'aide de la dropméthode. Enfin, divisez l'ensemble de données en un ensemble d'apprentissage et de validation à l'aide dutrain_test_split fonction comme suit -

x = df_cars.drop(columns=[‘mpg’]).values.astype(np.float32)
y=df_cars.iloc[: , 0].values.reshape(-1, 1).astype(np.float32)
scaler = StandardScaler()
X = scaler.fit_transform(x)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Step 8 - Maintenant, nous devons créer une autre variable_entrée de taille 1. Elle sera utilisée pour stocker la valeur attendue pour NN.

target = input_variable(1)
z = model(features)

Nous avons divisé et prétraité les données, nous devons maintenant former le NN. Comme dans les sections précédentes lors de la création du modèle de régression, nous devons définir une combinaison d'une perte etmetric fonction pour entraîner le modèle.

import cntk
def absolute_error(output, target):
   return cntk.ops.reduce_mean(cntk.ops.abs(output – target))
@ cntk.Function
def criterion_factory(output, target):
   loss = squared_error(output, target)
   metric = absolute_error(output, target)
   return loss, metric

Voyons maintenant comment utiliser le modèle entraîné. Pour notre modèle, nous utiliserons critère_factory comme combinaison de perte et de métrique.

from cntk.losses import squared_error
from cntk.learners import sgd
from cntk.logging import ProgressPrinter
progress_printer = ProgressPrinter(0)
loss = criterion_factory (z, target)
learner = sgd(z.parameters, 0.001)
training_summary=loss.train((x_train,y_train),parameter_learners=[learner],callbacks=[progress_printer],minibatch_size=16,max_epochs=10)

Exemple d'implémentation complet

from cntk import default_option, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import relu
with default_options(activation=relu):
model = Sequential([Dense(64),Dense(64),Dense(1,activation=None)])
features = input_variable(X.shape[1])
target = input_variable(1)
z = model(features)
from sklearn.preprocessing import StandardScalar
from sklearn.model_selection import train_test_split
x = df_cars.drop(columns=[‘mpg’]).values.astype(np.float32)
y=df_cars.iloc[: , 0].values.reshape(-1, 1).astype(np.float32)
scaler = StandardScaler()
X = scaler.fit_transform(x)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
target = input_variable(1)
z = model(features)
import cntk
def absolute_error(output, target):
   return cntk.ops.reduce_mean(cntk.ops.abs(output – target))
@ cntk.Function
def criterion_factory(output, target):
loss = squared_error(output, target)
metric = absolute_error(output, target)
return loss, metric
from cntk.losses import squared_error
from cntk.learners import sgd
from cntk.logging import ProgressPrinter
progress_printer = ProgressPrinter(0)
loss = criterion_factory (z, target)
learner = sgd(z.parameters, 0.001)
training_summary=loss.train((x_train,y_train),parameter_learners=[learner],callbacks=[progress_printer],minibatch_size=16,max_epochs=10)

Production

-------------------------------------------------------------------
average  since   average   since  examples
loss     last    metric    last
------------------------------------------------------
Learning rate per minibatch: 0.001
690       690     24.9     24.9       16
654       636     24.1     23.7       48
[………]

Afin de valider notre modèle de régression, nous devons nous assurer que le modèle gère les nouvelles données aussi bien qu'il le fait avec les données d'entraînement. Pour cela, nous devons invoquer letest méthode sur loss et metric combinaison avec les données d'essai comme suit -

loss.test([X_test, y_test])

Sortie−

{'metric': 1.89679785619, 'samples': 79}

CNTK - Ensembles de données insuffisants en mémoire

Dans ce chapitre, la façon de mesurer les performances des jeux de données en mémoire insuffisante sera expliquée.

Dans les sections précédentes, nous avons discuté de diverses méthodes pour valider les performances de notre NN, mais les méthodes dont nous avons discuté sont celles qui traitent des ensembles de données qui tiennent dans la mémoire.

Ici, la question se pose: qu'en est-il des jeux de données à mémoire insuffisante, car dans le scénario de production, nous avons besoin de beaucoup de données pour s'entraîner NN. Dans cette section, nous allons discuter de la façon de mesurer les performances lorsque vous travaillez avec des sources minibatch et une boucle minibatch manuelle.

Sources de minibatch

Lorsque nous travaillons avec un ensemble de données hors mémoire, c'est-à-dire des sources de mini-correspondance, nous avons besoin d'une configuration légèrement différente pour la perte, ainsi que la métrique, que la configuration que nous avons utilisée lorsque nous travaillons avec de petits ensembles de données, c'est-à-dire des ensembles de données en mémoire. Tout d'abord, nous verrons comment mettre en place un moyen de fournir des données au formateur du modèle NN.

Voici les étapes de mise en œuvre -

Step 1 - D'abord, de cntk.Le module io importe les composants pour créer la source du minibatch comme suit -

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer,
 INFINITY_REPEAT

Step 2 - Ensuite, créez une nouvelle fonction nommée say create_datasource. Cette fonction aura deux paramètres à savoir le nom de fichier et la limite, avec une valeur par défaut deINFINITELY_REPEAT.

def create_datasource(filename, limit =INFINITELY_REPEAT)

Step 3 - Maintenant, dans la fonction, en utilisant StreamDefclass crate une définition de flux pour les étiquettes qui lit dans le champ étiquettes qui a trois fonctionnalités. Nous devons également définiris_sparse à False comme suit -

labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)

Step 4 - Ensuite, créez pour lire les caractéristiques déposées à partir du fichier d'entrée, créez une autre instance de StreamDef comme suit.

feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)

Step 5 - Maintenant, initialisez le CTFDeserializerclasse d'instance. Spécifiez le nom de fichier et les flux dont nous avons besoin pour désérialiser comme suit -

deserializer = CTFDeserializer(filename, StreamDefs(labels=
label_stream, features=features_stream)

Step 6 - Ensuite, nous devons créer une instance de minisourceBatch en utilisant le désérialiseur comme suit -

Minibatch_source = MinibatchSource(deserializer, randomize=True, max_sweeps=limit)
return minibatch_source

Step 7- Enfin, nous devons fournir une source de formation et de test, que nous avons également créée dans les sections précédentes. Nous utilisons un ensemble de données sur les fleurs d'iris.

training_source = create_datasource(‘Iris_train.ctf’)
test_source = create_datasource(‘Iris_test.ctf’, limit=1)

Une fois que vous créez MinibatchSourceexemple, nous devons le former. Nous pouvons utiliser la même logique d'entraînement que celle utilisée lorsque nous travaillons avec de petits ensembles de données en mémoire. Ici, nous allons utiliserMinibatchSource exemple, comme entrée pour la méthode de train sur la fonction de perte comme suit -

Voici les étapes de mise en œuvre -

Step 1 - Pour enregistrer la sortie de la séance d'entraînement, importez d'abord le ProgressPrinter de cntk.logging module comme suit -

from cntk.logging import ProgressPrinter

Step 2 - Ensuite, pour configurer la session de formation, importez le trainer et training_session de cntk.train module comme suit -

from cntk.train import Trainer, training_session

Step 3 - Maintenant, nous devons définir un ensemble de constantes comme minibatch_size, samples_per_epoch et num_epochs comme suit -

minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
max_samples = samples_per_epoch * num_epochs

Step 4 - Ensuite, afin de savoir lire les données lors de l'apprentissage en CNTK, nous devons définir un mappage entre la variable d'entrée du réseau et les flux dans la source du minibatch.

input_map = {
   features: training_source.streams.features,
   labels: training_source.streams.labels
}

Step 5 - À côté de la journalisation de la sortie du processus de formation, initialisez le progress_printer variable avec un nouveau ProgressPrinterexemple. Également, initialisez letrainer et lui fournir le modèle comme suit -

progress_writer = ProgressPrinter(0)
trainer: training_source.streams.labels

Step 6 - Enfin, pour démarrer le processus de formation, nous devons appeler le training_session fonction comme suit -

session = training_session(trainer,
   mb_source=training_source,
   mb_size=minibatch_size,
   model_inputs_to_streams=input_map,
   max_samples=max_samples,
   test_config=test_config)
session.train()

Une fois que nous avons formé le modèle, nous pouvons ajouter une validation à cette configuration en utilisant un TestConfig objet et attribuez-le au test_config argument de mot-clé du train_session fonction.

Voici les étapes de mise en œuvre -

Step 1 - Tout d'abord, nous devons importer le TestConfig classe du module cntk.train comme suit -

from cntk.train import TestConfig

Step 2 - Maintenant, nous devons créer une nouvelle instance du TestConfig avec le test_source comme entrée -

Test_config = TestConfig(test_source)

Exemple complet

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer, INFINITY_REPEAT
def create_datasource(filename, limit =INFINITELY_REPEAT)
labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)
feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)
deserializer = CTFDeserializer(filename, StreamDefs(labels=label_stream, features=features_stream)
Minibatch_source = MinibatchSource(deserializer, randomize=True, max_sweeps=limit)
return minibatch_source
training_source = create_datasource(‘Iris_train.ctf’)
test_source = create_datasource(‘Iris_test.ctf’, limit=1)
from cntk.logging import ProgressPrinter
from cntk.train import Trainer, training_session
minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
max_samples = samples_per_epoch * num_epochs
input_map = {
   features:   training_source.streams.features,
   labels: training_source.streams.labels
 }
progress_writer = ProgressPrinter(0)
trainer: training_source.streams.labels
session = training_session(trainer,
   mb_source=training_source,
   mb_size=minibatch_size,
   model_inputs_to_streams=input_map,
   max_samples=max_samples,
   test_config=test_config)
session.train()
from cntk.train import TestConfig
Test_config = TestConfig(test_source)

Production

-------------------------------------------------------------------
average   since   average   since  examples
loss      last    metric    last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.57      1.57     0.214    0.214   16
1.38      1.28     0.264    0.289   48
[………]
Finished Evaluation [1]: Minibatch[1-1]:metric = 69.65*30;

Boucle de minibatch manuelle

Comme nous le voyons ci-dessus, il est facile de mesurer les performances de notre modèle NN pendant et après l'entraînement, en utilisant les métriques lors de l'entraînement avec des API classiques dans CNTK. Mais, d'un autre côté, les choses ne seront pas aussi faciles en travaillant avec une boucle de minibatch manuelle.

Ici, nous utilisons le modèle ci-dessous avec 4 entrées et 3 sorties du jeu de données Iris Flower, créé également dans les sections précédentes -

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu, sigmoid
from cntk.learners import sgd
model = Sequential([
   Dense(4, activation=sigmoid),
   Dense(3, activation=log_softmax)
])
features = input_variable(4)
labels = input_variable(3)
z = model(features)

Ensuite, la perte pour le modèle est définie comme la combinaison de la fonction de perte d'entropie croisée et de la métrique de mesure F telle qu'utilisée dans les sections précédentes. Nous allons utiliser lecriterion_factory utilitaire, pour créer ceci en tant qu'objet de fonction CNTK comme indiqué ci-dessous -

import cntk
from cntk.losses import cross_entropy_with_softmax, fmeasure
@cntk.Function
def criterion_factory(outputs, targets):
   loss = cross_entropy_with_softmax(outputs, targets)
   metric = fmeasure(outputs, targets, beta=1)
   return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, 0.1)
label_mapping = {
   'Iris-setosa': 0,
   'Iris-versicolor': 1,
   'Iris-virginica': 2
}

Maintenant, comme nous avons défini la fonction de perte, nous allons voir comment nous pouvons l'utiliser dans le formateur, pour mettre en place une session de formation manuelle.

Voici les étapes de mise en œuvre -

Step 1 - Tout d'abord, nous devons importer les packages requis comme numpy et pandas pour charger et prétraiter les données.

import pandas as pd
import numpy as np

Step 2 - Ensuite, pour enregistrer les informations pendant la formation, importez le ProgressPrinter classe comme suit -

from cntk.logging import ProgressPrinter

Step 3 - Ensuite, nous devons importer le module d'entraînement du module cntk.train comme suit -

from cntk.train import Trainer

Step 4 - Ensuite, créez une nouvelle instance de ProgressPrinter comme suit -

progress_writer = ProgressPrinter(0)

Step 5 - Maintenant, nous devons initialiser le formateur avec les paramètres la perte, l'apprenant et le progress_writer comme suit -

trainer = Trainer(z, loss, learner, progress_writer)

Step 6−Ensuite, pour entraîner le modèle, nous allons créer une boucle qui itérera trente fois sur l'ensemble de données. Ce sera la boucle d'entraînement externe.

for _ in range(0,30):

Step 7- Maintenant, nous devons charger les données du disque en utilisant des pandas. Ensuite, afin de charger le jeu de données dansmini-batches, met le chunksize argument de mot-clé à 16.

input_data = pd.read_csv('iris.csv',
names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
index_col=False, chunksize=16)

Step 8 - Maintenant, créez une boucle d'entraînement interne pour itérer sur chacun des mini-batches.

for df_batch in input_data:

Step 9 - Maintenant, dans cette boucle, lisez les quatre premières colonnes en utilisant le iloc indexeur, comme le features pour les former et les convertir en float32 -

feature_values = df_batch.iloc[:,:4].values
feature_values = feature_values.astype(np.float32)

Step 10 - Maintenant, lisez la dernière colonne comme les étiquettes à partir desquelles vous entraîner, comme suit -

label_values = df_batch.iloc[:,-1]

Step 11 - Ensuite, nous utiliserons des vecteurs one-hot pour convertir les chaînes d'étiquettes en leur présentation numérique comme suit -

label_values = label_values.map(lambda x: label_mapping[x])

Step 12- Après cela, prenez la présentation numérique des étiquettes. Ensuite, convertissez-les en un tableau numpy, il est donc plus facile de travailler avec eux comme suit -

label_values = label_values.values

Step 13 - Maintenant, nous devons créer un nouveau tableau numpy qui a le même nombre de lignes que les valeurs d'étiquette que nous avons converties.

encoded_labels = np.zeros((label_values.shape[0], 3))

Step 14 - Maintenant, afin de créer des étiquettes encodées à chaud, sélectionnez les colonnes en fonction des valeurs d'étiquette numériques.

encoded_labels[np.arange(label_values.shape[0]), label_values] = 1.

Step 15 - Enfin, nous devons invoquer le train_minibatch méthode sur le formateur et fournissez les caractéristiques et les étiquettes traitées pour le minibatch.

trainer.train_minibatch({features: feature_values, labels: encoded_labels})

Exemple complet

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu, sigmoid
from cntk.learners import sgd
model = Sequential([
   Dense(4, activation=sigmoid),
   Dense(3, activation=log_softmax)
])
features = input_variable(4)
labels = input_variable(3)
z = model(features)
import cntk
from cntk.losses import cross_entropy_with_softmax, fmeasure
@cntk.Function
def criterion_factory(outputs, targets):
   loss = cross_entropy_with_softmax(outputs, targets)
   metric = fmeasure(outputs, targets, beta=1)
   return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, 0.1)
label_mapping = {
   'Iris-setosa': 0,
   'Iris-versicolor': 1,
   'Iris-virginica': 2
}
import pandas as pd
import numpy as np
from cntk.logging import ProgressPrinter
from cntk.train import Trainer
progress_writer = ProgressPrinter(0)
trainer = Trainer(z, loss, learner, progress_writer)
for _ in range(0,30):
   input_data = pd.read_csv('iris.csv',
      names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
      index_col=False, chunksize=16)
for df_batch in input_data:
   feature_values = df_batch.iloc[:,:4].values
   feature_values = feature_values.astype(np.float32)
   label_values = df_batch.iloc[:,-1]
label_values = label_values.map(lambda x: label_mapping[x])
label_values = label_values.values
   encoded_labels = np.zeros((label_values.shape[0], 3))
   encoded_labels[np.arange(label_values.shape[0]), 
label_values] = 1.
   trainer.train_minibatch({features: feature_values, labels: encoded_labels})

Production

-------------------------------------------------------------------
average    since    average   since  examples
loss       last      metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.45       1.45     -0.189    -0.189   16
1.24       1.13     -0.0382    0.0371  48
[………]

Dans la sortie ci-dessus, nous avons obtenu à la fois la sortie pour la perte et la métrique pendant l'entraînement. C'est parce que nous avons combiné une métrique et une perte dans un objet de fonction et utilisé une imprimante de progression dans la configuration du formateur.

Maintenant, afin d'évaluer les performances du modèle, nous devons effectuer la même tâche que pour l'entraînement du modèle, mais cette fois, nous devons utiliser un Evaluatorinstance pour tester le modèle. Il est montré dans le code Python suivant -

from cntk import Evaluator
evaluator = Evaluator(loss.outputs[1], [progress_writer])
input_data = pd.read_csv('iris.csv',
   names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
index_col=False, chunksize=16)
for df_batch in input_data:
   feature_values = df_batch.iloc[:,:4].values
   feature_values = feature_values.astype(np.float32)
   label_values = df_batch.iloc[:,-1]
   label_values = label_values.map(lambda x: label_mapping[x])
   label_values = label_values.values
   encoded_labels = np.zeros((label_values.shape[0], 3))
   encoded_labels[np.arange(label_values.shape[0]), label_values] = 1.
   evaluator.test_minibatch({ features: feature_values, labels:
      encoded_labels})
evaluator.summarize_test_progress()

Maintenant, nous allons obtenir la sortie quelque chose comme ce qui suit -

Production

Finished Evaluation [1]: Minibatch[1-11]:metric = 74.62*143;

CNTK - Suivi du modèle

Dans ce chapitre, nous allons comprendre comment surveiller un modèle en CNTK.

introduction

Dans les sections précédentes, nous avons effectué quelques validations sur nos modèles NN. Mais est-il également nécessaire et possible de suivre notre modèle pendant la formation?

Oui, nous avons déjà utilisé ProgressWriterclasse pour surveiller notre modèle et il existe de nombreuses autres façons de le faire. Avant d'entrer dans les détails, voyons d'abord comment fonctionne la surveillance dans CNTK et comment nous pouvons l'utiliser pour détecter les problèmes dans notre modèle NN.

Rappels dans CNTK

En fait, lors de la formation et de la validation, CNTK nous permet de spécifier des callbacks à plusieurs endroits de l'API. Tout d'abord, examinons de plus près quand CNTK appelle des rappels.

Quand CNTK appelle-t-il des rappels?

CNTK appellera les rappels aux moments de l'entraînement et du test lorsque -

  • Un mini-match est terminé.

  • Un balayage complet de l'ensemble de données est effectué pendant la formation.

  • Un mini-lot de tests est terminé.

  • Un balayage complet de l'ensemble de données est effectué pendant les tests.

Spécification des rappels

Tout en travaillant avec CNTK, nous pouvons spécifier des rappels à plusieurs endroits dans l'API. Par exemple -

Quand appeler le train sur une fonction de perte?

Ici, lorsque nous appelons train sur une fonction de perte, nous pouvons spécifier un ensemble de callbacks via l'argument callbacks comme suit -

training_summary=loss.train((x_train,y_train),
parameter_learners=[learner],
callbacks=[progress_writer]),
minibatch_size=16, max_epochs=15)

Lorsque vous travaillez avec des sources minibatch ou utilisez une boucle minibatch manuelle -

Dans ce cas, nous pouvons spécifier des rappels à des fins de surveillance lors de la création du Trainer comme suit -

from cntk.logging import ProgressPrinter
callbacks = [
   ProgressPrinter(0)
]
Trainer = Trainer(z, (loss, metric), learner, [callbacks])

Divers outils de surveillance

Étudions les différents outils de surveillance.

ProgressPrinter

En lisant ce tutoriel, vous trouverez ProgressPrintercomme outil de surveillance le plus utilisé. Certaines des caractéristiques deProgressPrinter les outils de surveillance sont -

ProgressPrinterclass implémente la journalisation de base basée sur la console pour surveiller notre modèle. Il peut se connecter sur le disque que nous voulons.

Particulièrement utile lorsque vous travaillez dans un scénario de formation distribuée.

C'est également très utile lorsque vous travaillez dans un scénario où nous ne pouvons pas nous connecter à la console pour voir la sortie de notre programme Python.

À l'aide du code suivant, nous pouvons créer une instance de ProgressPrinter-

ProgressPrinter(0, log_to_file=’test.txt’)

Nous obtiendrons la sortie quelque chose que nous avons vu dans les sections précédentes -

Test.txt
CNTKCommandTrainInfo: train : 300
CNTKCommandTrainInfo: CNTKNoMoreCommands_Total : 300
CNTKCommandTrainBegin: train
-------------------------------------------------------------------
average since average since examples
loss last metric last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.45 1.45 -0.189 -0.189 16
1.24 1.13 -0.0382 0.0371 48
[………]

TensorBoard

L'un des inconvénients de l'utilisation de ProgressPrinter est que nous ne pouvons pas avoir une bonne idée de la difficulté de la perte et de la progression de la mesure dans le temps. TensorBoardProgressWriter est une excellente alternative à la classe ProgressPrinter dans CNTK.

Avant de l'utiliser, nous devons d'abord l'installer à l'aide de la commande suivante -

pip install tensorboard

Maintenant, pour utiliser TensorBoard, nous devons configurer TensorBoardProgressWriter dans notre code de formation comme suit -

import time
from cntk.logging import TensorBoardProgressWriter
tensorbrd_writer = TensorBoardProgressWriter(log_dir=’logs/{}’.format(time.time()),freq=1,model=z)

Il est recommandé d'appeler la méthode close sur TensorBoardProgressWriter instance après avoir terminé avec la formation de NNmodèle.

Nous pouvons visualiser le TensorBoard enregistrement des données à l'aide de la commande suivante -

Tensorboard –logdir logs

CNTK - Réseau neuronal convolutif

Dans ce chapitre, étudions comment construire un réseau neuronal convolutif (CNN) en CNTK.

introduction

Les réseaux de neurones convolutifs (CNN) sont également constitués de neurones, qui ont des poids et des biais apprenables. C'est pourquoi, de cette manière, ils sont comme des réseaux de neurones ordinaires (NN).

Si nous nous rappelons le fonctionnement des NN ordinaires, chaque neurone reçoit une ou plusieurs entrées, prend une somme pondérée et passe par une fonction d'activation pour produire la sortie finale. Ici, la question se pose que si les CNN et les NN ordinaires ont tant de similitudes, qu'est-ce qui rend ces deux réseaux différents l'un de l'autre?

Qu'est-ce qui les différencie est le traitement des données d'entrée et des types de couches? La structure des données d'entrée est ignorée dans NN ordinaire et toutes les données sont converties en tableau 1-D avant de les alimenter dans le réseau.

Mais, l'architecture du réseau de neurones convolutifs peut prendre en compte la structure 2D des images, les traiter et lui permettre d'extraire les propriétés spécifiques aux images. De plus, les CNN ont l'avantage d'avoir une ou plusieurs couches convolutionnelles et une couche de mise en commun, qui sont les principaux éléments constitutifs des CNN.

Ces couches sont suivies par une ou plusieurs couches entièrement connectées comme dans les NN multicouches standard. Ainsi, on peut penser à CNN, comme un cas particulier de réseaux entièrement connectés.

Architecture de réseau de neurones convolutifs (CNN)

L'architecture de CNN est essentiellement une liste de couches qui transforme le volume de l'image en trois dimensions, c'est-à-dire la largeur, la hauteur et la profondeur, en un volume de sortie en trois dimensions. Un point important à noter ici est que chaque neurone de la couche actuelle est connecté à un petit patch de la sortie de la couche précédente, ce qui revient à superposer un filtre N * N sur l'image d'entrée.

Il utilise des filtres M, qui sont essentiellement des extracteurs de fonctionnalités qui extraient des fonctionnalités telles que les bords, les coins, etc. Voici les couches [INPUT-CONV-RELU-POOL-FC] qui sont utilisés pour construire des réseaux de neurones convolutionnels (CNN) -

  • INPUT- Comme son nom l'indique, ce calque contient les valeurs brutes des pixels. Les valeurs de pixel brutes désignent les données de l'image telles quelles. Par exemple, INPUT [64 × 64 × 3] est une image RVB à 3 canaux de largeur 64, hauteur 64 et profondeur 3.

  • CONV- Cette couche est l'un des blocs de construction des CNN car la plupart des calculs sont effectués dans cette couche. Exemple - si nous utilisons 6 filtres sur l'ENTREE [64 × 64 × 3] mentionnée ci-dessus, cela peut entraîner le volume [64 × 64 × 6].

  • RELU−Aussi appelé couche unitaire linéaire rectifiée, qui applique une fonction d'activation à la sortie de la couche précédente. D'une autre manière, une non-linéarité serait ajoutée au réseau par RELU.

  • POOL- Cette couche, c'est-à-dire la couche de regroupement, est un autre élément constitutif des CNN. La tâche principale de cette couche est le sous-échantillonnage, ce qui signifie qu'elle fonctionne indépendamment sur chaque tranche de l'entrée et la redimensionne spatialement.

  • FC- Il est appelé couche entièrement connectée ou plus précisément couche de sortie. Il est utilisé pour calculer le score de classe de sortie et la sortie résultante est un volume de taille 1 * 1 * L où L est le nombre correspondant au score de classe.

Le diagramme ci-dessous représente l'architecture typique des CNN -

Création de la structure CNN

Nous avons vu l'architecture et les bases de CNN, maintenant nous allons construire un réseau convolutif en utilisant CNTK. Ici, nous verrons d'abord comment assembler la structure du CNN, puis nous verrons comment entraîner les paramètres de celui-ci.

Enfin, nous verrons comment nous pouvons améliorer le réseau de neurones en modifiant sa structure avec différentes configurations de couches différentes. Nous allons utiliser le jeu de données d'image MNIST.

Alors, commençons par créer une structure CNN. Généralement, lorsque nous construisons un CNN pour reconnaître des motifs dans les images, nous faisons ce qui suit:

  • Nous utilisons une combinaison de couches de convolution et de mise en commun.

  • Une ou plusieurs couches cachées à la fin du réseau.

  • Enfin, nous terminons le réseau avec une couche softmax à des fins de classification.

À l'aide des étapes suivantes, nous pouvons construire la structure du réseau -

Step 1- Tout d'abord, nous devons importer les couches requises pour CNN.

from cntk.layers import Convolution2D, Sequential, Dense, MaxPooling

Step 2- Ensuite, nous devons importer les fonctions d'activation pour CNN.

from cntk.ops import log_softmax, relu

Step 3- Après cela, afin d'initialiser les couches convolutives plus tard, nous devons importer le glorot_uniform_initializer comme suit -

from cntk.initializer import glorot_uniform

Step 4- Ensuite, pour créer des variables d'entrée, importez le input_variablefonction. Et importerdefault_option , pour rendre la configuration de NN un peu plus facile.

from cntk import input_variable, default_options

Step 5- Maintenant, pour stocker les images d'entrée, créez un nouveau input_variable. Il contiendra trois canaux à savoir rouge, vert et bleu. Il aurait la taille de 28 par 28 pixels.

features = input_variable((3,28,28))

Step 6−Suivant, nous devons créer un autre input_variable pour stocker les étiquettes à prédire.

labels = input_variable(10)

Step 7- Maintenant, nous devons créer le default_optionpour le NN. Et nous devons utiliser leglorot_uniform comme fonction d'initialisation.

with default_options(initialization=glorot_uniform, activation=relu):

Step 8- Ensuite, afin de définir la structure du NN, nous devons créer un nouveau Sequential ensemble de calques.

Step 9- Nous devons maintenant ajouter un Convolutional2D couche avec un filter_shape de 5 et un strides réglage de 1, dans le Sequentialensemble de calques. Activez également le remplissage afin que l'image soit remplie pour conserver les dimensions d'origine.

model = Sequential([
Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=8, pad=True),

Step 10- Il est maintenant temps d'ajouter un MaxPooling couche avec filter_shape de 2, et un strides réglage de 2 pour compresser l'image de moitié.

MaxPooling(filter_shape=(2,2), strides=(2,2)),

Step 11- Maintenant, comme nous l'avons fait à l'étape 9, nous devons ajouter un autre Convolutional2D couche avec un filter_shape de 5 et un stridesréglage de 1, utilisez 16 filtres. Activez également le remplissage afin que la taille de l'image produite par la couche de regroupement précédente soit conservée.

Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=16, pad=True),

Step 12- Maintenant, comme nous l'avons fait à l'étape 10, ajoutez un autre MaxPooling couche avec un filter_shape de 3 et un strides réglage de 3 pour réduire l'image à un tiers.

MaxPooling(filter_shape=(3,3), strides=(3,3)),

Step 13- Enfin, ajoutez une couche dense avec dix neurones pour les 10 classes possibles, que le réseau peut prédire. Pour transformer le réseau en modèle de classification, utilisez unlog_siftmax fonction d'activation.

Dense(10, activation=log_softmax)
])

Exemple complet de création de structure CNN

from cntk.layers import Convolution2D, Sequential, Dense, MaxPooling
from cntk.ops import log_softmax, relu
from cntk.initializer import glorot_uniform
from cntk import input_variable, default_options
features = input_variable((3,28,28))
labels = input_variable(10)
with default_options(initialization=glorot_uniform, activation=relu):
model = Sequential([
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=8, pad=True),
MaxPooling(filter_shape=(2,2), strides=(2,2)),
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=16, pad=True),
MaxPooling(filter_shape=(3,3), strides=(3,3)),
Dense(10, activation=log_softmax)
])
z = model(features)

Formation CNN avec des images

Comme nous avons créé la structure du réseau, il est temps de former le réseau. Mais avant de commencer la formation de notre réseau, nous devons configurer des sources de minibatch, car la formation d'un NN qui fonctionne avec des images nécessite plus de mémoire que la plupart des ordinateurs.

Nous avons déjà créé des sources de minibatch dans les sections précédentes. Voici le code Python pour configurer deux sources de minibatch -

Comme nous avons le create_datasource fonction, nous pouvons maintenant créer deux sources de données distinctes (formation et test) pour entraîner le modèle.

train_datasource = create_datasource('mnist_train')
test_datasource = create_datasource('mnist_test', max_sweeps=1, train=False)

Maintenant que nous avons préparé les images, nous pouvons commencer la formation de notre NN. Comme nous l'avons fait dans les sections précédentes, nous pouvons utiliser la méthode de train sur la fonction de perte pour lancer la formation. Voici le code pour cela -

from cntk import Function
from cntk.losses import cross_entropy_with_softmax
from cntk.metrics import classification_error
from cntk.learners import sgd
@Function
def criterion_factory(output, targets):
loss = cross_entropy_with_softmax(output, targets)
metric = classification_error(output, targets)
return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, lr=0.2)

Avec l'aide du code précédent, nous avons configuré la perte et l'apprenant pour le NN. Le code suivant entraînera et validera le NN−

from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
   features: train_datasource.streams.features,
   labels: train_datasource.streams.labels
}
loss.train(train_datasource,
     max_epochs=10,
     minibatch_size=64,
     epoch_size=60000,
        parameter_learners=[learner],
     model_inputs_to_streams=input_map,
     callbacks=[progress_writer, test_config])

Exemple d'implémentation complet

from cntk.layers import Convolution2D, Sequential, Dense, MaxPooling
from cntk.ops import log_softmax, relu
from cntk.initializer import glorot_uniform
from cntk import input_variable, default_options
features = input_variable((3,28,28))
labels = input_variable(10)
with default_options(initialization=glorot_uniform, activation=relu):
model = Sequential([
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=8, pad=True),
MaxPooling(filter_shape=(2,2), strides=(2,2)),
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=16, pad=True),
MaxPooling(filter_shape=(3,3), strides=(3,3)),
Dense(10, activation=log_softmax)
])
z = model(features)
import os
from cntk.io import MinibatchSource, StreamDef, StreamDefs, ImageDeserializer, INFINITELY_REPEAT
import cntk.io.transforms as xforms
def create_datasource(folder, train=True, max_sweeps=INFINITELY_REPEAT):
   mapping_file = os.path.join(folder, 'mapping.bin')
   image_transforms = []
   if train:
    image_transforms += [
     xforms.crop(crop_type='randomside', side_ratio=0.8),
     xforms.scale(width=28, height=28, channels=3, interpolations='linear')
]
   stream_definitions = StreamDefs(
   features=StreamDef(field='image', transforms=image_transforms),
    labels=StreamDef(field='label', shape=10)
)
   deserializer = ImageDeserializer(mapping_file, stream_definitions)
return MinibatchSource(deserializer, max_sweeps=max_sweeps)
train_datasource = create_datasource('mnist_train')
test_datasource = create_datasource('mnist_test', max_sweeps=1, train=False)
from cntk import Function
from cntk.losses import cross_entropy_with_softmax
from cntk.metrics import classification_error
from cntk.learners import sgd
@Function
def criterion_factory(output, targets):
   loss = cross_entropy_with_softmax(output, targets)
   metric = classification_error(output, targets)
return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, lr=0.2)
from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
   features: train_datasource.streams.features,
   labels: train_datasource.streams.labels
}
loss.train(train_datasource,
     max_epochs=10,
     minibatch_size=64,
     epoch_size=60000,
        parameter_learners=[learner],
     model_inputs_to_streams=input_map,
     callbacks=[progress_writer, test_config])

Production

-------------------------------------------------------------------
average  since  average  since  examples
loss     last   metric   last
------------------------------------------------------
Learning rate per minibatch: 0.2
142      142      0.922   0.922    64
1.35e+06 1.51e+07 0.896   0.883    192
[………]

Transformations d'image

Comme nous l'avons vu, il est difficile de former les NN utilisés pour la reconnaissance d'image et, ils nécessitent également beaucoup de données pour s'entraîner. Un autre problème est que, ils ont tendance à surajuster sur les images utilisées pendant l'entraînement. Voyons avec un exemple, lorsque nous avons des photos de visages en position verticale, notre modèle aura du mal à reconnaître les visages qui sont tournés dans une autre direction.

Afin de surmonter ce problème, nous pouvons utiliser l'augmentation d'image et CNTK prend en charge des transformations spécifiques, lors de la création de sources minibatch pour les images. Nous pouvons utiliser plusieurs transformations comme suit -

  • Nous pouvons recadrer aléatoirement des images utilisées pour l'entraînement avec seulement quelques lignes de code.

  • Nous pouvons également utiliser une échelle et une couleur.

Voyons, à l'aide du code Python suivant, comment nous pouvons changer la liste des transformations en incluant une transformation de rognage dans la fonction utilisée pour créer la source de minibatch plus tôt.

import os
from cntk.io import MinibatchSource, StreamDef, StreamDefs, ImageDeserializer, INFINITELY_REPEAT
import cntk.io.transforms as xforms
def create_datasource(folder, train=True, max_sweeps=INFINITELY_REPEAT):
   mapping_file = os.path.join(folder, 'mapping.bin')
   image_transforms = []
   if train:
   image_transforms += [
     xforms.crop(crop_type='randomside', side_ratio=0.8),
xforms.scale(width=28, height=28, channels=3, interpolations='linear')
]
   stream_definitions = StreamDefs(
   features=StreamDef(field='image', transforms=image_transforms),
labels=StreamDef(field='label', shape=10)
)
   deserializer = ImageDeserializer(mapping_file, stream_definitions)
return MinibatchSource(deserializer, max_sweeps=max_sweeps)

À l'aide du code ci-dessus, nous pouvons améliorer la fonction pour inclure un ensemble de transformations d'image, de sorte que, lorsque nous nous entraînerons, nous pouvons recadrer l'image de manière aléatoire, afin d'obtenir plus de variations de l'image.

CNTK - Réseau neuronal récurrent

Maintenant, comprenons comment construire un réseau neuronal récurrent (RNN) en CNTK.

introduction

Nous avons appris à classer des images avec un réseau de neurones, et c'est l'un des métiers emblématiques de l'apprentissage profond. Mais les réseaux neuronaux récurrents (RNN) sont un autre domaine dans lequel le réseau de neurones excelle et où de nombreuses recherches sont en cours. Ici, nous allons savoir ce qu'est RNN et comment il peut être utilisé dans des scénarios où nous devons traiter des données chronologiques.

Qu'est-ce que le réseau neuronal récurrent?

Les réseaux de neurones récurrents (RNN) peuvent être définis comme la race spéciale de NN capables de raisonner dans le temps. Les RNN sont principalement utilisés dans les scénarios, où nous devons traiter des valeurs qui changent dans le temps, c'est-à-dire des données de séries chronologiques. Afin de mieux le comprendre, faisons une petite comparaison entre les réseaux de neurones réguliers et les réseaux de neurones récurrents -

  • Comme nous savons que, dans un réseau de neurones régulier, nous ne pouvons fournir qu'une seule entrée. Cela limite les résultats à une seule prédiction. Pour vous donner un exemple, nous pouvons faire un travail de traduction de texte en utilisant des réseaux de neurones réguliers.

  • D'autre part, dans les réseaux de neurones récurrents, nous pouvons fournir une séquence d'échantillons qui aboutissent à une seule prédiction. En d'autres termes, en utilisant les RNN, nous pouvons prédire une séquence de sortie basée sur une séquence d'entrée. Par exemple, il y a eu pas mal d'expériences réussies avec RNN dans les tâches de traduction.

Utilisations du réseau neuronal récurrent

Les RNN peuvent être utilisés de plusieurs manières. Certains d'entre eux sont les suivants -

Prédire une sortie unique

Avant de plonger dans les étapes, comment RNN peut prédire une sortie unique basée sur une séquence, voyons à quoi ressemble un RNN de base -

Comme nous pouvons dans le diagramme ci-dessus, RNN contient une connexion de bouclage à l'entrée et chaque fois, nous alimentons une séquence de valeurs, il traitera chaque élément de la séquence comme des pas de temps.

De plus, en raison de la connexion en boucle, RNN peut combiner la sortie générée avec l'entrée pour l'élément suivant dans la séquence. De cette manière, RNN construira une mémoire sur toute la séquence qui peut être utilisée pour faire une prédiction.

Afin de faire une prédiction avec RNN, nous pouvons effectuer les étapes suivantes -

  • Tout d'abord, pour créer un état caché initial, nous devons alimenter le premier élément de la séquence d'entrée.

  • Après cela, pour produire un état caché mis à jour, nous devons prendre l'état caché initial et le combiner avec le deuxième élément de la séquence d'entrée.

  • Enfin, pour produire l'état caché final et pour prédire la sortie du RNN, nous devons prendre l'élément final dans la séquence d'entrée.

De cette manière, avec l'aide de cette connexion en boucle, nous pouvons apprendre à un RNN à reconnaître les modèles qui se produisent au fil du temps.

Prédire une séquence

Le modèle de base, discuté ci-dessus, de RNN peut également être étendu à d'autres cas d'utilisation. Par exemple, nous pouvons l'utiliser pour prédire une séquence de valeurs basée sur une seule entrée. Dans ce scénario, afin de faire une prédiction avec RNN, nous pouvons effectuer les étapes suivantes -

  • Tout d'abord, pour créer un état caché initial et prédire le premier élément de la séquence de sortie, nous devons alimenter un échantillon d'entrée dans le réseau neuronal.

  • Après cela, pour produire un état masqué mis à jour et le deuxième élément de la séquence de sortie, nous devons combiner l'état masqué initial avec le même échantillon.

  • Enfin, pour mettre à jour l'état caché une fois de plus et prédire l'élément final dans la séquence de sortie, nous alimentons l'échantillon une autre fois.

Prédire les séquences

Comme nous l'avons vu, comment prédire une valeur unique basée sur une séquence et comment prédire une séquence basée sur une valeur unique. Voyons maintenant comment nous pouvons prédire les séquences des séquences. Dans ce scénario, afin de faire une prédiction avec RNN, nous pouvons effectuer les étapes suivantes -

  • Tout d'abord, pour créer un état masqué initial et prédire le premier élément de la séquence de sortie, nous devons prendre le premier élément de la séquence d'entrée.

  • Après cela, pour mettre à jour l'état masqué et prédire le deuxième élément de la séquence de sortie, nous devons prendre l'état masqué initial.

  • Enfin, pour prédire l'élément final dans la séquence de sortie, nous devons prendre l'état caché mis à jour et l'élément final dans la séquence d'entrée.

Fonctionnement de RNN

Pour comprendre le fonctionnement des réseaux de neurones récurrents (RNN), nous devons d'abord comprendre comment fonctionnent les couches récurrentes du réseau. Voyons d'abord comment e peut prédire la sortie avec une couche récurrente standard.

Prédire la sortie avec la couche RNN standard

Comme nous l'avons vu précédemment, une couche de base dans RNN est assez différente d'une couche régulière dans un réseau neuronal. Dans la section précédente, nous avons également démontré dans le diagramme l'architecture de base de RNN. Afin de mettre à jour l'état masqué pour la séquence de démarrage initiale, nous pouvons utiliser la formule suivante -

Dans l'équation ci-dessus, nous calculons le nouvel état caché en calculant le produit scalaire entre l'état caché initial et un ensemble de poids.

Maintenant, pour l'étape suivante, l'état caché pour le pas de temps actuel est utilisé comme état caché initial pour le pas de temps suivant dans la séquence. C'est pourquoi, pour mettre à jour l'état masqué pour le deuxième pas de temps, nous pouvons répéter les calculs effectués lors de la première étape comme suit -

Ensuite, nous pouvons répéter le processus de mise à jour de l'état caché pour la troisième et dernière étape de la séquence comme ci-dessous -

Et lorsque nous avons traité toutes les étapes ci-dessus dans la séquence, nous pouvons calculer la sortie comme suit -

Pour la formule ci-dessus, nous avons utilisé un troisième ensemble de poids et l'état caché du pas de temps final.

Unités récurrentes avancées

Le problème principal avec la couche récurrente de base est le problème du gradient de fuite et, de ce fait, il n'est pas très bon pour apprendre les corrélations à long terme. En termes simples, la couche récurrente de base ne gère pas très bien les longues séquences. C'est la raison pour laquelle certains autres types de calques récurrents qui sont beaucoup plus adaptés pour travailler avec des séquences plus longues sont les suivants:

Mémoire à long terme (LSTM)

Les réseaux de mémoire à long terme (LSTM) ont été introduits par Hochreiter & Schmidhuber. Cela a résolu le problème d'obtenir une couche récurrente de base pour se souvenir des choses pendant longtemps. L'architecture de LSTM est donnée ci-dessus dans le schéma. Comme nous pouvons le voir, il a des neurones d'entrée, des cellules mémoire et des neurones de sortie. Afin de lutter contre le problème du gradient de disparition, les réseaux de mémoire à long terme utilisent une cellule mémoire explicite (stocke les valeurs précédentes) et les portes suivantes -

  • Forget gate- Comme son nom l'indique, il indique à la cellule mémoire d'oublier les valeurs précédentes. La cellule de mémoire stocke les valeurs jusqu'à ce que la porte, c'est-à-dire «oublier la porte», lui dise de les oublier.

  • Input gate- Comme son nom l'indique, il ajoute de nouveaux éléments à la cellule.

  • Output gate- Comme son nom l'indique, la porte de sortie décide quand passer les vecteurs de la cellule à l'état caché suivant.

Unités récurrentes fermées (GRU)

Gradient recurrent units(GRUs) est une légère variation du réseau LSTM. Il a une porte de moins et son câblage est légèrement différent des LSTM. Son architecture est illustrée dans le diagramme ci-dessus. Il a des neurones d'entrée, des cellules de mémoire gated et des neurones de sortie. Le réseau d'unités récurrentes Gated a les deux portes suivantes -

  • Update gate- Il détermine les deux choses suivantes -

    • Quelle quantité d'informations doit être conservée depuis le dernier état?

    • Quelle quantité d'informations doit être introduite à partir de la couche précédente?

  • Reset gate- La fonctionnalité de la porte de réinitialisation ressemble beaucoup à celle de la porte oublié du réseau LSTM. La seule différence est qu'il est situé légèrement différemment.

Contrairement au réseau de mémoire à long terme, les réseaux d'unités récurrentes fermées sont légèrement plus rapides et plus faciles à exécuter.

Création de la structure RNN

Avant de pouvoir commencer, faire des prédictions sur la sortie de l'une de nos sources de données, nous devons d'abord construire RNN et construire RNN est tout à fait la même chose que nous avions construit un réseau de neurones régulier dans la section précédente. Voici le code pour en construire un -

from cntk.losses import squared_error
from cntk.io import CTFDeserializer, MinibatchSource, INFINITELY_REPEAT, StreamDefs, StreamDef
from cntk.learners import adam
from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
BATCH_SIZE = 14 * 10
EPOCH_SIZE = 12434
EPOCHS = 10

Implantation de plusieurs couches

Nous pouvons également empiler plusieurs couches récurrentes dans CNTK. Par exemple, nous pouvons utiliser la combinaison de couches suivante -

from cntk import sequence, default_options, input_variable
from cntk.layers import Recurrence, LSTM, Dropout, Dense, Sequential, Fold
features = sequence.input_variable(1)
with default_options(initial_state = 0.1):
   model = Sequential([
      Fold(LSTM(15)),
      Dense(1)
   ])(features)
target = input_variable(1, dynamic_axes=model.dynamic_axes)

Comme nous pouvons le voir dans le code ci-dessus, nous avons les deux façons suivantes de modéliser RNN dans CNTK -

  • Premièrement, si nous ne voulons que la sortie finale d'une couche récurrente, nous pouvons utiliser le Fold couche en combinaison avec une couche récurrente, telle que GRU, LSTM ou même RNNStep.

  • Deuxièmement, comme alternative, nous pouvons également utiliser le Recurrence bloquer.

Formation RNN avec des données de séries chronologiques

Une fois que nous avons construit le modèle, voyons comment nous pouvons former RNN en CNTK -

from cntk import Function
@Function
def criterion_factory(z, t):
   loss = squared_error(z, t)
   metric = squared_error(z, t)
   return loss, metric
loss = criterion_factory(model, target)
learner = adam(model.parameters, lr=0.005, momentum=0.9)

Maintenant, pour charger les données dans le processus de formation, nous devons désérialiser les séquences d'un ensemble de fichiers CTF. Le code suivant a lecreate_datasource fonction, qui est une fonction utilitaire utile pour créer à la fois la source de données d'entraînement et de test.

target_stream = StreamDef(field='target', shape=1, is_sparse=False)
features_stream = StreamDef(field='features', shape=1, is_sparse=False)
deserializer = CTFDeserializer(filename, StreamDefs(features=features_stream, target=target_stream))
   datasource = MinibatchSource(deserializer, randomize=True, max_sweeps=sweeps)
return datasource
train_datasource = create_datasource('Training data filename.ctf')#we need to provide the location of training file we created from our dataset.
test_datasource = create_datasource('Test filename.ctf', sweeps=1) #we need to provide the location of testing file we created from our dataset.

Maintenant que nous avons configuré les sources de données, le modèle et la fonction de perte, nous pouvons démarrer le processus de formation. C'est assez similaire à ce que nous avons fait dans les sections précédentes avec les réseaux de neurones de base.

progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
   features: train_datasource.streams.features,
   target: train_datasource.streams.target
}
history = loss.train(
   train_datasource,
   epoch_size=EPOCH_SIZE,
   parameter_learners=[learner],
   model_inputs_to_streams=input_map,
   callbacks=[progress_writer, test_config],
   minibatch_size=BATCH_SIZE,
   max_epochs=EPOCHS
)

Nous obtiendrons la sortie similaire comme suit -

Sortie−

average  since  average  since  examples
loss      last  metric  last
------------------------------------------------------
Learning rate per minibatch: 0.005
0.4      0.4    0.4      0.4      19
0.4      0.4    0.4      0.4      59
0.452    0.495  0.452    0.495   129
[…]

Valider le modèle

En fait, redire avec un RNN est assez similaire à faire des prédictions avec n'importe quel autre modèle CNK. La seule différence est que nous devons fournir des séquences plutôt que des échantillons uniques.

Maintenant que notre RNN est enfin terminé avec l'entraînement, nous pouvons valider le modèle en le testant à l'aide de quelques séquences d'échantillons comme suit -

import pickle
with open('test_samples.pkl', 'rb') as test_file:
test_samples = pickle.load(test_file)
model(test_samples) * NORMALIZE

Sortie−

array([[ 8081.7905],
[16597.693 ],
[13335.17 ],
...,
[11275.804 ],
[15621.697 ],
[16875.555 ]], dtype=float32)