Keras - Présentation de l'apprentissage profond
L'apprentissage en profondeur est un sous-domaine en évolution de l'apprentissage automatique. L'apprentissage en profondeur consiste à analyser l'entrée couche par couche, où chaque couche extrait progressivement des informations de niveau supérieur sur l'entrée.
Prenons un scénario simple d'analyse d'une image. Supposons que votre image d'entrée soit divisée en une grille rectangulaire de pixels. Maintenant, le premier calque fait abstraction des pixels. Le deuxième calque comprend les bords de l'image. La couche suivante construit des nœuds à partir des arêtes. Ensuite, le suivant trouverait des branches à partir des nœuds. Enfin, la couche de sortie détectera l'objet complet. Ici, le processus d'extraction d'entités va de la sortie d'une couche à l'entrée de la couche suivante suivante.
En utilisant cette approche, nous pouvons traiter d'énormes quantités de fonctionnalités, ce qui fait de l'apprentissage en profondeur un outil très puissant. Les algorithmes d'apprentissage en profondeur sont également utiles pour l'analyse de données non structurées. Passons en revue les bases de l'apprentissage profond dans ce chapitre.
Réseaux de neurones artificiels
L'approche la plus populaire et principale de l'apprentissage en profondeur utilise le «réseau neuronal artificiel» (ANN). Ils sont inspirés du modèle du cerveau humain, qui est l'organe le plus complexe de notre corps. Le cerveau humain est composé de plus de 90 milliards de minuscules cellules appelées «neurones». Les neurones sont interconnectés par l'intermédiaire de fibres nerveuses appelées «axones» et «dendrites». Le rôle principal de l'axone est de transmettre des informations d'un neurone à un autre auquel il est connecté.
De même, le rôle principal des dendrites est de recevoir les informations transmises par les axones d'un autre neurone auquel elles sont connectées. Chaque neurone traite une petite information puis transmet le résultat à un autre neurone et ce processus se poursuit. C'est la méthode de base utilisée par notre cerveau humain pour traiter d'énormes informations telles que la parole, le visuel, etc., et en extraire des informations utiles.
Sur la base de ce modèle, le premier réseau de neurones artificiels (ANN) a été inventé par un psychologue Frank Rosenblatt, en 1958. Les RNA sont constitués de plusieurs nœuds similaires aux neurones. Les nœuds sont étroitement interconnectés et organisés en différentes couches cachées. La couche d'entrée reçoit les données d'entrée et les données passent par une ou plusieurs couches cachées séquentiellement et enfin la couche de sortie prédire quelque chose d'utile à propos des données d'entrée. Par exemple, l'entrée peut être une image et la sortie peut être la chose identifiée dans l'image, par exemple un «chat».
Un seul neurone (appelé perceptron dans ANN) peut être représenté comme ci-dessous -
Ici,
Les entrées multiples avec le poids représentent les dendrites.
La somme des entrées avec la fonction d'activation représente les neurones. Sum signifie en fait la valeur calculée de toutes les entrées et la fonction d'activation représente une fonction, qui modifie le Sum valeur en 0, 1 ou 0 à 1.
La sortie réelle représente l'axone et la sortie sera reçue par le neurone dans la couche suivante.
Laissez-nous comprendre les différents types de réseaux de neurones artificiels dans cette section.
Perceptron multicouche
Le perceptron multicouche est la forme la plus simple d'ANN. Il se compose d'une seule couche d'entrée, d'une ou plusieurs couches cachées et enfin d'une couche de sortie. Une couche est constituée d'une collection de perceptron. La couche d'entrée est essentiellement une ou plusieurs caractéristiques des données d'entrée. Chaque couche cachée se compose d'un ou plusieurs neurones et traite certains aspects de l'entité et envoie les informations traitées dans la couche cachée suivante. Le processus de couche de sortie reçoit les données de la dernière couche masquée et génère finalement le résultat.
Réseau neuronal convolutif (CNN)
Le réseau de neurones convolutifs est l'un des ANN les plus populaires. Il est largement utilisé dans les domaines de la reconnaissance d'images et de vidéos. Il est basé sur le concept de convolution, un concept mathématique. Il est presque similaire au perceptron multicouche sauf qu'il contient une série de couches de convolution et de mise en commun avant la couche de neurones cachés entièrement connectés. Il comporte trois couches importantes -
Convolution layer - C'est le bloc de construction principal et effectuer des tâches de calcul basées sur la fonction de convolution.
Pooling layer - Il est disposé à côté de la couche de convolution et est utilisé pour réduire la taille des entrées en supprimant les informations inutiles afin que le calcul puisse être effectué plus rapidement.
Fully connected layer - Il est disposé à côté de la série de couches de convolution et de regroupement et classe les entrées en différentes catégories.
Un simple CNN peut être représenté comme ci-dessous -
Ici,
2 séries de couches de convolution et de mise en commun sont utilisées et elles reçoivent et traitent l'entrée (par exemple l'image).
Une seule couche entièrement connectée est utilisée et elle est utilisée pour sortir les données (par exemple, classification de l'image)
Réseau neuronal récurrent (RNN)
Les réseaux de neurones récurrents (RNN) sont utiles pour remédier à la faille dans d'autres modèles ANN. Eh bien, la plupart des ANN ne se souviennent pas des étapes des situations précédentes et ont appris à prendre des décisions en fonction du contexte lors de la formation. Pendant ce temps, RNN stocke les informations passées et toutes ses décisions sont prises à partir de ce qu'il a appris du passé.
Cette approche est principalement utile dans la classification d'images. Parfois, nous pouvons avoir besoin de regarder vers l'avenir pour réparer le passé. Dans ce cas, le RNN bidirectionnel est utile pour apprendre du passé et prédire l'avenir. Par exemple, nous avons des échantillons manuscrits dans plusieurs entrées. Supposons que nous ayons de la confusion dans une entrée, puis nous devons vérifier à nouveau les autres entrées pour reconnaître le contexte correct qui prend la décision du passé.
Flux de travail d'ANN
Comprenons d'abord les différentes phases de l'apprentissage profond, puis apprenons comment Keras aide dans le processus d'apprentissage profond.
Collecter les données requises
L'apprentissage en profondeur nécessite beaucoup de données d'entrée pour réussir à apprendre et prédire le résultat. Alors, collectez d'abord autant de données que possible.
Analyser les données
Analysez les données et acquérez une bonne compréhension des données. Une meilleure compréhension des données est nécessaire pour sélectionner le bon algorithme ANN.
Choisissez un algorithme (modèle)
Choisissez un algorithme qui conviendra le mieux au type de processus d'apprentissage (par exemple, classification d'image, traitement de texte, etc.) et aux données d'entrée disponibles. L'algorithme est représenté parModelà Keras. L'algorithme comprend une ou plusieurs couches. Chaque couche dans ANN peut être représentée parKeras Layer à Keras.
Prepare data - Traitez, filtrez et sélectionnez uniquement les informations requises à partir des données.
Split data- Divisez les données en ensemble de données de formation et de test. Les données de test seront utilisées pour évaluer la prédiction de l'algorithme / modèle (une fois que la machine a appris) et pour contre-vérifier l'efficacité du processus d'apprentissage.
Compile the model- Compilez l'algorithme / le modèle, de sorte qu'il puisse être utilisé davantage pour apprendre par la formation et enfin faire de la prédiction. Cette étape nous oblige à choisir la fonction de perte et l'optimiseur. La fonction de perte et l'optimiseur sont utilisés dans la phase d'apprentissage pour trouver l'erreur (écart par rapport à la sortie réelle) et faire l'optimisation afin que l'erreur soit minimisée.
Fit the model - Le processus d'apprentissage proprement dit sera effectué dans cette phase en utilisant l'ensemble de données de formation.
Predict result for unknown value - Prédire la sortie pour les données d'entrée inconnues (autres que les données d'entraînement et de test existantes)
Evaluate model - Évaluer le modèle en prédisant la sortie des données de test et en comparant la prédiction avec le résultat réel des données de test.
Freeze, Modify or choose new algorithm- Vérifiez si l'évaluation du modèle est réussie. Si oui, enregistrez l'algorithme à des fins de prédiction future. Sinon, modifiez ou choisissez un nouvel algorithme / modèle et, enfin, entraînez à nouveau, prédisez et évaluez le modèle. Répétez le processus jusqu'à ce que le meilleur algorithme (modèle) soit trouvé.
Les étapes ci-dessus peuvent être représentées en utilisant l'organigramme ci-dessous -