Apprentissage automatique avec Python - Écosystème
Une introduction à Python
Python est un langage de programmation orienté objet populaire ayant les capacités d'un langage de programmation de haut niveau. Sa syntaxe facile à apprendre et sa capacité de portabilité le rendent populaire de nos jours. Les faits suivants nous donnent une introduction à Python -
Python a été développé par Guido van Rossum au Stichting Mathematisch Centrum aux Pays-Bas.
Il a été écrit comme le successeur du langage de programmation nommé «ABC».
Sa première version est sortie en 1991.
Le nom Python a été choisi par Guido van Rossum dans une émission de télévision intitulée Monty Python's Flying Circus.
C'est un langage de programmation open source, ce qui signifie que nous pouvons le télécharger gratuitement et l'utiliser pour développer des programmes. Il peut être téléchargé sur www.python.org .
Le langage de programmation Python possède les fonctionnalités de Java et C à la fois. Il a le code élégant «C» et d'autre part, il a des classes et des objets comme Java pour la programmation orientée objet.
C'est un langage interprété, ce qui signifie que le code source du programme Python serait d'abord converti en bytecode puis exécuté par la machine virtuelle Python.
Forces et faiblesses de Python
Chaque langage de programmation a des forces et des faiblesses, tout comme Python.
Forces
Selon des études et des sondages, Python est le cinquième langage le plus important ainsi que le langage le plus populaire pour l'apprentissage automatique et la science des données. C'est à cause des atouts suivants que Python a -
Easy to learn and understand- La syntaxe de Python est plus simple; il est donc relativement facile, même pour les débutants aussi, d'apprendre et de comprendre la langue.
Multi-purpose language - Python est un langage de programmation polyvalent car il prend en charge la programmation structurée, la programmation orientée objet ainsi que la programmation fonctionnelle.
Huge number of modules- Python a un grand nombre de modules pour couvrir tous les aspects de la programmation. Ces modules sont facilement disponibles pour une utilisation faisant de Python un langage extensible.
Support of open source community- En tant que langage de programmation open source, Python est pris en charge par une très large communauté de développeurs. Pour cette raison, les bogues sont facilement corrigés par la communauté Python. Cette caractéristique rend Python très robuste et adaptatif.
Scalability - Python est un langage de programmation évolutif car il fournit une structure améliorée pour la prise en charge de grands programmes par rapport aux scripts shell.
La faiblesse
Bien que Python soit un langage de programmation populaire et puissant, il a sa propre faiblesse de vitesse d'exécution lente.
La vitesse d'exécution de Python est lente par rapport aux langages compilés car Python est un langage interprété. Cela peut être le principal domaine d'amélioration pour la communauté Python.
Installer Python
Pour travailler en Python, il faut d'abord l'installer. Vous pouvez effectuer l'installation de Python de l'une des deux manières suivantes -
Installer Python individuellement
Utilisation de la distribution Python pré-packagée - Anaconda
Discutons-en chacun en détail.
Installer Python individuellement
Si vous souhaitez installer Python sur votre ordinateur, vous devez télécharger uniquement le code binaire applicable à votre plate-forme. La distribution Python est disponible pour les plates-formes Windows, Linux et Mac.
Ce qui suit est un bref aperçu de l'installation de Python sur les plates-formes mentionnées ci-dessus -
On Unix and Linux platform
À l'aide des étapes suivantes, nous pouvons installer Python sur les plates-formes Unix et Linux -
Tout d'abord, allez sur www.python.org/downloads/ .
Ensuite, cliquez sur le lien pour télécharger le code source compressé disponible pour Unix / Linux.
Maintenant, téléchargez et extrayez des fichiers.
Ensuite, nous pouvons éditer le fichier Modules / Setup si nous voulons personnaliser certaines options.
Ensuite, écrivez la commande run ./configure script
make
faire installer
On Windows platform
À l'aide des étapes suivantes, nous pouvons installer Python sur la plate-forme Windows -
Tout d'abord, allez sur www.python.org/downloads/ .
Ensuite, cliquez sur le lien pour le fichier python-XYZ.msi du programme d'installation de Windows. Ici XYZ est la version que nous souhaitons installer.
Maintenant, nous devons exécuter le fichier qui est téléchargé. Cela nous mènera à l'assistant d'installation de Python, qui est facile à utiliser. Maintenant, acceptez les paramètres par défaut et attendez que l'installation soit terminée.
On Macintosh platform
Pour Mac OS X, Homebrew, un programme d'installation de package génial et facile à utiliser est recommandé pour installer Python 3. Si vous n'avez pas Homebrew, vous pouvez l'installer à l'aide de la commande suivante -
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Il peut être mis à jour avec la commande ci-dessous -
$ brew update
Maintenant, pour installer Python3 sur votre système, nous devons exécuter la commande suivante -
$ brew install python3
Utilisation de la distribution Python pré-packagée: Anaconda
Anaconda est une compilation packagée de Python qui contient toutes les bibliothèques largement utilisées en science des données. Nous pouvons suivre les étapes suivantes pour configurer l'environnement Python à l'aide d'Anaconda -
Step 1- Tout d'abord, nous devons télécharger le package d'installation requis à partir de la distribution Anaconda. Le lien pour le même est www.anaconda.com/distribution/ . Vous pouvez choisir entre Windows, Mac et Linux OS selon vos besoins.
Step 2- Ensuite, sélectionnez la version Python que vous souhaitez installer sur votre machine. La dernière version de Python est la 3.7. Là, vous obtiendrez les options pour l'installateur graphique 64 bits et 32 bits.
Step 3- Après avoir sélectionné la version du système d'exploitation et de Python, il téléchargera le programme d'installation d'Anaconda sur votre ordinateur. Maintenant, double-cliquez sur le fichier et le programme d'installation installera le package Anaconda.
Step 4 - Pour vérifier s'il est installé ou non, ouvrez une invite de commande et tapez Python comme suit -
Vous pouvez également le vérifier dans une conférence vidéo détaillée sur www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp .
Pourquoi Python pour la science des données?
Python est le cinquième langage le plus important ainsi que le langage le plus populaire pour l'apprentissage automatique et la science des données. Voici les caractéristiques de Python qui en font le choix de langage préféré pour la science des données -
Ensemble complet de packages
Python dispose d'un ensemble complet et puissant de packages prêts à être utilisés dans divers domaines. Il a également des packages commenumpy, scipy, pandas, scikit-learn etc. qui sont nécessaires pour l'apprentissage automatique et la science des données.
Prototypage facile
Une autre caractéristique importante de Python qui en fait le choix du langage pour la science des données est le prototypage facile et rapide. Cette fonctionnalité est utile pour développer un nouvel algorithme.
Fonction de collaboration
Le domaine de la science des données a fondamentalement besoin d'une bonne collaboration et Python fournit de nombreux outils utiles qui rendent cela extrêmement.
Une langue pour de nombreux domaines
Un projet de science des données typique comprend divers domaines tels que l'extraction de données, la manipulation de données, l'analyse de données, l'extraction de fonctionnalités, la modélisation, l'évaluation, le déploiement et la mise à jour de la solution. Comme Python est un langage polyvalent, il permet au data scientist d'adresser tous ces domaines à partir d'une plateforme commune.
Composants de l'écosystème Python ML
Dans cette section, laissez-nous discuter de certaines bibliothèques de base de Data Science qui forment les composants de l'écosystème Python Machine Learning. Ces composants utiles font de Python un langage important pour la science des données. Bien qu'il existe de nombreux composants de ce type, discutons ici de certains des composants importants de l'écosystème Python -
Cahier Jupyter
Jupyter notebooks fournit essentiellement un environnement de calcul interactif pour développer des applications de science des données basées sur Python. Ils sont anciennement connus sous le nom de notebooks ipython. Voici quelques-unes des fonctionnalités des notebooks Jupyter qui en font l'un des meilleurs composants de l'écosystème Python ML -
Les blocs-notes Jupyter peuvent illustrer le processus d'analyse étape par étape en organisant les éléments tels que le code, les images, le texte, la sortie, etc. d'une manière étape par étape.
Il aide un data scientist à documenter le processus de réflexion tout en développant le processus d'analyse.
On peut également capturer le résultat comme partie du cahier.
Avec l'aide des cahiers Jupyter, nous pouvons également partager notre travail avec un pair.
Installation et exécution
Si vous utilisez la distribution Anaconda, vous n'avez pas besoin d'installer jupyter notebook séparément car il est déjà installé avec lui. Il vous suffit d'aller à l'invite Anaconda et de taper la commande suivante -
C:\>jupyter notebook
Après avoir appuyé sur Entrée, il démarrera un serveur notebook sur localhost: 8888 de votre ordinateur. Il est montré dans la capture d'écran suivante -
Maintenant, après avoir cliqué sur l'onglet Nouveau, vous obtiendrez une liste d'options. Sélectionnez Python 3 et il vous mènera au nouveau bloc-notes pour commencer à y travailler. Vous en aurez un aperçu dans les captures d'écran suivantes -
D'autre part, si vous utilisez une distribution Python standard, jupyter notebook peut être installé à l'aide du programme d'installation de packages python populaire, pip.
pip install jupyter
Types de cellules dans Jupyter Notebook
Voici les trois types de cellules dans un notebook Jupyter -
Code cells- Comme son nom l'indique, nous pouvons utiliser ces cellules pour écrire du code. Après avoir écrit le code / contenu, il l'enverra au noyau associé au notebook.
Markdown cells- Nous pouvons utiliser ces cellules pour noter le processus de calcul. Ils peuvent contenir des éléments tels que du texte, des images, des équations Latex, des balises HTML, etc.
Raw cells- Le texte qui y est écrit est affiché tel quel. Ces cellules sont essentiellement utilisées pour ajouter le texte que nous ne souhaitons pas convertir par le mécanisme de conversion automatique de jupyter notebook.
Pour une étude plus détaillée du notebook jupyter, vous pouvez aller sur le lien www.tutorialspoint.com/jupyter/index.htm .
NumPy
C'est un autre composant utile qui fait de Python l'un des langages préférés de la science des données. Il signifie essentiellement Python numérique et se compose d'objets de tableau multidimensionnel. En utilisant NumPy, nous pouvons effectuer les opérations importantes suivantes -
Opérations mathématiques et logiques sur les tableaux.
Transformation de Fourier
Opérations associées à l'algèbre linéaire.
Nous pouvons également voir NumPy comme le remplacement de MatLab car NumPy est principalement utilisé avec Scipy (Scientific Python) et Mat-plotlib (bibliothèque de traçage).
Installation and Execution
Si vous utilisez la distribution Anaconda, alors pas besoin d'installer NumPy séparément car il est déjà installé avec lui. Il vous suffit d'importer le package dans votre script Python à l'aide de:
import numpy as np
D'un autre côté, si vous utilisez une distribution Python standard, NumPy peut être installé à l'aide du programme d'installation de package python populaire, pip.
pip install NumPy
Pour une étude plus détaillée de NumPy, vous pouvez aller sur le lien www.tutorialspoint.com/numpy/index.htm .
Pandas
C'est une autre bibliothèque Python utile qui fait de Python l'un des langages préférés de la science des données. Pandas est essentiellement utilisé pour la manipulation, la lutte et l'analyse des données. Il a été développé par Wes McKinney en 2008. Avec l'aide de Pandas, dans le traitement des données, nous pouvons accomplir les cinq étapes suivantes -
- Load
- Prepare
- Manipulate
- Model
- Analyze
Représentation des données dans les pandas
La représentation complète des données dans Pandas se fait à l'aide des trois structures de données suivantes -
Series- Il s'agit essentiellement d'un ndarray unidimensionnel avec une étiquette d'axe, ce qui signifie que c'est comme un simple tableau avec des données homogènes. Par exemple, la série suivante est une collection d'entiers 1,5,10,15,24,25 ...
1 | 5 | dix | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
Data frame- C'est la structure de données la plus utile et utilisée pour presque tous les types de représentation et de manipulation de données dans les pandas. Il s'agit essentiellement d'une structure de données bidimensionnelle qui peut contenir des données hétérogènes. En règle générale, les données tabulaires sont représentées à l'aide de blocs de données. Par exemple, le tableau suivant montre les données des élèves ayant leurs noms et numéros de rôle, âge et sexe -
Nom | Numéro de rôle | Âge | Le sexe |
---|---|---|---|
Aarav | 1 | 15 | Masculin |
Harshit | 2 | 14 | Masculin |
Kanika | 3 | 16 | Femme |
Mayank | 4 | 15 | Masculin |
Panel- Il s'agit d'une structure de données tridimensionnelle contenant des données hétérogènes. Il est très difficile de représenter le panneau sous forme de représentation graphique, mais il peut être illustré comme un conteneur de DataFrame.
Le tableau suivant nous donne la dimension et la description des structures de données mentionnées ci-dessus utilisées dans Pandas -
Structure de données | Dimension | La description |
---|---|---|
Séries | 1-D | Taille immuable, données homogènes 1-D |
DataFrames | 2-D | Taille Mutable, Données hétérogènes sous forme de tableau |
Panneau | 3-D | Tableau de taille modifiable, conteneur de DataFrame. |
Nous pouvons comprendre ces structures de données car la structure de données de dimension supérieure est le conteneur de la structure de données de dimension inférieure.
Installation et exécution
Si vous utilisez la distribution Anaconda, il n'est pas nécessaire d'installer Pandas séparément car il est déjà installé avec. Il vous suffit d'importer le package dans votre script Python à l'aide de:
import pandas as pd
D'autre part, si vous utilisez une distribution Python standard, Pandas peut être installé à l'aide du programme d'installation de packages python populaire, pip.
pip install Pandas
Après avoir installé Pandas, vous pouvez l'importer dans votre script Python comme indiqué ci-dessus.
Exemple
Voici un exemple de création d'une série à partir de ndarray à l'aide de Pandas -
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
Pour une étude plus détaillée des pandas, vous pouvez aller sur le lien www.tutorialspoint.com/python_pandas/index.htm .
Scikit-learn
Une autre bibliothèque python utile et la plus importante pour la science des données et l'apprentissage automatique en Python est Scikit-learn. Voici quelques fonctionnalités de Scikit-learn qui le rendent si utile -
Il est construit sur NumPy, SciPy et Matplotlib.
Il s'agit d'un open source et peut être réutilisé sous licence BSD.
Il est accessible à tous et peut être réutilisé dans différents contextes.
Une large gamme d'algorithmes d'apprentissage automatique couvrant les principaux domaines de l'apprentissage automatique tels que la classification, le clustering, la régression, la réduction de dimensionnalité, la sélection de modèles, etc. peut être mise en œuvre à l'aide de celui-ci.
Installation et exécution
Si vous utilisez la distribution Anaconda, vous n'avez pas besoin d'installer Scikit-learn séparément car il est déjà installé avec. Il vous suffit d'utiliser le package dans votre script Python. Par exemple, avec la ligne de script suivante, nous importons un ensemble de données de patientes atteintes d'un cancer du sein à partir deScikit-learn -
from sklearn.datasets import load_breast_cancer
D'autre part, si vous utilisez une distribution Python standard et que vous disposez de NumPy et SciPy, Scikit-learn peut être installé à l'aide du programme d'installation de packages python populaire, pip.
pip install -U scikit-learn
Après avoir installé Scikit-learn, vous pouvez l'utiliser dans votre script Python comme vous l'avez fait ci-dessus.