Seaborn - Importer des ensembles de données et des bibliothèques

Dans ce chapitre, nous verrons comment importer des ensembles de données et des bibliothèques. Commençons par comprendre comment importer des bibliothèques.

Importation de bibliothèques

Commençons par importer Pandas, qui est une excellente bibliothèque pour gérer des ensembles de données relationnelles (au format table). Seaborn est pratique lorsqu'il s'agit de DataFrames, qui est la structure de données la plus largement utilisée pour l'analyse des données.

La commande suivante vous aidera à importer des Pandas -

# Pandas for managing datasets
import pandas as pd

Maintenant, importons la bibliothèque Matplotlib, qui nous aide à personnaliser nos graphiques.

# Matplotlib for additional customization
from matplotlib import pyplot as plt

Nous importerons la bibliothèque Seaborn avec la commande suivante -

# Seaborn for plotting and styling
import seaborn as sb

Importer des ensembles de données

Nous avons importé les bibliothèques requises. Dans cette section, nous allons comprendre comment importer les jeux de données requis.

Seaborn est livré avec quelques ensembles de données importants dans la bibliothèque. Lorsque Seaborn est installé, les jeux de données sont téléchargés automatiquement.

Vous pouvez utiliser l'un de ces ensembles de données pour votre apprentissage. Avec l'aide de la fonction suivante, vous pouvez charger le jeu de données requis

load_dataset()

Importation de données en tant que Pandas DataFrame

Dans cette section, nous importerons un ensemble de données. Cet ensemble de données se charge par défaut en tant que Pandas DataFrame. S'il y a une fonction dans le Pandas DataFrame, cela fonctionne sur ce DataFrame.

La ligne de code suivante vous aidera à importer l'ensemble de données -

# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()

La ligne de code ci-dessus générera la sortie suivante -

total_bill  tip   sex    smoker day  time   size
0    16.99    1.01   Female  No    Sun  Dinner  2
1    10.34    1.66   Male    No    Sun  Dinner  3
2    21.01    3.50   Male    No    Sun  Dinner  3
3    23.68    3.31   Male    No    Sun  Dinner  2
4    24.59    3.61   Female  No    Sun  Dinner  4

Pour afficher tous les ensembles de données disponibles dans la bibliothèque Seaborn, vous pouvez utiliser la commande suivante avec le get_dataset_names() fonction comme indiqué ci-dessous -

import seaborn as sb
print sb.get_dataset_names()

La ligne de code ci-dessus renverra la liste des ensembles de données disponibles comme sortie suivante

[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', 
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', 
u'titanic']

DataFramesstocker les données sous la forme de grilles rectangulaires permettant de visualiser facilement les données. Chaque ligne de la grille rectangulaire contient les valeurs d'une instance et chaque colonne de la grille est un vecteur qui contient des données pour une variable spécifique. Cela signifie que les lignes d'un DataFrame n'ont pas besoin de contenir, les valeurs du même type de données, elles peuvent être numériques, caractères, logiques, etc. Les DataFrames pour Python sont livrés avec la bibliothèque Pandas, et ils sont définis comme des structures de données étiquetées bidimensionnelles avec des types de colonnes potentiellement différents.

Pour plus de détails sur les DataFrames, visitez notre tutoriel sur les pandas.