Python Pandas - Visualisation
Tracé de base: tracé
Cette fonctionnalité sur Series et DataFrame n'est qu'un simple wrapper autour du matplotlib libraries plot() méthode.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10,4),index=pd.date_range('1/1/2000',
periods=10), columns=list('ABCD'))
df.plot()
Ses output est comme suit -
Si l'index est composé de dates, il appelle gct().autofmt_xdate() pour formater l'axe des x comme indiqué dans l'illustration ci-dessus.
Nous pouvons tracer une colonne par rapport à une autre en utilisant le x et y mots clés.
Les méthodes de traçage autorisent une poignée de styles de tracé autres que le tracé linéaire par défaut. Ces méthodes peuvent être fournies comme argument de mot-clé kind pourplot(). Ceux-ci comprennent -
- bar ou barh pour les parcelles en barres
- hist pour l'histogramme
- boîte pour boxplot
- 'zone' pour les parcelles de surface
- 'scatter' pour les nuages de points
Bar Plot
Voyons maintenant ce qu'est un Bar Plot en en créant un. Un graphique à barres peut être créé de la manière suivante -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d')
df.plot.bar()
Ses output est comme suit -
Pour produire un graphique à barres empilées, pass stacked=True -
import pandas as pd
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d')
df.plot.bar(stacked=True)
Ses output est comme suit -
Pour obtenir des graphiques à barres horizontales, utilisez le barh méthode -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d')
df.plot.barh(stacked=True)
Ses output est comme suit -
Histogrammes
Les histogrammes peuvent être tracés à l'aide du plot.hist()méthode. Nous pouvons spécifier le nombre de bacs.
import pandas as pd
import numpy as np
df = pd.DataFrame({'a':np.random.randn(1000)+1,'b':np.random.randn(1000),'c':
np.random.randn(1000) - 1}, columns=['a', 'b', 'c'])
df.plot.hist(bins=20)
Ses output est comme suit -
Pour tracer différents histogrammes pour chaque colonne, utilisez le code suivant -
import pandas as pd
import numpy as np
df=pd.DataFrame({'a':np.random.randn(1000)+1,'b':np.random.randn(1000),'c':
np.random.randn(1000) - 1}, columns=['a', 'b', 'c'])
df.diff.hist(bins=20)
Ses output est comme suit -
Boîtes à moustaches
Boxplot peut être dessiné appelant Series.box.plot() et DataFrame.box.plot(), ou DataFrame.boxplot() pour visualiser la distribution des valeurs dans chaque colonne.
Par exemple, voici un boxplot représentant cinq essais de 10 observations d'une variable aléatoire uniforme sur [0,1).
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.plot.box()
Ses output est comme suit -
Tracé de zone
Le tracé de surface peut être créé à l'aide du Series.plot.area() ou la DataFrame.plot.area() méthodes.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10, 4), columns=['a', 'b', 'c', 'd'])
df.plot.area()
Ses output est comme suit -
Nuage de points
Le nuage de points peut être créé à l'aide du DataFrame.plot.scatter() méthodes.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b', 'c', 'd'])
df.plot.scatter(x='a', y='b')
Ses output est comme suit -
Diagramme circulaire
Le graphique à secteurs peut être créé à l'aide du DataFrame.plot.pie() méthode.
import pandas as pd
import numpy as np
df = pd.DataFrame(3 * np.random.rand(4), index=['a', 'b', 'c', 'd'], columns=['x'])
df.plot.pie(subplots=True)
Ses output est comme suit -