Seaborn - Statistische Schätzung

In den meisten Situationen befassen wir uns mit Schätzungen der gesamten Verteilung der Daten. Wenn es jedoch um die zentrale Tendenzschätzung geht, brauchen wir einen bestimmten Weg, um die Verteilung zusammenzufassen. Mittelwert und Median sind die sehr häufig verwendeten Techniken, um die zentrale Tendenz der Verteilung abzuschätzen.

In allen Plots, die wir im obigen Abschnitt gelernt haben, haben wir die gesamte Verteilung visualisiert. Lassen Sie uns nun die Diagramme diskutieren, mit denen wir die zentrale Tendenz der Verteilung abschätzen können.

Bar Plot

Das barplot()zeigt die Beziehung zwischen einer kategorialen Variablen und einer kontinuierlichen Variablen. Die Daten werden in rechteckigen Balken dargestellt, wobei die Länge des Balkens den Anteil der Daten in dieser Kategorie darstellt.

Das Balkendiagramm repräsentiert die Schätzung der zentralen Tendenz. Verwenden wir den 'Titanic'-Datensatz, um Balkendiagramme zu lernen.

Beispiel

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

Ausgabe

Im obigen Beispiel können wir sehen, dass die durchschnittliche Anzahl der Überlebenden von Männern und Frauen in jeder Klasse. Aus der Handlung können wir verstehen, dass mehr Frauen überlebten als Männer. Sowohl bei Männern als auch bei Frauen sind mehr Überlebende aus der ersten Klasse.

Ein Sonderfall im Barplot besteht darin, die Anzahl der Beobachtungen in jeder Kategorie anzuzeigen, anstatt eine Statistik für eine zweite Variable zu berechnen. Dafür verwenden wircountplot().

Beispiel

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()

Ausgabe

Laut Plot ist die Anzahl der Passagiere in der dritten Klasse höher als in der ersten und zweiten Klasse.

Punktdiagramme

Punktdiagramme dienen als Balkendiagramme, jedoch in einem anderen Stil. Anstelle des vollen Balkens wird der Wert der Schätzung durch den Punkt auf einer bestimmten Höhe auf der anderen Achse dargestellt.

Beispiel

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

Ausgabe