Seaborn - Gözlemlerin Dağılımı
Bir önceki bölümde ele aldığımız kategorik dağılım grafiklerinde, yaklaşım, her bir kategori içindeki değerlerin dağılımı hakkında sağlayabileceği bilgilerle sınırlı hale gelir. Şimdi, daha da ileri giderek, kategoriler içinde karşılaştırma yapmamıza neyin yardımcı olabileceğini görelim.
Kutu Grafikleri
Boxplot çeyreklerdeki verilerin dağılımını görselleştirmenin uygun bir yoludur.
Kutu grafikleri genellikle, bıyık olarak adlandırılan kutulardan uzanan dikey çizgilere sahiptir. Bu bıyıklar, üst ve alt çeyrekler dışındaki değişkenliği gösterir, dolayısıyla Kutu Grafikleri de şu şekilde adlandırılır:box-and-whisker arsa ve box-and-whisker diyagram. Verilerdeki herhangi bir Aykırı Değer, ayrı noktalar olarak çizilir.
Misal
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.swarmplot(x = "species", y = "petal_length", data = df)
plt.show()
Çıktı
Grafikteki noktalar aykırı değeri gösterir.
Keman Arsaları
Keman Grafikleri, kutu grafiği ile çekirdek yoğunluğu tahminlerinin bir kombinasyonudur. Dolayısıyla, bu grafiklerin verilerin dağıtımını analiz etmek ve anlamak daha kolaydır.
Keman olayları hakkında daha fazla bilgi edinmek için çağrılan ipuçları veri kümesini kullanalım. Bu veri seti, bir restoranda müşteriler tarafından verilen ipuçlarıyla ilgili bilgileri içerir.
Misal
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()
Çıktı
Kutu grafiğinden çeyrek ve bıyık değerleri kemanın içinde gösterilir. Keman grafiği KDE'yi kullandığından, kemanın geniş kısmı daha yüksek yoğunluğu ve dar bölge nispeten daha düşük yoğunluğu temsil eder. Kutu grafiğindeki Çeyrek Arası aralığı ve kde'deki daha yüksek yoğunluk kısmı, her bir keman grafiği kategorisinin aynı bölgesinde yer alır.
Yukarıdaki grafik, haftanın dört günü toplam_ fatura dağılımını göstermektedir. Ancak buna ek olarak, dağılımın cinsiyete göre nasıl davrandığını görmek istiyorsak, aşağıdaki örnekte inceleyelim.
Misal
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
plt.show()
Çıktı
Artık kadın ve erkek arasındaki harcama davranışını açıkça görebiliyoruz. Erkeklerin arsaya bakarak kadınlardan daha fazla fatura yaptığını rahatlıkla söyleyebiliriz.
Ve eğer ton değişkeninde sadece iki sınıf varsa, belirli bir günde her kemanı iki yerine ikiye bölerek olay örgüsünü güzelleştirebiliriz. Kemanın her iki bölümü de ton değişkenindeki her bir sınıfa karşılık gelir.
Misal
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y="total_bill",hue = 'sex', data = df)
plt.show()