Seaborn - Distribusi Pengamatan

Dalam petak sebar kategoris yang telah kita bahas di bab sebelumnya, pendekatan menjadi terbatas dalam informasi yang dapat diberikannya tentang distribusi nilai dalam setiap kategori. Sekarang, melangkah lebih jauh, mari kita lihat apa yang dapat memfasilitasi kita dengan melakukan perbandingan dalam kategori.

Plot Kotak

Boxplot adalah cara mudah untuk memvisualisasikan distribusi data melalui kuartilnya.

Plot kotak biasanya memiliki garis vertikal yang memanjang dari kotak yang disebut kumis. Kumis ini menunjukkan variabilitas di luar kuartil atas dan bawah, oleh karena itu Plot Kotak juga disebut sebagaibox-and-whisker plot dan box-and-whisker diagram. Pencilan apa pun dalam data diplot sebagai poin individual.

Contoh

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.swarmplot(x = "species", y = "petal_length", data = df)
plt.show()

Keluaran

Titik-titik di plot menunjukkan pencilan.

Plot Biola

Plot Biola adalah kombinasi dari plot kotak dengan perkiraan kepadatan kernel. Jadi, plot-plot ini lebih mudah untuk dianalisis dan dipahami sebaran datanya.

Mari kita gunakan kumpulan data tips yang dipanggil untuk mempelajari lebih lanjut tentang plot biola. Dataset ini berisi informasi terkait tips yang diberikan oleh pelanggan di sebuah restoran.

Contoh

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()

Keluaran

Nilai kuartil dan kumis dari diagram kotak ditampilkan di dalam biola. Karena plot biola menggunakan KDE, porsi biola yang lebih lebar menunjukkan kepadatan yang lebih tinggi dan wilayah yang sempit menunjukkan kepadatan yang relatif lebih rendah. Kisaran Antar-Kuartil dalam plot kotak dan porsi kepadatan yang lebih tinggi dalam kde termasuk dalam wilayah yang sama untuk setiap kategori plot biola.

Plot di atas menunjukkan distribusi total_bill pada empat hari dalam seminggu. Tapi, selain itu, jika kita ingin melihat bagaimana distribusi berperilaku sehubungan dengan seks, mari kita lihat contoh di bawah ini.

Contoh

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
plt.show()

Keluaran

Sekarang kita bisa melihat dengan jelas perilaku belanja antara pria dan wanita. Kita dapat dengan mudah mengatakan bahwa, pria menghasilkan lebih banyak tagihan daripada wanita dengan melihat plotnya.

Dan, jika variabel hue hanya memiliki dua kelas, kita dapat mempercantik plot dengan membagi setiap biola menjadi dua, bukan dua biola pada hari tertentu. Salah satu bagian biola merujuk ke setiap kelas dalam variabel hue.

Contoh

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y="total_bill",hue = 'sex', data = df)
plt.show()

Keluaran