Seaborn - Ước tính thống kê

Trong hầu hết các tình huống, chúng tôi xử lý các ước tính của toàn bộ phân phối dữ liệu. Nhưng khi nói đến ước lượng xu hướng trung tâm, chúng ta cần một cách cụ thể để tóm tắt sự phân bố. Trung bình và trung vị là các kỹ thuật thường được sử dụng để ước tính xu hướng trung tâm của phân phối.

Trong tất cả các lô mà chúng ta đã học ở phần trên, chúng ta đã hình dung ra toàn bộ sự phân bố. Bây giờ, chúng ta hãy thảo luận về các lô mà chúng ta có thể ước tính xu hướng trung tâm của phân phối.

Lô đất

Các barplot()cho thấy mối quan hệ giữa một biến phân loại và một biến liên tục. Dữ liệu được biểu thị bằng các thanh hình chữ nhật trong đó độ dài của thanh thể hiện tỷ lệ của dữ liệu trong danh mục đó.

Biểu đồ thanh thể hiện ước tính của xu hướng trung tâm. Hãy để chúng tôi sử dụng tập dữ liệu 'titanic' để tìm hiểu các biểu đồ thanh.

Thí dụ

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

Đầu ra

Trong ví dụ trên, chúng ta có thể thấy rằng số lượng sống sót trung bình của nam và nữ trong mỗi lớp. Từ cốt truyện, chúng ta có thể hiểu rằng số lượng phụ nữ sống sót nhiều hơn nam giới. Ở cả nam và nữ, số người sống sót nhiều hơn từ hạng nhất.

Một trường hợp đặc biệt trong barplot là hiển thị không có quan sát trong mỗi danh mục hơn là tính toán thống kê cho biến thứ hai. Đối với điều này, chúng tôi sử dụngcountplot().

Thí dụ

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()

Đầu ra

Plot nói rằng, số lượng hành khách ở khoang hạng ba nhiều hơn hạng nhất và hạng hai.

Lô điểm

Biểu đồ điểm phục vụ giống như biểu đồ thanh nhưng theo một phong cách khác. Thay vì thanh đầy đủ, giá trị của ước tính được biểu thị bằng điểm ở độ cao nhất định trên trục khác.

Thí dụ

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

Đầu ra