Seaborn-통계적 추정

대부분의 상황에서 우리는 데이터의 전체 분포에 대한 추정을 다룹니다. 그러나 중심 경향 추정에 관해서는 분포를 요약하는 특정 방법이 필요합니다. 평균과 중앙값은 분포의 중심 경향을 추정하는 데 매우 자주 사용되는 기법입니다.

위 섹션에서 배운 모든 플롯에서 전체 분포를 시각화했습니다. 이제 분포의 중심 경향을 추정 할 수있는 플롯에 대해 논의하겠습니다.

바 플롯

그만큼 barplot()범주 형 변수와 연속 형 변수 간의 관계를 보여줍니다. 데이터는 직사각형 막대로 표시되며 막대의 길이는 해당 범주에있는 데이터의 비율을 나타냅니다.

막대 그래프는 중심 경향의 추정치를 나타냅니다. 막대 그래프를 배우기 위해 '타이타닉'데이터 셋을 사용하겠습니다.

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

산출

위의 예에서 각 클래스의 남성과 여성의 평균 생존 횟수를 볼 수 있습니다. 줄거리에서 우리는 남성보다 더 많은 수의 여성이 살아 남았다는 것을 이해할 수 있습니다. 남성과 여성 모두에서 더 많은 생존자가 일등석에서 나옵니다.

막대 그래프의 특별한 경우는 두 번째 변수에 대한 통계를 계산하는 대신 각 범주의 관측치 수를 표시하는 것입니다. 이를 위해 우리는countplot().

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()

산출

플롯에 따르면 3 등석의 승객 수가 1 등석 및 2 등석보다 높습니다.

포인트 플롯

포인트 플롯은 막대 플롯과 동일하지만 스타일이 다릅니다. 전체 막대가 아니라 추정값이 다른 축의 특정 높이에있는 점으로 표시됩니다.

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

산출