Seaborn-통계적 추정
대부분의 상황에서 우리는 데이터의 전체 분포에 대한 추정을 다룹니다. 그러나 중심 경향 추정에 관해서는 분포를 요약하는 특정 방법이 필요합니다. 평균과 중앙값은 분포의 중심 경향을 추정하는 데 매우 자주 사용되는 기법입니다.
위 섹션에서 배운 모든 플롯에서 전체 분포를 시각화했습니다. 이제 분포의 중심 경향을 추정 할 수있는 플롯에 대해 논의하겠습니다.
바 플롯
그만큼 barplot()범주 형 변수와 연속 형 변수 간의 관계를 보여줍니다. 데이터는 직사각형 막대로 표시되며 막대의 길이는 해당 범주에있는 데이터의 비율을 나타냅니다.
막대 그래프는 중심 경향의 추정치를 나타냅니다. 막대 그래프를 배우기 위해 '타이타닉'데이터 셋을 사용하겠습니다.
예
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()
산출
위의 예에서 각 클래스의 남성과 여성의 평균 생존 횟수를 볼 수 있습니다. 줄거리에서 우리는 남성보다 더 많은 수의 여성이 살아 남았다는 것을 이해할 수 있습니다. 남성과 여성 모두에서 더 많은 생존자가 일등석에서 나옵니다.
막대 그래프의 특별한 경우는 두 번째 변수에 대한 통계를 계산하는 대신 각 범주의 관측치 수를 표시하는 것입니다. 이를 위해 우리는countplot().
예
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()
산출
플롯에 따르면 3 등석의 승객 수가 1 등석 및 2 등석보다 높습니다.
포인트 플롯
포인트 플롯은 막대 플롯과 동일하지만 스타일이 다릅니다. 전체 막대가 아니라 추정값이 다른 축의 특정 높이에있는 점으로 표시됩니다.
예
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()