Python-분산 측정

통계에서 분산은 데이터 세트의 값이 평균값에서 얼마나 멀리 떨어져 있는지를 측정 한 것입니다. 즉, 값이 얼마나 분산되어 있는지 나타냅니다. 표준 편차를 이용하여 측정합니다. 일반적으로 사용되는 다른 방법은 왜도입니다.

이 두 가지 모두 pandas 라이브러리에서 사용 가능한 함수를 사용하여 계산됩니다.

표준 편차 측정

표준 편차는 분산의 제곱근입니다. 분산은 데이터 세트에있는 값의 평균값과 차이를 제곱 한 평균입니다. 파이썬에서는 pandas 라이브러리의 std () 함수를 사용하여이 값을 계산합니다.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print df.std()

이것의 output 다음과 같습니다-

Age       7.265527
Rating    0.661628
dtype: float64

왜도 측정

데이터가 대칭인지 또는 치우쳐 있는지 확인하는 데 사용됩니다. 인덱스가 -1과 1 사이이면 분포가 대칭입니다. 인덱스가 -1보다 크지 않으면 왼쪽으로 치우치고 적어도 1이면 오른쪽으로 치우칩니다

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()

이것의 output 다음과 같습니다-

Age       1.443490
Rating   -0.153629
dtype: float64

따라서 연령 등급 분포는 대칭이고 연령 분포는 오른쪽으로 치우쳐 있습니다.