Python-중심 경향 측정
수학적으로 중심적인 경향은 데이터 세트 값의 중심 또는 분포를 측정하는 것을 의미합니다. 데이터 세트에있는 데이터의 평균 값에 대한 아이디어를 제공하고 데이터 세트에서 값이 얼마나 널리 퍼져 있는지도 표시합니다. 이는 새로운 입력이 기존 데이터 세트에 들어 맞을 가능성과 그에 따른 성공 가능성을 평가하는 데 도움이됩니다.
pandas python 라이브러리의 방법을 사용하여 계산할 수있는 중심 경향의 세 가지 주요 척도가 있습니다.
평균-값 수와 값의 합계를 나눈 데이터의 평균 값입니다.
중앙값-값이 오름차순 또는 내림차순으로 정렬 된 경우 분포의 중간 값입니다.
모드-분포에서 가장 일반적으로 발생하는 값입니다.
평균 및 중앙값 계산
pandas 함수는 이러한 값을 계산하는 데 직접 사용할 수 있습니다.
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#Create a DataFrame
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()
이것의 output 다음과 같습니다-
Mean Values in the Distribution
Age 31.833333
Rating 3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age 29.50
Rating 3.79
dtype: float64
계산 모드
모드는 데이터가 연속적인지 또는 최대 주파수를 갖는 값이 있는지에 따라 분포에서 사용 가능할 수도 있고 사용 가능하지 않을 수도 있습니다. 모드를 알아보기 위해 아래의 간단한 분포를 사용합니다. 여기에 분포에서 최대 빈도를 갖는 값이 있습니다.
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#Create a DataFrame
df = pd.DataFrame(d)
print df.mode()
이것의 output 다음과 같습니다-
Age Name
0 25.0 Andres
1 NaN Chanchal
2 NaN Gasper
3 NaN Jack
4 NaN James
5 NaN Lee
6 NaN Naviya
7 NaN Ricky
8 NaN Smith
9 NaN Steve
10 NaN Tom
11 NaN Vin