Python - Mengukur Tendensi Pusat
Tendensi sentral secara matematis berarti mengukur pusat atau distribusi lokasi nilai suatu kumpulan data. Ini memberikan gambaran tentang nilai rata-rata data dalam kumpulan data dan juga indikasi tentang seberapa luas nilai-nilai tersebut tersebar dalam kumpulan data. Itu pada gilirannya membantu dalam mengevaluasi peluang masukan baru yang cocok dengan kumpulan data yang ada dan karenanya kemungkinan berhasil.
Ada tiga ukuran utama tendensi sentral yang dapat dihitung dengan menggunakan metode yang ada di pandas python library.
Mean - Merupakan nilai rata-rata dari data yang merupakan pembagian dari jumlah nilai dengan banyaknya nilai.
Median - Ini adalah nilai tengah dalam distribusi saat nilai disusun dalam urutan naik atau turun.
Mode - Ini adalah nilai yang paling sering muncul dalam sebuah distribusi.
Menghitung Mean dan Median
Fungsi pandas dapat langsung digunakan untuk menghitung nilai-nilai ini.
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#Create a DataFrame
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()
Nya output adalah sebagai berikut -
Mean Values in the Distribution
Age 31.833333
Rating 3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age 29.50
Rating 3.79
dtype: float64
Mode Menghitung
Mode mungkin atau mungkin tidak tersedia dalam distribusi tergantung pada apakah datanya kontinu atau apakah ada nilai yang memiliki frekuensi maksimum. Kami mengambil distribusi sederhana di bawah ini untuk mengetahui modenya. Di sini kami memiliki nilai yang memiliki frekuensi maksimum dalam distribusi.
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#Create a DataFrame
df = pd.DataFrame(d)
print df.mode()
Nya output adalah sebagai berikut -
Age Name
0 25.0 Andres
1 NaN Chanchal
2 NaN Gasper
3 NaN Jack
4 NaN James
5 NaN Lee
6 NaN Naviya
7 NaN Ricky
8 NaN Smith
9 NaN Steve
10 NaN Tom
11 NaN Vin