Python - Mengukur Tendensi Pusat

Tendensi sentral secara matematis berarti mengukur pusat atau distribusi lokasi nilai suatu kumpulan data. Ini memberikan gambaran tentang nilai rata-rata data dalam kumpulan data dan juga indikasi tentang seberapa luas nilai-nilai tersebut tersebar dalam kumpulan data. Itu pada gilirannya membantu dalam mengevaluasi peluang masukan baru yang cocok dengan kumpulan data yang ada dan karenanya kemungkinan berhasil.

Ada tiga ukuran utama tendensi sentral yang dapat dihitung dengan menggunakan metode yang ada di pandas python library.

  • Mean - Merupakan nilai rata-rata dari data yang merupakan pembagian dari jumlah nilai dengan banyaknya nilai.

  • Median - Ini adalah nilai tengah dalam distribusi saat nilai disusun dalam urutan naik atau turun.

  • Mode - Ini adalah nilai yang paling sering muncul dalam sebuah distribusi.

Menghitung Mean dan Median

Fungsi pandas dapat langsung digunakan untuk menghitung nilai-nilai ini.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()

Nya output adalah sebagai berikut -

Mean Values in the Distribution
Age       31.833333
Rating     3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age       29.50
Rating     3.79
dtype: float64

Mode Menghitung

Mode mungkin atau mungkin tidak tersedia dalam distribusi tergantung pada apakah datanya kontinu atau apakah ada nilai yang memiliki frekuensi maksimum. Kami mengambil distribusi sederhana di bawah ini untuk mengetahui modenya. Di sini kami memiliki nilai yang memiliki frekuensi maksimum dalam distribusi.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#Create a DataFrame
df = pd.DataFrame(d)

print df.mode()

Nya output adalah sebagai berikut -

Age      Name
0   25.0    Andres
1    NaN  Chanchal
2    NaN    Gasper
3    NaN      Jack
4    NaN     James
5    NaN       Lee
6    NaN    Naviya
7    NaN     Ricky
8    NaN     Smith
9    NaN     Steve
10   NaN       Tom
11   NaN       Vin