Python - Mengukur Varians

Dalam statistik, varians adalah ukuran seberapa jauh nilai dalam kumpulan data terletak dari nilai rata-rata. Dengan kata lain, ini menunjukkan seberapa tersebar nilai-nilai tersebut. Ini diukur dengan menggunakan standar deviasi. Metode lain yang biasa digunakan adalah skewness.

Keduanya dihitung dengan menggunakan fungsi yang tersedia di perpustakaan pandas.

Mengukur Deviasi Standar

Simpangan baku adalah akar kuadrat dari varians. varians adalah rata-rata perbedaan kuadrat nilai dalam kumpulan data dari nilai rata-rata. Dalam python kami menghitung nilai ini dengan menggunakan fungsi std () dari pustaka pandas.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print df.std()

Nya output adalah sebagai berikut -

Age       7.265527
Rating    0.661628
dtype: float64

Mengukur Kemiringan

Ini digunakan untuk menentukan apakah datanya simetris atau miring. Jika indeksnya antara -1 dan 1, maka distribusinya simetris. Jika indeks tidak lebih dari -1 maka indeks miring ke kiri dan jika minimal 1, maka miring ke kanan

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()

Nya output adalah sebagai berikut -

Age       1.443490
Rating   -0.153629
dtype: float64

Jadi distribusi peringkat usia simetris sedangkan distribusi usia miring ke kanan.