Python - Измерение дисперсии

В статистике дисперсия - это мера того, насколько далеко значение в наборе данных находится от среднего значения. Другими словами, это показывает, насколько разбросаны значения. Он измеряется с использованием стандартного отклонения. Другой обычно используемый метод - асимметрия.

Оба они рассчитываются с использованием функций, доступных в библиотеке pandas.

Измерение стандартного отклонения

Стандартное отклонение - это квадратный корень из дисперсии. Дисперсия - это средний квадрат разницы значений в наборе данных от среднего значения. В python мы вычисляем это значение с помощью функции std () из библиотеки pandas.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print df.std()

это output выглядит следующим образом -

Age       7.265527
Rating    0.661628
dtype: float64

Измерение асимметрии

Он используется для определения того, являются ли данные симметричными или искаженными. Если индекс находится между -1 и 1, то распределение симметрично. Если индекс не больше -1, то он смещен влево, а если он не меньше 1, то он смещен вправо.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()

это output выглядит следующим образом -

Age       1.443490
Rating   -0.153629
dtype: float64

Таким образом, распределение возрастного рейтинга является симметричным, тогда как распределение возраста смещено вправо.