SciPy - Статистика
Все статистические функции находятся в подпакете scipy.stats и довольно полный список этих функций можно получить, используя info(stats)функция. Список доступных случайных величин также можно получить изdocstringдля подпакета статистики. Этот модуль содержит большое количество вероятностных распределений, а также растущую библиотеку статистических функций.
Каждое одномерное распределение имеет свой собственный подкласс, как описано в следующей таблице:
Sr. No. | Класс и описание |
---|---|
1 | rv_continuous Общий непрерывный класс случайных величин, предназначенный для создания подклассов |
2 | rv_discrete Общий класс дискретных случайных величин, предназначенный для создания подклассов |
3 | rv_histogram Создает распределение в виде гистограммы |
Нормальная непрерывная случайная переменная
Распределение вероятностей, в котором случайная величина X может принимать любое значение, является непрерывной случайной величиной. Ключевое слово location (loc) определяет среднее значение. Ключевое слово scale (масштаб) определяет стандартное отклонение.
Как пример rv_continuous класс, norm объект наследует от него набор универсальных методов и дополняет их деталями, специфичными для этого конкретного распределения.
Чтобы вычислить CDF в нескольких точках, мы можем передать список или массив NumPy. Рассмотрим следующий пример.
from scipy.stats import norm
import numpy as np
print norm.cdf(np.array([1,-1., 0, 1, 3, 4, -2, 6]))
Вышеупомянутая программа выдаст следующий результат.
array([ 0.84134475, 0.15865525, 0.5 , 0.84134475, 0.9986501 ,
0.99996833, 0.02275013, 1. ])
Чтобы найти медиану распределения, мы можем использовать функцию процентной точки (PPF), которая является обратной по отношению к CDF. Давайте разберемся, используя следующий пример.
from scipy.stats import norm
print norm.ppf(0.5)
Вышеупомянутая программа выдаст следующий результат.
0.0
Чтобы сгенерировать последовательность случайных значений, мы должны использовать аргумент ключевого слова size, который показан в следующем примере.
from scipy.stats import norm
print norm.rvs(size = 5)
Вышеупомянутая программа выдаст следующий результат.
array([ 0.20929928, -1.91049255, 0.41264672, -0.7135557 , -0.03833048])
Приведенный выше вывод не воспроизводится. Чтобы сгенерировать те же случайные числа, используйте функцию начального числа.
Равномерное распределение
Равномерное распределение может быть создано с помощью функции uniform. Рассмотрим следующий пример.
from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)
Вышеупомянутая программа выдаст следующий результат.
array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])
Построить дискретное распределение
Сгенерируем случайную выборку и сравним наблюдаемые частоты с вероятностями.
Биномиальное распределение
Как пример rv_discrete class, то binom objectнаследует от него набор общих методов и дополняет их деталями, специфичными для этого конкретного дистрибутива. Рассмотрим следующий пример.
from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)
Вышеупомянутая программа выдаст следующий результат.
array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])
Описательная статистика
Базовая статистика, такая как Min, Max, Mean и Variance, принимает массив NumPy в качестве входных данных и возвращает соответствующие результаты. Несколько основных статистических функций, доступных вscipy.stats package описаны в следующей таблице.
Sr. No. | Описание функции |
---|---|
1 | describe() Вычисляет несколько описательных статистик переданного массива |
2 | gmean() Вычисляет среднее геометрическое по указанной оси |
3 | hmean() Вычисляет среднее гармоническое по указанной оси. |
4 | kurtosis() Вычисляет эксцесс |
5 | mode() Возвращает модальное значение |
6 | skew() Проверяет асимметрию данных |
7 | f_oneway() Выполняет односторонний дисперсионный анализ |
8 | iqr() Вычисляет межквартильный диапазон данных по указанной оси |
9 | zscore() Вычисляет z-балл каждого значения в выборке относительно среднего значения выборки и стандартного отклонения. |
10 | sem() Вычисляет стандартную ошибку среднего (или стандартную ошибку измерения) значений во входном массиве. |
Некоторые из этих функций имеют аналогичную версию в scipy.stats.mstats, которые работают для маскированных массивов. Давайте разберемся в этом на примере, приведенном ниже.
from scipy import stats
import numpy as np
x = np.array([1,2,3,4,5,6,7,8,9])
print x.max(),x.min(),x.mean(),x.var()
Вышеупомянутая программа выдаст следующий результат.
(9, 1, 5.0, 6.666666666666667)
Т-тест
Давайте разберемся, чем полезен T-тест в SciPy.
ttest_1samp
Вычисляет T-тест для среднего значения ОДНОЙ группы оценок. Это двусторонний тест для нулевой гипотезы о том, что ожидаемое значение (среднее) выборки независимых наблюдений 'a' равно заданному среднему значению генеральной совокупности,popmean. Рассмотрим следующий пример.
from scipy import stats
rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,2))
print stats.ttest_1samp(rvs,5.0)
Вышеупомянутая программа выдаст следующий результат.
Ttest_1sampResult(statistic = array([-1.40184894, 2.70158009]),
pvalue = array([ 0.16726344, 0.00945234]))
Сравнение двух образцов
В следующих примерах представлены две выборки, которые могут происходить как из одного, так и из разных распределений, и мы хотим проверить, имеют ли эти образцы одинаковые статистические свойства.
ttest_ind- Рассчитывает Т-тест для средних значений двух независимых выборок оценок. Это двусторонняя проверка нулевой гипотезы о том, что две независимые выборки имеют одинаковые средние (ожидаемые) значения. Этот тест предполагает, что по умолчанию совокупности имеют идентичные дисперсии.
Мы можем использовать этот тест, если наблюдаем две независимые выборки из одной или разной совокупности. Рассмотрим следующий пример.
from scipy import stats
rvs1 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
rvs2 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
print stats.ttest_ind(rvs1,rvs2)
Вышеупомянутая программа выдаст следующий результат.
Ttest_indResult(statistic = -0.67406312233650278, pvalue = 0.50042727502272966)
Вы можете протестировать то же самое с новым массивом той же длины, но с другим средним значением. Используйте другое значение вloc и протестируйте то же самое.