SciPy-통계

모든 통계 기능은 하위 패키지에 있습니다. scipy.stats 이러한 기능의 전체 목록은 다음을 사용하여 얻을 수 있습니다. info(stats)함수. 사용 가능한 랜덤 변수 목록은docstring통계 하위 패키지를 위해. 이 모듈에는 많은 확률 분포와 증가하는 통계 함수 라이브러리가 포함되어 있습니다.

각 단 변량 분포에는 다음 표에 설명 된대로 고유 한 하위 클래스가 있습니다.

Sr. No. 클래스 및 설명
1

rv_continuous

서브 클래 싱을위한 일반 연속 랜덤 변수 클래스

2

rv_discrete

하위 분류를위한 일반 이산 랜덤 변수 클래스

rv_histogram

히스토그램으로 주어진 분포를 생성합니다.

정규 연속 랜덤 변수

랜덤 변수 X가 임의의 값을 가질 수있는 확률 분포는 연속 랜덤 변수입니다. 위치 (loc) 키워드는 평균을 지정합니다. scale (scale) 키워드는 표준 편차를 지정합니다.

의 예로서 rv_continuous 수업, norm 객체는 그것으로부터 제네릭 메서드의 컬렉션을 상속하고이 특정 배포에 대한 세부 사항으로 완성합니다.

여러 지점에서 CDF를 계산하기 위해 목록 또는 NumPy 배열을 전달할 수 있습니다. 다음 예를 살펴 보겠습니다.

from scipy.stats import norm
import numpy as np
print norm.cdf(np.array([1,-1., 0, 1, 3, 4, -2, 6]))

위의 프로그램은 다음과 같은 출력을 생성합니다.

array([ 0.84134475, 0.15865525, 0.5 , 0.84134475, 0.9986501 ,
0.99996833, 0.02275013, 1. ])

분포의 중앙값을 찾기 위해 CDF의 역인 백분율 포인트 함수 (PPF)를 사용할 수 있습니다. 다음 예제를 사용하여 이해합시다.

from scipy.stats import norm
print norm.ppf(0.5)

위의 프로그램은 다음과 같은 출력을 생성합니다.

0.0

무작위 변량 시퀀스를 생성하려면 다음 예제에 표시된 size 키워드 인수를 사용해야합니다.

from scipy.stats import norm
print norm.rvs(size = 5)

위의 프로그램은 다음과 같은 출력을 생성합니다.

array([ 0.20929928, -1.91049255, 0.41264672, -0.7135557 , -0.03833048])

위의 출력은 재현 할 수 없습니다. 동일한 난수를 생성하려면 seed 함수를 사용하십시오.

균등 분포

uniform 함수를 사용하여 균일 분포를 생성 할 수 있습니다. 다음 예를 살펴 보겠습니다.

from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)

위의 프로그램은 다음과 같은 출력을 생성합니다.

array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])

이산 배포 구축

랜덤 샘플을 생성하고 관측 된 주파수를 확률과 비교해 보겠습니다.

이항 분포

의 예로서 rv_discrete class, binom object그것으로부터 제네릭 메서드의 컬렉션을 상속하고이 특정 배포에 대한 세부 사항으로 완성합니다. 다음 예를 살펴 보겠습니다.

from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)

위의 프로그램은 다음과 같은 출력을 생성합니다.

array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])

기술 통계

Min, Max, Mean 및 Variance와 같은 기본 통계는 NumPy 배열을 입력으로 사용하고 각각의 결과를 반환합니다. 에서 사용할 수있는 몇 가지 기본 통계 기능scipy.stats package 다음 표에 설명되어 있습니다.

Sr. No. 기능 및 설명
1

describe()

전달 된 배열의 여러 기술 통계를 계산합니다.

2

gmean()

지정된 축을 따라 기하 평균을 계산합니다.

hmean()

지정된 축을 따라 조화 평균을 계산합니다.

4

kurtosis()

첨도를 계산합니다.

5

mode()

모달 값을 반환합니다.

6

skew()

데이터의 왜도를 테스트합니다.

7

f_oneway()

일원 분산 분석을 수행합니다.

8

iqr()

지정된 축을 따라 데이터의 사 분위수 범위를 계산합니다.

9

zscore()

표본 평균 및 표준 편차를 기준으로 표본에있는 각 값의 z 점수를 계산합니다.

10

sem()

입력 배열에있는 값의 평균 (또는 측정의 표준 오차)의 표준 오차를 계산합니다.

이러한 기능 중 일부는 scipy.stats.mstats, 마스킹 된 배열에서 작동합니다. 아래 주어진 예를 통해 이것을 이해합시다.

from scipy import stats
import numpy as np
x = np.array([1,2,3,4,5,6,7,8,9])
print x.max(),x.min(),x.mean(),x.var()

위의 프로그램은 다음과 같은 출력을 생성합니다.

(9, 1, 5.0, 6.666666666666667)

T- 테스트

SciPy에서 T-test가 어떻게 유용한 지 이해합시다.

ttest_1samp

하나의 점수 그룹 평균에 대한 T- 검정을 계산합니다. 이것은 독립 관측 값 'a'의 기대 값 (평균)이 주어진 모집단 평균과 같다는 귀무 가설에 대한 양측 검정입니다.popmean. 다음 예를 살펴 보겠습니다.

from scipy import stats
rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,2))
print stats.ttest_1samp(rvs,5.0)

위의 프로그램은 다음과 같은 출력을 생성합니다.

Ttest_1sampResult(statistic = array([-1.40184894, 2.70158009]),
pvalue = array([ 0.16726344, 0.00945234]))

두 샘플 비교

다음 예에는 두 개의 샘플이 있는데, 이는 동일하거나 다른 분포에서 나올 수 있으며 이러한 샘플이 동일한 통계적 특성을 갖는지 테스트하려고합니다.

ttest_ind− 두 개의 독립적 인 점수 샘플의 평균에 대한 T- 검정을 계산합니다. 이것은 두 개의 독립적 인 표본이 동일한 평균 (예상) 값을 갖는다는 귀무 가설에 대한 양측 검정입니다. 이 검정은 기본적으로 모집단의 분산이 동일하다고 가정합니다.

동일하거나 다른 모집단에서 두 개의 독립적 인 표본을 관찰하는 경우이 검정을 사용할 수 있습니다. 다음 예를 살펴 보겠습니다.

from scipy import stats
rvs1 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
rvs2 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
print stats.ttest_ind(rvs1,rvs2)

위의 프로그램은 다음과 같은 출력을 생성합니다.

Ttest_indResult(statistic = -0.67406312233650278, pvalue = 0.50042727502272966)

길이는 같지만 평균이 다른 새 배열로 동일하게 테스트 할 수 있습니다. 다른 값 사용loc 똑같이 테스트하십시오.