統計-適合度

ザ・ Goodness of Fittestは、サンプルデータが母集団の分布に適合するかどうかを確認するために使用されます。母集団は、正規分布またはワイブル分布である可能性があります。簡単に言うと、サンプルデータは、実際の母集団から検出することを期待しているデータを正しく表していることを意味します。以下のテストは、一般的に統計学者によって使用されます。

  • Chi-square

  • Kolmogorov-Smirnov

  • Anderson-Darling

  • Shipiro-Wilk

カイ二乗検定

カイ二乗検定は、適合度検定のテストに最も一般的に使用され、二項分布やポアソン分布などの離散分布に使用されますが、コルモゴロフ-スミルノフ検定とアンダーソン-ダーリング適合度検定は連続分布に使用されます。 。

$ {X ^ 2 = \ sum {[\ frac {(O_i --E_i)^ 2} {E_i}]}} $

ここで-

  • $ {O_i} $ =変数のi番目のレベルの観測値。

  • $ {E_i} $ =変数のi番目のレベルの期待値。

  • $ {X ^ 2} $ =カイ2乗確率変数。

おもちゃ会社がフットボール選手のおもちゃを作っています。カードの30%がミッドフィールダー、60%がディフェンダー、10%がフォワードであると主張しています。100のおもちゃのランダムサンプルを考えると、50人のミッドフィールダー、45人のディフェンダー、5人のフォワードがいます。0.05の有意水準を考えると、会社の主張を正当化できますか?

Solution:

仮説を決定する

  • Null hypothesis $ H_0 $ -ミッドフィールダー、ディフェンダー、フォワードの割合は、それぞれ30%、60%、10%です。

  • Alternative hypothesis $ H_1 $ -帰無仮説の比率の少なくとも1つが偽です。

自由度を決定する

自由度DFは、カテゴリ変数のレベル数(k)から1を引いたものに等しくなります。DF= k-1。ここで、レベルは3です。

$ {DF = k-1 \\ [7pt] \、= 3 -1 = 2} $

カイ二乗検定統計を決定する

$ {X ^ 2 = \ sum {[\ frac {(O_i --E_i)^ 2} {E_i}]} \\ [7pt] \、= [\ frac {(50-30)^ 2} {30}] + [\ frac {(45-60)^ 2} {60}] + [\ frac {(5-10)^ 2} {10}] \\ [7pt] \、= \ frac {400} {30} + \ frac {225} {60} + \ frac {25} {10} \\ [7pt] \、= 13.33 + 3.75 + 2.50 \\ [7pt] \、= 19.58} $

p値を決定する

P値は、2自由度のカイ2乗統計量$ X ^ 2 $が19.58よりも極端である確率です。カイ二乗分布計算機を使用して、$ {P(X ^ 2 \ gt 19.58)= 0.0001} $を見つけます。

結果を解釈する

P値(0.0001)は有意水準(0.05)よりもかなり小さいため、帰無仮説は受け入れられません。したがって、会社の主張は無効です。