1つの例をデータのサンプルと比較する方法は?

Aug 17 2020

把握した $t$-testは通常、たとえばサンプルが母集団に属しているかどうか、または2つのサンプルが異なるかどうかを確認するために使用されます。

あなたがのサンプルを持っている場合はどうですか $n=200$そして、新しい個々の例がそのサンプルの一部である確率を確認したいとします。むしろ、サンプルの分布のどこに例があるのか​​を知りたいだけです。

回答

3 BruceET Aug 17 2020 at 21:06

この質問は、@ StatsStudentのリンクにある質問と似ています。ただし、重要で重要な違いは、比較サンプルが$n = 200.$

あなたが正常な人口を持っていると仮定します $\mathsf{Norm}(\mu=100, \sigma=15)$ および追加の観察 $X = 130.$新しい観測がその母集団から来た可能性がどの程度あるかを尋ねることができます。伝統的な答えは、$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ したがって、これをP値として解釈する場合は、おそらくそうではありません(5%レベルでのテストが好きな場合)。

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

ここで、サイズのサンプルがあるとします。 $n = 200.$ あなたには知られていないからです $\mathsf{Norm}(\mu=100, \sigma=15).$新しい観測値が200のサンプルと同じ分散を持つ母集団からのものであると想定することをいとわないでしょう。次に、プールされた2サンプルのt検定を実行できます。 P値は0.078です(5%レベルでのテストが好きな場合)。

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

同様の参照グループの半分以上が拒否につながります。

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711