Wie kann man ein Beispiel mit einer Datenprobe vergleichen?

Aug 17 2020

Ich realisiere es $t$-Tests werden normalerweise verwendet, um beispielsweise zu überprüfen, ob eine Stichprobe zur Population gehört oder ob zwei Stichproben unterschiedlich sind.

Was ist, wenn Sie eine Probe von haben $n=200$und Sie möchten überprüfen, mit welcher Wahrscheinlichkeit ein neues Einzelbeispiel Teil dieser Stichprobe ist. Oder besser gesagt, ich möchte nur wissen, wo in der Verteilung der Stichprobe das Beispiel ist!

Antworten

3 BruceET Aug 17 2020 at 21:06

Diese Frage ähnelt der im Link von @ StatsStudent, den Sie lesen sollten. Ein wesentlicher und entscheidender Unterschied besteht jedoch darin, dass Ihre Vergleichsprobe mit viel größer ist$n = 200.$

Angenommen, Sie haben eine normale Bevölkerung $\mathsf{Norm}(\mu=100, \sigma=15)$ und eine zusätzliche Beobachtung $X = 130.$Sie können sich fragen, wie wahrscheinlich es ist, dass die neue Beobachtung von dieser Population stammt. Eine traditionelle Antwort ist das$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ Wenn Sie dies also als P-Wert interpretieren, würden Sie sagen, wahrscheinlich nicht (wenn Sie gerne mit 5% testen).

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

Angenommen, Sie haben eine Stichprobe der Größe $n = 200.$ Unbekannt ist es von $\mathsf{Norm}(\mu=100, \sigma=15).$Sie sind bereit anzunehmen, dass Ihre neue Beobachtung aus einer Population mit der gleichen Varianz wie Ihre Stichprobe von 200 stammt. Dann könnten Sie einen gepoolten t-Test mit 2 Stichproben durchführen und daraus schließen, dass die neue Beobachtung möglicherweise dieselbe Population hat, weil die Der P-Wert beträgt 0,078 (wenn Sie gerne bei 5% testen).

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

Etwas mehr als die Hälfte ähnlicher Referenzgruppen würde zur Ablehnung führen:

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711