Proportionsunterschied von zwei Stichproben: Warum ist die Schätzung des Standardfehlers kein Problem für die Normalität?

Aug 16 2020

Erstens scheint dies eine sehr häufige Frage zu sein, aber ich verspreche, dass ich lange nach ähnlichen Posts gesucht habe und keine Lösung gefunden habe, die eine Antwort zu liefern scheint. ( Dies und das kommen sich sehr nahe, aber ich denke auch nicht, dass es richtig beantwortet wird!).

Ich werde meine Verwirrung sehr gründlich erklären, indem ich sie zuerst mit dem Proportionsfall einer Stichprobe vergleiche. Wir könnten testen, ob der wahre Anteil$p$ entspricht einem Wert $c$.

$H_0: p = c.$

$H_A: p \neq c.$

Zum $np$ und $n(1-p)$ ausreichend groß, gibt uns die binomiale Annäherung an die Normale $\hat{p} \sim N(p, p(1-p)/n)$. Wenn wir also die Teststatistik berechnen,$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$Unter der Nullhypothese wird dies als Standardnormal verteilt. Entscheidend ist, dass wir den Standardfehler nicht schätzen - er wird durch die Nullhypothese bestimmt!

Nun betrachten wir stattdessen den Fall mit zwei Stichproben, in dem wir einen Hypothesentest für den Unterschied in den Anteilen durchführen möchten.

$H_0: p_1 - p_2 = 0.$

$H_A: p_1 - p_2 \neq 0.$

Die gleiche Binomialnäherung gibt uns $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. Dann wenn$\tilde{p}$ ist der gepoolte Anteil ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$), Ich weiß, dass unsere Teststatistik gegeben ist durch $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$

Dies ist der entscheidende Teil, dem ich nicht folge. Im Fall einer Stichprobe haben wir den Standardfehler nicht geschätzt - er wurde durch die Null bestimmt. Daher ist es sinnvoll, die Standardnormalen zu zitieren. Bei dem zwei Probe Fall, wir haben haben die Standardfehler zu schätzen, unseren gepoolten Anteil mit! Sollten wir also im Grunde genommen keine Anpassungen vornehmen müssen, um dies widerzuspiegeln? (Dh was wir mit einem T-Test machen).

Wie kann ich das erklären? Warum können wir die Standardnormalität immer noch zitieren, obwohl wir eine datenbasierte Schätzung für ihren Standardfehler verwenden?

Die Frage ist zwar analog zu der eines T-Tests, aber ich verstehe, warum wir nicht einfach einen T-Test verwenden können (die anderen Annahmen sind nicht erfüllt). Mein bisher bester Versuch, eine Antwort zu finden, ist einfach:

"Ja, wir schätzen den Standardfehler, aber diese Annäherung wird nur durch unsere ursprüngliche normale Annäherung an das Binom verschluckt, weil das sowieso nur bei hohen Freiheitsgraden funktioniert."

Gibt es eine bessere Erklärung dafür? Es fühlt sich intuitiv an, dass einige Anpassungen notwendig wären, aber wir nehmen keine vor.

Für eine kurze Erklärung, warum die beiden von mir zitierten Links das Gefühl hatten, dass sie dies nicht ganz abdecken ...

Die Antwort von @glen_b ist sehr gut und erklärt klar, warum die theoretischen Annahmen, die für einen T-Test erforderlich sind, hier nicht zutreffen würden. Ich sehe jedoch nicht, dass es genau dieses Problem erklärt. Es werden sowohl ein als auch zwei Stichprobenproportionstests erwähnt, und meine Verwirrung ist, dass sie sich in dieser Hinsicht nicht gleich fühlen. Dies hilft jedoch dabei, meine beste Vermutung oben zu treffen, nämlich dass für Stichprobengrößen, die groß genug für unsere Normalitätsnäherung sind, die Schätzung des Standardfehlers grundsätzlich irrelevant ist.

In ähnlicher Weise zeigt @ whuber's sehr deutlich (mit Darstellungen), wie sich die Student-t-Verteilung unserer Teststatistik nicht besser annähert (für eine moderate Stichprobengröße) als die einfache Standardnormalen.

Ich verstehe also, warum die Verteilung der Schüler hier keine bessere Wahl ist. Aber meine verweilenden Verwirrung ist einfach: Selbst wenn der Student-t nicht die richtige Lösung ist, was ist die beste Art und Weise zu beschreiben , warum wir nicht hier jede Art von Anpassung zur Verfügung stellen? Ich sehe den Fall mit einer Stichprobe und zwei Stichproben gleichwertig beschrieben - "es ist normal, weil die Varianz durch den Mittelwert bestimmt wird". Aber die Fälle scheinen ganz anders zu sein - in einem schätzen wir den Standardfehler, in dem anderen nicht. Ist die Antwort einfach "Wenn wir die Binomialproportionsdifferenz bereits mit einer Normalen approximieren, ist die Schätzung des Standardfehlers relativ zu dieser Approximation trivial, sodass wir sie ignorieren können"?

Antworten

3 Glen_b Aug 16 2020 at 01:14

Wie in der Antwort, auf die Sie verlinken, verwenden Sie erneut den Satz von Slutsky , insbesondere die dritte (Verhältnis-) Form unter dem Wikipedia-Link.

Wenn du schreibst $Z_n$ wie $X_n/Y_n$ wo

$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$

$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$

wo $p_0$ ist der gemeinsame Bevölkerungsanteil unter Null und $n_1$ und $n_2$ proportional erhöhen * (oder alternativ durch Vermieten $n$ sei der kleinere von $n_1$ und $n_2$ stattdessen) sollte dann der Satz gelten, und $Y_n$ konvergiert zu $1$, so wie $n\to\infty$ die Sequenz $Z_n$ konvergiert zur gleichen Verteilung $X_n$ tut (dh zur Standardnormalverteilung).

* Dieser Teil könnte auf verschiedene ähnliche Arten formalisiert werden und eine Folge von $n_1$ und $n_2$ Werte zu $n$ während sie im Verhältnis halten