Dlaczego średnia ± 2 * SEM (95% przedział ufności) zachodzi na siebie, ale wartość p wynosi 0,05?

Nov 21 2020

Mam dane jako dwie listy:

acol = [8.48, 9.82, 9.66, 9.81, 9.23, 10.35, 10.08, 11.05, 8.63, 9.52, 10.88, 10.05, 10.45, 10.0, 9.97, 12.02, 11.48, 9.53, 9.98, 10.69, 10.29, 9.74, 8.92, 11.94, 9.04, 11.42, 8.88, 10.62, 9.38, 12.56, 10.53, 9.4, 11.53, 8.23, 12.09, 9.37, 11.17, 11.33, 10.49, 8.32, 11.29, 10.31, 9.94, 10.27, 9.98, 10.05, 10.07, 10.03, 9.12, 11.56, 10.88, 10.3, 11.32, 8.09, 9.34, 10.46, 9.35, 11.82, 10.29, 9.81, 7.92, 7.84, 12.22, 10.42, 10.45, 9.33, 8.24, 8.69, 10.31, 11.29, 9.31, 9.93, 8.21, 10.32, 9.72, 8.95, 9.49, 8.11, 8.33, 10.41, 8.38, 10.31, 10.33, 8.83, 7.84, 8.11, 11.11, 9.41, 9.32, 9.42, 10.57, 9.74, 11.35, 9.44, 10.53, 10.08, 10.92, 9.72, 7.83, 11.09, 8.95, 10.69, 11.85, 10.19, 8.49, 9.93, 10.39, 11.08, 11.27, 8.71, 9.62, 11.75, 8.45, 8.09, 11.54, 9.0, 9.61, 10.82, 10.36, 9.22, 9.36, 10.38, 9.53, 9.2, 10.36, 9.38, 7.68, 9.99, 10.61, 8.81, 10.09, 10.24, 9.21, 10.17, 10.32, 10.41, 8.77]

bcol = [12.48, 9.76, 9.63, 10.86, 11.63, 9.07, 12.01, 9.52, 10.05, 8.66, 10.85, 9.87, 11.14, 10.59, 9.24, 9.85, 9.62, 11.54, 11.1, 9.38, 9.24, 9.68, 10.02, 9.91, 10.66, 9.7, 11.06, 9.27, 9.08, 11.31, 10.9, 10.63, 8.98, 9.81, 9.69, 10.71, 10.43, 10.89, 8.96, 9.74, 8.33, 11.45, 9.61, 9.59, 11.25, 9.44, 10.05, 11.63, 10.16, 11.71, 9.1, 9.53, 9.76, 9.33, 11.53, 11.59, 10.21, 10.68, 8.99, 9.44, 9.82, 10.35, 11.22, 9.05, 9.18, 9.57, 11.43, 9.4, 11.45, 8.39, 11.32, 11.16, 12.47, 11.62, 8.77, 11.34, 11.77, 9.53, 10.54, 8.73, 9.97, 9.98, 10.8, 9.6, 9.6, 9.96, 12.17, 10.01, 8.69, 8.94, 9.24, 9.84, 10.39, 10.65, 9.31, 9.93, 10.41, 8.5, 8.64, 10.23, 9.94, 10.47, 8.95, 10.8, 9.84, 10.26, 11.0, 11.22, 10.72, 9.14, 10.06, 11.52, 10.21, 9.82, 10.81, 10.3, 9.81, 11.48, 8.51, 9.55, 10.41, 12.17, 9.9, 9.07, 10.51, 10.26, 10.62, 10.84, 9.67, 9.75, 8.84, 9.85, 10.41, 9.18, 10.93, 11.41, 9.52]

Podsumowanie powyższych list znajduje się poniżej:

N,   Mean, SD,   SEM,   95% CIs
137  9.92  1.08  0.092  (9.74, 10.1)
137  10.2  0.951 0.081  (10.0, 10.3)

Niesparowany test t dla powyższych danych daje wartość p równą 0,05:

f,p = scipy.stats.ttest_ind(acol, bcol)
print(f, p)
-1.9644209241736 0.050499295018989004

Rozumiem z tej i innych stron, że średnia ± 2 * SEM (błąd standardowy średniej obliczony przez SD / sqrt (N) ) daje 95% przedział ufności (CI).

Uważam również, że jeśli 95% przedziały ufności nakładają się, wartość P będzie> 0,05.

Powyższe dane wykreśliłem jako średnią ± 2 * SEM :

95% przedziały ufności nakładają się. Dlaczego więc wartość p osiąga znaczący poziom?

Odpowiedzi

10 SextusEmpiricus Nov 21 2020 at 20:49

Nakładanie się to tylko (ścisła / niedokładna) zasada

Punkt, w którym słupki błędów nie nakładają się, jest równy odległości między dwoma punktami $2(SE_1+SE_2)$. Skutecznie sprawdzasz, czy jakiś rodzaj ustandaryzowanego wyniku (odległość podzielona przez sumę błędów standardowych) jest większy niż 2. Nazwijmy to$z_{overlap}$

$$ z_{overlap} = \frac{\vert \bar{X}_1- \bar{X}_2 \vert}{SE_1+SE_2} \geq 2$$

Jeśli to $z_{overlap} \geq 2$ wtedy słupki błędów nie nakładają się.


Odchylenie standardowe liniowej sumy zmiennych niezależnych

Sumowanie odchyleń standardowych (błędów) nie jest typowym sposobem obliczenia odchylenia standardowego (błędu) sumy liniowej (parametr $\bar{X}_1-\bar{X}_2$ można uznać za sumę liniową, w której jeden z dwóch jest mnożony przez współczynnik $-1$) Zobacz także: Suma nieskorelowanych zmiennych

Więc poniższe są prawdziwe dla niezależnych $\bar{X}_1$ i $\bar{X}_2$:

$$\begin{array}{} \text{Var}(\bar{X}_1-\bar{X}_2) &=& \text{Var}(\bar{X}_1) + \text{Var}(\bar{X}_2)\\ \sigma_{\bar{X}_1-\bar{X}_2}^2 &=& \sigma_{\bar{X}_1}^2+\sigma_{\bar{X}_2}^2\\ \sigma_{\bar{X}_1-\bar{X}_2} &=& \sqrt{\sigma_{\bar{X}_1}^2+\sigma_{\bar{X}_2}^2}\\ \text{S.E.}(\bar{X}_1-\bar{X}_2) &=& \sqrt{\text{S.E.}(\bar{X}_1)^2 + \text{S.E.}(\bar{X}_2)^2}\\ \end{array}$$

Ale nie

$$\text{S.E.}(\bar{X}_1-\bar{X}_2) \neq {\text{S.E.}(\bar{X}_1) + \text{S.E.}(\bar{X}_2)}$$


„Prawidłowa” formuła do porównywania różnicy średniej z dwóch próbek

Aby wykonać test t do porównania różnicy średnich dwóch populacji , należy użyć wzoru takiego jak

  • W najprostszym przypadku: $$t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{SE_1^2+SE_2^2}}$$ ma to miejsce, gdy uznamy wariancje za nierówne lub gdy wielkości próby są równe.

  • Jeśli wielkości próby są różne i uważasz, że wariancja populacji jest równa, możesz oszacować wariancje dla obu próbek razem, zamiast oddzielnie, i użyć jednego z wielu wzorów dla wariancji zbiorczej, np.

    $$s_p = \sqrt{\frac{(n_1-1)s_1^2 +(n_2-1)s_2^2}{n_1+n_2-2}}$$

    z $$t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$

    i z $SE_1 = s_1/\sqrt{n_1}$ i $SE_2 = s_2/\sqrt{n_2}$ dostajesz

    $$t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{n_1+n_2}{n_1+n_2-2} \left( \frac{n_1-1}{n_2} SE_1^2 + \frac{n_2-1}{n_1} SE_2^2 \right)}}$$

Zwróć uwagę, że value $\sqrt{SE_1^2+SE_2^2}$ jest mniejszy od $SE_1+SE_2$, w związku z tym $t>z_{overlap}$.

Dodatkowe uwagi:

  • W przypadku wariancji zbiorczej może wystąpić sytuacja - choć rzadko - że wariancja większej próby jest większa niż wariancja mniejszej próby, a wtedy możliwe jest, że $t<z_{overlap}$.

  • Zamiast wartości z i testu z faktycznie wykonujesz ( powinieneś robić ) test t. Może się więc zdarzyć, że poziomy, na których opierasz przedziały ufności dla słupków błędu (np. „95% odpowiada 2-krotności błędu standardowego”), będą inne dla testu t. Aby być uczciwym, aby porównać jabłka z jabłkami, należy użyć tego samego standardu i oprzeć poziomy ufności dla słupków błędów również na teście t. Załóżmy więc, że również dla testu t poziom graniczny odnoszący się do 95% jest równy lub mniejszy niż 2 (dotyczy to prób o wielkości powyżej 60).

Jeśli to $t \geq 2$ wtedy różnica jest znacząca (na poziomie 5%).

Błąd standardowy różnicy między dwiema zmiennymi nie jest sumą błędów standardowych każdej zmiennej. Suma ta przeszacowuje błąd różnicy i będzie zbyt konserwatywna (zbyt często twierdzą, że nie ma znaczącej różnicy).

Więc $t>z_{overlap}$i może prowadzić do znaczącej różnicy, podczas gdy słupki błędów nakładają się. Nie potrzebujesz nie nakładających się słupków błędów, aby uzyskać znaczącą różnicę. To nakładanie się jest bardziej rygorystycznym wymogiem i ma miejsce, gdy wartość p wynosi$\leq 0.05$ (i często będzie to niższa wartość p).

3 JimmyHe Nov 22 2020 at 02:07

Wartość p należy rozważać między CI a wartością parametru, a nie dwoma CI. Rzeczywiście, czerwony punkt znajduje się całkowicie poza niebieskim CI, a niebieski punkt całkowicie znajduje się poza czerwonym CI.

I prawdą jest, że zgodnie z hipotezą zerową takie zdarzenie miałoby miejsce w 5% przypadków:

  • W 2,5% przypadków uzyskasz punkt powyżej 95% CI
  • W 2,5% przypadków uzyskasz punkt poniżej 95% przedziału ufności

Jeśli tylko wąsy nakładają się na siebie lub dotykają, hipoteza zerowa da ten wynik znacznie rzadziej niż 5%. Dzieje się tak, ponieważ (aby użyć twojego przykładu) zarówno niebieska próbka musiałaby być niska, a jednocześnie czerwona próbka musiałaby być wysoka (dokładnie, jak wysoka zależy od wartości niebieskiej). Można to sobie wyobrazić jako trójwymiarowy wielowymiarowy wykres Gaussa, bez pochylenia, ponieważ te dwa błędy są od siebie niezależne:

Wzdłuż każdej osi prawdopodobieństwo wypadnięcia poza zaznaczony region (CI) wynosi 0,05. Ale całkowite prawdopodobieństwo niebieskiego i różowego obszaru, które daje P dwóch ledwie stykających się CI, jest mniejsze niż 0,05 w twoim przypadku.

Zmiana zmiennych z niebieskiej / czerwonej osi na zieloną pozwoli ci zintegrować ten wolumin przy użyciu jednowymiarowego zamiast wielowymiarowego Gaussa, a nowa wariancja jest połączoną wariancją z odpowiedzi @ Sextus-Empiricus.

2 Acccumulation Nov 22 2020 at 04:30

Nawet jeśli zignorujemy różnicę między ufnością a prawdopodobieństwem, nakładanie się składa się z punktów, dla których zarówno czerwone prawdopodobieństwo, jak i niebieskie prawdopodobieństwo są większe niż 0,05. Ale to nie znaczy, że prawdopodobieństwo obu jest większe niż 0,05. Na przykład, jeśli zarówno czerwone, jak i niebieskie prawdopodobieństwo wynoszą 0,10, to łączne prawdopodobieństwo (przy założeniu niezależności) wynosi 0,01. Jeśli całkujesz po całym nakładaniu się, będzie to mniej niż 0,01.

Kiedy patrzysz na nakładanie się, widzisz punkty, dla których różnica jest mniejsza niż dwa odchylenia standardowe. Pamiętaj jednak, że wariancja różnicy między dwiema zmiennymi jest sumą indywidualnych wariancji. Możesz więc ogólnie zastosować praktyczną zasadę, że jeśli chcesz porównać dwie różne populacje, sprawdzając nakładające się CI, musisz podzielić rozmiar każdego CI przez$\sqrt 2$: jeśli wariancje mają podobne rozmiary, wówczas wariancja różnicy będzie dwukrotnie większa niż wariancje indywidualne, a odchylenie standardowe będzie $\sqrt 2$ razy większy.