Czy 95% jest w jakikolwiek sposób związane z przedziałem ufności?
Zdaję sobie sprawę z błędnego przekonania, że „95-procentowy przedział ufności oznacza, że istnieje 95-procentowe prawdopodobieństwo, że prawdziwy parametr mieści się w tym zakresie” i że prawidłowa interpretacja jest taka, że jeśli zbudujesz, powiedzmy, 100 z tych przedziałów ufności z losowe pobieranie próbek, wówczas 95 przedziałów ufności powinno zawierać prawdziwy parametr.
W https://www.econometrics-with-r.org/5-2-cifrc.html, Widzę co następuje:

Czy to sformułowanie jest nieprawidłowe? Wydaje się, że mówi się, że prawdziwa wartość ma 95% szans na znalezienie się w tym określonym przedziale ufności.
Moje drugie pytanie brzmi: powiedzmy, że masz jeden z tych 95 przedziałów ufności. Oprócz wykorzystania 95% do uzyskania 1,96 Z-score, w jaki inny sposób 95% przejawia się w tym przedziale ufności?
Odpowiedzi
Czy to sformułowanie jest nieprawidłowe? Wydaje się, że mówi się, że prawdziwa wartość ma 95% szans na znalezienie się w tym określonym przedziale ufności.
Trzeba mieć na uwadze, że w częstych statystykach to parametr, który szacujesz (w Twoim przypadku $\beta_i$, prawdziwa wartość współczynnika) nie jest traktowana jako zmienna losowa, ale jako stała liczba rzeczywista. Oznacza to, że mówienie czegoś takiego jak „$\beta_i$ jest w przedziale $[a,b]$ z $95\%$prawdopodobieństwo ” , ponieważ$\beta_i$nie jest zmienną losową i dlatego nie ma rozkładu prawdopodobieństwa. Prawdopodobieństwo$\beta_i$ bycie w interwale jest albo $100\%$ (jeśli stała wartość $\beta_i\in[a,b]$) lub $0\%$ (jeśli stała wartość $\beta_i\notin[a,b]$)
Dlatego „95% przedział ufności oznacza, że istnieje 95% prawdopodobieństwo, że prawdziwy parametr mieści się w tym zakresie” jest błędnym przekonaniem.
Z drugiej strony same granice przedziału ufności są zmiennymi losowymi, ponieważ są obliczane na podstawie danych z próby. Oznacza to, że prawidłowe jest stwierdzenie „w 95% wszystkich możliwych próbek,$\beta_i$ mieści się w 95% przedziale ufności. ”To nie znaczy, że $\beta_i$ ma $95\%$szansa znalezienia się w określonym przedziale, oznacza to, że ma przedział ufności , który jest inny dla każdej próbki$95\%$ prawdopodobieństwo przewrócenia się $\beta_i$.
Zauważ, że przedział ufności będzie zawierał $\beta_i$z prawdopodobieństwem 95% przed próbkowaniem danych. Po próbkowaniu krawędzie przedziałów ufności będą tylko dwiema stałymi liczbami, a nie zmiennymi losowymi, i ma zastosowanie to samo uzasadnienie z pierwszego akapitu. Myślę, że poniższy obraz stanowi dobrą wizualizację tego pomysłu:

Dlatego użyte tam sformułowanie jest faktycznie poprawne.
Oprócz wykorzystania 95% do uzyskania 1,96 Z-score, w jaki inny sposób 95% przejawia się w tym przedziale ufności?
1,96 Z-score to jedyne miejsce, w którym pojawia się 95%. Jeśli zmienisz to dla Z-score odpowiadającego, powiedzmy, 85%, uzyskasz formułę 85% przedział ufności.
Być może, jeśli przeformułujesz to:
„ Wyobraź sobie, że powtarzasz próbkowanie w dokładnie tych samych warunkach w nieskończoność. Dla każdego losowania obliczasz oszacowanie parametru i jego błąd standardowy, aby obliczyć 95% przedział ufności [wzór na twojej figurze]. Następnie ten 95-procentowy przedział ufności uchwyci prawdziwy parametr populacji w 95% przypadków, jeśli wszystkie założenia są spełnione, a hipoteza zerowa jest prawdziwa. "
Czy to miałoby większy sens?
Jeśli chodzi o drugie pytanie, rozważ poniższy standardowy rozkład normalny. Całkowity obszar pod krzywą jest równy 1. Jeśli weźmiesz pod uwagę poziom istotności na 5% i podzielisz go między każdy ogon (czerwone obszary), to pozostaje 95% na środku. Jeśli hipoteza zerowa jest prawdziwa, to jest to obszar, w którym nie odrzuciłbyś hipotezy zerowej, ponieważ każdy wynik Z, który mieści się w tym obszarze, jest prawdopodobny w ramach hipotezy zerowej. Tylko wtedy, gdy twój Z-score wpadnie w czerwone obszary, odrzucasz hipotezę zerową, ponieważ twoja próbka dostarcza znaczących dowodów przeciwko hipotezie zerowej, lub innymi słowy, prawdopodobnie dokonałeś odkrycia - hura: D
Teraz mnożąc krytyczny Z-score +/- 1,96 (w przypadku 95% ufności) przez błąd standardowy próbki, przekładasz ten 95% przedział z powrotem na pierwotną skalę pomiarową. Zatem każdy przedział ufności odpowiada testowi hipotezy na twojej skali pomiaru, jak zasugerowano w ostatnim zdaniu twojego obrazu.

95% conf.int.
oznacza, że istnieje tylko 5% szans, że rzeczywista wartość empiryczna wypadnie poza ten przedział. Innymi słowy, 5% szans na fałszywie dodatni wynik, jeśli (i kiedy) traktujesz ten zakres jako prawdę podstawową.