95%は何らかの形で信頼区間に固有ですか?
「95%の信頼区間は、真のパラメーターがこの範囲に入る可能性が95%あることを意味する」という誤解を認識しています。正しい解釈は、たとえば100の信頼区間をランダムサンプリングの場合、95の信頼区間に真のパラメーターを含める必要があります。
に https://www.econometrics-with-r.org/5-2-cifrc.html、次のように表示されます。
この言い回しは間違っていますか?真の値は、その特定の信頼区間にある可能性が95%あると言っているようです。
私の2番目の質問は、これらの95の信頼区間の1つがあると言うことです。95%を使用して1.96 Zスコアを取得する以外に、この信頼区間で95%はどのように表されますか?
回答
この言い回しは間違っていますか?真の値は、その特定の信頼区間にある可能性が95%あると言っているようです。
頻度論的統計では、推定しているパラメータ(あなたの場合)を覚えておく必要があります $\beta_i$、係数の真値)がされていないが、固定実数として、確率変数とみなします。つまり、「」のようなことを言うのは正しくありません。$\beta_i$ 間隔内にあります $[a,b]$ と $95\%$確率」、なぜなら$\beta_i$は確率変数ではないため、確率分布はありません。の確率$\beta_i$ 間隔内にいるのはどちらかです $100\%$ (固定値の場合 $\beta_i\in[a,b]$)または $0\%$ (固定値の場合 $\beta_i\notin[a,b]$)
そのため、「95%の信頼区間は、真のパラメーターがこの範囲に入る可能性が95%あることを意味します」は誤解です。
一方、信頼区間自体の限界は、サンプルデータから計算されるため、確率変数です。つまり、「考えられるすべてのサンプルの95%で、$\beta_i$ 95%の信頼区間にあります」という意味ではありません。 $\beta_i$ 持っている $95\%$特定の区間内にある可能性は、サンプルごとに異なる信頼区間が$95\%$ 転倒する確率 $\beta_i$。
信頼区間には次のものが含まれることに注意してください $\beta_i$データがサンプリングされる前に95%の確率で。サンプリングされた後、信頼区間のエッジは2つの固定数になり、確率変数ではなくなり、最初の段落と同じ理論的根拠が適用されます。次の画像は、このアイデアを視覚化したものだと思います。
したがって、そこで使用されている表現は実際には正しいものです。
95%を使用して1.96 Zスコアを取得する以外に、この信頼区間で95%はどのように表されますか?
1.96 Zスコアは、95%が表示される唯一の場所です。たとえば85%に対応するZスコアに変更すると、85%の信頼区間の式が得られます。
おそらく次のように言い換えると:
「まったく同じ条件下で無期限にサンプリングを繰り返すと想像してください。各描画について、95%の信頼区間を計算するためにパラメータ推定値とその標準誤差を計算します[図の式]。次に、この95%の信頼区間がキャプチャします。すべての仮定が満たされ、ヌル仮説が真である場合、95%の確率で真の母集団パラメーター。」
それはもっと理にかなっていますか?
2番目の質問については、以下の標準正規分布を検討してください。曲線の下の総面積は1に等しくなります。有意水準を5%と見なし、これを各テール(赤い領域)に分割すると、中央に95%が残ります。帰無仮説が真である場合、これは帰無仮説を棄却しない領域です。その領域に含まれるZスコアは帰無仮説の下でもっともらしいからです。Zスコアが赤い領域に該当する場合にのみ、サンプルが帰無仮説に対する有意な証拠を提供するため、帰無仮説を棄却します。つまり、発見した可能性があります-hooray:D
ここで、+ /-1.96の臨界Zスコア(95%の信頼度の場合)にサンプルの標準誤差を掛けることにより、この95%の間隔を元の測定スケールに変換し直します。したがって、各信頼区間は、画像の最後の文で提案されているように、測定尺度での仮説検定に対応します。
95% conf.int.
つまり、実際の経験値がこの間隔から外れる可能性は5%だけです。言い換えれば、その範囲をグラウンドトゥルースとして扱う場合(およびいつ)、誤検知の可能性は5%です。