データセットの信頼区間の結果の解釈
Aug 19 2020
データセットを自動的に作成し、信頼区間を使用してノイズ量の解釈を明確にしたいと思いました。
ランダムなサンプルを選択し、手動でサンプルに注釈を付けたところ、ラベルの98%が正しいことがわかりました。次に、これらの値に基づいて、99%の信頼区間を計算しました。これにより、下限は0.9614、上限は0.9949になりました。これは、データセット全体のノイズが下限と上限の間にあり、0.005%から0.038%になることを意味しますか?
回答
1 RobertLong Aug 29 2020 at 01:51
いいえ、それはそれが意味することではありません。
一つには、計算した信頼区間がどのパラメーター用であるかが明確ではありません。
いずれにせよ、(頻度主義的)信頼区間の解釈には注意が必要です。
頻度論的統計では、信頼区間はランダムであり、区間の対象となるパラメーターは固定されています。99%間隔の場合、これは、データが何度も再度収集され、信頼区間が毎回再計算された場合、100回のうち99回、パラメーターの真の値が含まれることを意味します。これは、頻度主義的信頼区間の唯一の技術的に正しい解釈です。これは、99%の確率でパラメーターを含む間隔であると誤って解釈されることが多く、使用している解釈のように見えます。