Интерпретация результатов доверительного интервала для наборов данных
Я создал набор данных автоматически и хотел уточнить мою интерпретацию количества шума, используя доверительный интервал.
Я выбрал случайную выборку и вручную аннотировал ее и обнаружил, что 98% этикеток были правильными. На основе этих значений я затем рассчитал доверительный интервал в 99%, который дал нижнюю границу 0,9614 и верхнюю границу 0,9949. Означает ли это, что шум в общем наборе данных находится между нижней и верхней границей и составляет от 0,005% до 0,038%?
Ответы
Нет, это не то, что это значит.
Во-первых, неясно, для какого параметра рассчитан доверительный интервал, который вы рассчитали.
В любом случае при интерпретации (частотных) доверительных интервалов требуется определенная осторожность.
В частотной статистике доверительный интервал является случайным, а параметр, для которого предназначен интервал, является фиксированным. В случае интервала 99% это означает, что если бы данные собирались снова, много раз, а доверительный интервал пересчитывался каждый раз, то 99 раз из 100 он будет содержать истинное значение параметра. Это единственная технически правильная интерпретация частотного доверительного интервала. Его часто неправильно интерпретируют как интервал, который содержит параметр с вероятностью 99%, и это, по-видимому, интерпретация, которую вы используете.