Como interpretar os resultados do intervalo de confiança para conjuntos de dados
Criei um conjunto de dados automaticamente e queria esclarecer minha interpretação da quantidade de ruído usando o intervalo de confiança.
Selecionei uma amostra aleatória e anotei manualmente a amostra e descobri que 98% dos rótulos estavam corretos. Com base nesses valores, calculei o intervalo de confiança em 99%, que deu um limite inferior de 0,9614 e um limite superior de 0,9949. Isso significa que o ruído no conjunto de dados geral está entre o limite inferior e superior e é de 0,005% a 0,038%?
Respostas
Não, não é isso que significa.
Por um lado, não está claro para qual parâmetro é o intervalo de confiança que você calculou.
De qualquer forma, alguns cuidados são necessários na interpretação dos intervalos de confiança (frequentistas).
Nas estatísticas frequentistas, um intervalo de confiança é aleatório e o parâmetro para o qual o intervalo é fixo. No caso de um intervalo de 99%, isso significa que, se os dados fossem coletados novamente, muitas vezes, e o intervalo de confiança fosse recalculado a cada vez, então 99 vezes em 100 ele conteria o valor verdadeiro do parâmetro. Esta é a única interpretação tecnicamente correta do intervalo de confiança frequentista. Muitas vezes é interpretado, incorretamente, como sendo um intervalo que contém o parâmetro com 99% de probabilidade, e essa parece ser a interpretação que você está usando.