Interpretazione dei risultati dell'intervallo di confidenza per i set di dati

Aug 19 2020

Ho creato automaticamente un set di dati e volevo chiarire la mia interpretazione della quantità di rumore utilizzando l'intervallo di confidenza.

Ho selezionato un campione casuale e annotato manualmente il campione e ho scoperto che il 98% delle etichette era corretto. Sulla base di questi valori ho quindi calcolato l'intervallo di confidenza al 99% che ha dato un limite inferiore di 0,9614 e limite superiore di 0,9949. Ciò significa che il rumore nel set di dati complessivo è compreso tra il limite inferiore e superiore e quindi compreso tra 0,005% e 0,038%?

Risposte

1 RobertLong Aug 29 2020 at 01:51

No, non è questo che significa.

Per prima cosa non è chiaro per quale parametro sia l'intervallo di confidenza che hai calcolato.

In ogni caso, è necessaria una certa attenzione nell'interpretazione degli intervalli di confidenza (frequentisti).

Nelle statistiche frequentiste, un intervallo di confidenza è casuale e il parametro a cui si riferisce l'intervallo è fisso. Nel caso di un intervallo del 99% ciò significa che se i dati fossero raccolti di nuovo, molte volte, e l'intervallo di confidenza ricalcolato ogni volta, allora 99 volte su 100 conterrebbe il vero valore del parametro. Questa è l'unica interpretazione tecnicamente corretta dell'intervallo di confidenza frequentista. Spesso viene interpretato, erroneamente, come un intervallo che contiene il parametro con una probabilità del 99% e questa sembra essere l'interpretazione che stai utilizzando.