Trovare valori anomali in un set di dati
I valori anomali sono punti dati che non si adattano allo schema del resto dei numeri. Sono i valori estremamente alti o estremamente bassi nel set di dati.
Un modo semplice per trovare un valore anomalo è esaminare i numeri nel set di dati. Vedremo che la maggior parte dei numeri sono raggruppati attorno a un intervallo e alcuni numeri sono troppo bassi o troppo alti rispetto al resto dei numeri. Tali numeri sono noti come valori anomali.
Other definition of an outlier
Un punto dati che è nettamente separato dal resto dei dati. Una definizione di valore anomalo è qualsiasi punto dati superiore a 1,5 intervalli interquartili (IQR) al di sotto del primo quartile o al di sopra del terzo quartile. L'intervallo interquartile (IQR) è la differenza tra il terzo quartile e il primo quartile del set di dati.
Trova i valori anomali per i dati 0, 2, 5, 6, 9, 12, 35.
Soluzione
Per un dato set di dati, abbiamo il seguente riepilogo a cinque numeri.
minimo = 0
primo quartile = 2
mediana = 6
terzo quartile = 12
massimo = 35
IQR = 12 - 2 = 10, quindi 1,5 · IQR = 15.
Per determinare se ci sono valori anomali dobbiamo considerare i numeri che sono 1.5 · IQR o 15 oltre i quartili.
primo quartile - 1.5 · IQR = 2 - 15 = –13
terzo quartile + 1,5 · IQR = 12 + 15 = 27
Poiché 35 è al di fuori dell'intervallo da –13 a 27, 35 è il valore anomalo in questo set di dati.
Trova i valori anomali nel set di dati fornito di seguito.
28, 26, 29, 30, 81, 32, 37
Soluzione
Step 1:
I dati che sono diversi dagli altri numeri nel set dato sono 81
Step 2:
Quindi il valore anomalo per questo set di dati è 81
Trova i valori anomali nel set di dati fornito di seguito.
16, 14, 3, 12, 15, 17, 22, 15, 52
Soluzione
Step 1:
Il dato che è diverso dagli altri numeri nel set dato è 52
Step 2:
Quindi il valore anomalo per questo set di dati è 52