Recherche de valeurs aberrantes dans un ensemble de données
Les valeurs aberrantes sont des points de données qui ne correspondent pas au modèle du reste des nombres. Ce sont les valeurs extrêmement élevées ou extrêmement faibles de l'ensemble de données.
Un moyen simple de trouver une valeur aberrante consiste à examiner les nombres de l'ensemble de données. Nous verrons que la plupart des nombres sont regroupés autour d'une plage et certains nombres sont bien trop bas ou trop élevés par rapport au reste des nombres. Ces nombres sont connus comme des valeurs aberrantes.
Other definition of an outlier
Un point de données distinct du reste des données. Une définition de valeur aberrante est tout point de données situé à plus de 1,5 intervalle interquartile (IQR) en dessous du premier quartile ou au-dessus du troisième quartile. L'intervalle interquartile (IQR) est la différence entre le troisième quartile et le premier quartile de l'ensemble de données.
Trouvez la ou les valeurs aberrantes pour les données 0, 2, 5, 6, 9, 12, 35.
Solution
Pour un ensemble de données donné, nous avons le résumé à cinq chiffres suivant.
minimum = 0
premier quartile = 2
médiane = 6
troisième quartile = 12
maximum = 35
IQR = 12 - 2 = 10, donc 1,5 · IQR = 15.
Pour déterminer s'il existe des valeurs aberrantes, nous devons considérer les nombres qui sont 1,5 · IQR ou 15 au-delà des quartiles.
premier quartile - 1,5 · IQR = 2 - 15 = –13
troisième quartile + 1,5 · IQR = 12 + 15 = 27
Puisque 35 est en dehors de l'intervalle de –13 à 27, 35 est la valeur aberrante de cet ensemble de données.
Trouvez les valeurs aberrantes dans l'ensemble de données ci-dessous.
28, 26, 29, 30, 81, 32, 37
Solution
Step 1:
Les données qui sont différentes des autres nombres de l'ensemble donné sont 81
Step 2:
La valeur aberrante pour cet ensemble de données est donc 81
Trouvez les valeurs aberrantes dans l'ensemble de données ci-dessous.
16, 14, 3, 12, 15, 17, 22, 15, 52
Solution
Step 1:
Les données qui sont différentes des autres nombres de l'ensemble donné sont 52
Step 2:
La valeur aberrante pour cet ensemble de données est donc 52