Поиск выбросов в наборе данных
Выбросы - это точки данных, которые не соответствуют шаблону остальных чисел. Это очень высокие или очень низкие значения в наборе данных.
Простой способ найти выброс - изучить числа в наборе данных. Мы увидим, что большинство чисел сгруппированы вокруг диапазона, а некоторые числа слишком малы или слишком велики по сравнению с остальными числами. Такие числа известны как выбросы.
Other definition of an outlier
Точка данных, которая четко отделена от остальных данных. Одно из определений выброса - это любая точка данных, превышающая 1,5 межквартильного диапазона (IQR) ниже первого квартиля или выше третьего квартиля. Межквартильный диапазон (IQR) - это разница между третьим квартилем и первым квартилем набора данных.
Найдите выброс (ы) для данных 0, 2, 5, 6, 9, 12, 35.
Решение
Для данного набора данных у нас есть следующая пятизначная сводка.
минимум = 0
первый квартиль = 2
медиана = 6
третий квартиль = 12
максимум = 35
IQR = 12 - 2 = 10, поэтому 1,5 · IQR = 15.
Чтобы определить, есть ли выбросы, мы должны рассмотреть числа, которые на 1,5 · IQR или 15 за квартилями.
первый квартиль - 1,5 · IQR = 2 - 15 = –13
третий квартиль + 1,5 · IQR = 12 + 15 = 27
Поскольку 35 находится вне интервала от –13 до 27, 35 является выбросом в этом наборе данных.
Найдите выброс (ы) в приведенном ниже наборе данных.
28, 26, 29, 30, 81, 32, 37
Решение
Step 1:
Данные, которые отличаются от других чисел в данном наборе, - 81
Step 2:
Таким образом, выброс для этого набора данных составляет 81
Найдите выброс (ы) в приведенном ниже наборе данных.
16, 14, 3, 12, 15, 17, 22, 15, 52
Решение
Step 1:
Данные, отличные от других чисел в данном наборе, - 52
Step 2:
Таким образом, выброс для этого набора данных составляет 52