Znajdowanie wartości odstających w zbiorze danych

Wartości odstające to punkty danych, które nie pasują do wzorca pozostałych liczb. Są to wyjątkowo wysokie lub skrajnie niskie wartości w zestawie danych.

Prostym sposobem na znalezienie wartości odstającej jest zbadanie liczb w zbiorze danych. Zobaczymy, że większość liczb skupia się wokół zakresu, a niektóre liczby są o wiele za niskie lub za wysokie w porównaniu z resztą liczb. Takie liczby nazywane są wartościami odstającymi.

Other definition of an outlier

Punkt danych, który jest wyraźnie oddzielony od reszty danych. Jedną z definicji wartości odstających jest dowolny punkt danych znajdujący się więcej niż 1,5 przedziałów międzykwartylowych (IQR) poniżej pierwszego kwartylu lub powyżej trzeciego kwartylu. Przedział międzykwartylowy (IQR) to różnica między trzecim a pierwszym kwartylem zbioru danych.

Znajdź wartości odstające dla danych 0, 2, 5, 6, 9, 12, 35.

Rozwiązanie

Dla danego zbioru danych mamy następujące podsumowanie pięciocyfrowe.

minimum = 0

pierwszy kwartyl = 2

mediana = 6

trzeci kwartyl = 12

maksymalnie = 35

IQR = 12 - 2 = 10, więc 1,5 · IQR = 15.

Aby określić, czy istnieją wartości odstające, musimy wziąć pod uwagę liczby o wartości 1,5 · IQR lub 15 poza kwartyle.

pierwszy kwartyl - 1,5 · IQR = 2 - 15 = –13

trzeci kwartyl + 1,5 · IQR = 12 + 15 = 27

Ponieważ 35 jest poza przedziałem od –13 do 27, 35 jest wartością odstającą w tym zbiorze danych.

Znajdź wartości odstające w podanym zestawie danych poniżej.

28, 26, 29, 30, 81, 32, 37

Rozwiązanie

Step 1:

Dane różniące się od innych liczb w podanym zestawie to 81

Step 2:

Zatem wartość odstająca dla tego zestawu danych wynosi 81

Znajdź wartości odstające w podanym zestawie danych poniżej.

16, 14, 3, 12, 15, 17, 22, 15, 52

Rozwiązanie

Step 1:

Dane różniące się od innych liczb w podanym zestawie to 52

Step 2:

Zatem wartość odstająca dla tego zestawu danych wynosi 52