Znajdowanie wartości odstających w zbiorze danych
Wartości odstające to punkty danych, które nie pasują do wzorca pozostałych liczb. Są to wyjątkowo wysokie lub skrajnie niskie wartości w zestawie danych.
Prostym sposobem na znalezienie wartości odstającej jest zbadanie liczb w zbiorze danych. Zobaczymy, że większość liczb skupia się wokół zakresu, a niektóre liczby są o wiele za niskie lub za wysokie w porównaniu z resztą liczb. Takie liczby nazywane są wartościami odstającymi.
Other definition of an outlier
Punkt danych, który jest wyraźnie oddzielony od reszty danych. Jedną z definicji wartości odstających jest dowolny punkt danych znajdujący się więcej niż 1,5 przedziałów międzykwartylowych (IQR) poniżej pierwszego kwartylu lub powyżej trzeciego kwartylu. Przedział międzykwartylowy (IQR) to różnica między trzecim a pierwszym kwartylem zbioru danych.
Znajdź wartości odstające dla danych 0, 2, 5, 6, 9, 12, 35.
Rozwiązanie
Dla danego zbioru danych mamy następujące podsumowanie pięciocyfrowe.
minimum = 0
pierwszy kwartyl = 2
mediana = 6
trzeci kwartyl = 12
maksymalnie = 35
IQR = 12 - 2 = 10, więc 1,5 · IQR = 15.
Aby określić, czy istnieją wartości odstające, musimy wziąć pod uwagę liczby o wartości 1,5 · IQR lub 15 poza kwartyle.
pierwszy kwartyl - 1,5 · IQR = 2 - 15 = –13
trzeci kwartyl + 1,5 · IQR = 12 + 15 = 27
Ponieważ 35 jest poza przedziałem od –13 do 27, 35 jest wartością odstającą w tym zbiorze danych.
Znajdź wartości odstające w podanym zestawie danych poniżej.
28, 26, 29, 30, 81, 32, 37
Rozwiązanie
Step 1:
Dane różniące się od innych liczb w podanym zestawie to 81
Step 2:
Zatem wartość odstająca dla tego zestawu danych wynosi 81
Znajdź wartości odstające w podanym zestawie danych poniżej.
16, 14, 3, 12, 15, 17, 22, 15, 52
Rozwiązanie
Step 1:
Dane różniące się od innych liczb w podanym zestawie to 52
Step 2:
Zatem wartość odstająca dla tego zestawu danych wynosi 52