Statystyka - analiza pozostałości

Analiza reszt służy do oceny adekwatności modelu regresji liniowej poprzez zdefiniowanie reszt i badanie wykresów resztowych.

Pozostały

Wartość rezydualna ($ e $) odnosi się do różnicy między wartością obserwowaną ($ y $) a wartością przewidywaną ($ \ hat y $). Każdy punkt danych ma jedną resztę.

$ {rezydualna = zaobserwowana wartość - przewidywana wartość \\ [7pt] e = y - \ hat y} $

Pozostała działka

Wykres reszt jest wykresem, na którym reszty znajdują się na osi pionowej, a zmienna niezależna na osi poziomej. Jeśli kropki są losowo rozrzucone wokół osi poziomej, wówczas model regresji liniowej jest odpowiedni dla danych; w przeciwnym razie wybierz model nieliniowy.

Rodzaje działek resztkowych

Poniższy przykład przedstawia kilka wzorców na wykresach pozostałości.

W pierwszym przypadku kropki są losowo rozproszone. Dlatego preferowany jest model regresji liniowej. W drugim i trzecim przypadku kropki są rozproszone w sposób nielosowy i sugerują, że preferowana jest metoda regresji nieliniowej.

Przykład

Problem Statement:

Sprawdź, gdzie model regresji liniowej jest odpowiedni dla poniższych danych.

$ x $ 60 70 80 85 95
$ y $ (wartość rzeczywista) 70 65 70 95 85
$ \ hat y $ (wartość przewidywana) 65,411 71,849 78,288 81,507 87,945

Solution:

Step 1: Oblicz reszty dla każdego punktu danych.

$ x $ 60 70 80 85 95
$ y $ (wartość rzeczywista) 70 65 70 95 85
$ \ hat y $ (wartość przewidywana) 65,411 71,849 78,288 81,507 87,945
$ e $ (reszta) 4.589 -6,849 -8,288 13,493 -2,945

Step 2: - Narysuj wykres resztkowy.

Step 3: - Sprawdź losowość reszt.

W tym przypadku wykres rezydualny przedstawia losowy wzór - pierwsza reszta jest dodatnia, dwie kolejne są ujemne, czwarta jest dodatnia, a ostatnia jest ujemna. Ponieważ wzór jest dość losowy, co wskazuje, że model regresji liniowej jest odpowiedni dla powyższych danych.