Statystyka - regresja liniowa
Po ustaleniu stopnia związku między zmiennymi za pomocą analizy współzależności naturalne jest zagłębienie się w naturę relacji. Analiza regresji pomaga w określeniu związku przyczynowo-skutkowego między zmiennymi. Możliwe jest przewidzenie wartości innych zmiennych (zwanych zmiennymi zależnymi), jeśli wartości zmiennych niezależnych można przewidzieć metodą graficzną lub algebraiczną.
Metoda graficzna
Polega na rysowaniu diagramu rozrzutu ze zmienną niezależną na osi X i zmienną zależną na osi Y. Następnie linia jest rysowana w taki sposób, że przechodzi przez większość rozkładu, a pozostałe punkty są rozmieszczone prawie równomiernie po obu stronach linii.
Linia regresji jest nazywana linią najlepszego dopasowania, która podsumowuje ogólny ruch danych. Pokazuje najlepsze wartości średnie jednej zmiennej odpowiadające wartościom średnim drugiej. Linia regresji opiera się na kryterium, że jest to prosta, która minimalizuje sumę kwadratów odchyleń między przewidywanymi i obserwowanymi wartościami zmiennej zależnej.
Metoda algebraiczna
Metoda algebraiczna rozwija dwa równania regresji X na Y i Y na X.
Równanie regresji Y na X
${Y = a+bX}$
Gdzie -
${Y}$ = Zmienna zależna
${X}$ = Zmienna niezależna
${a}$ = Stała pokazująca punkt przecięcia z osią Y.
${b}$ = Stała pokazująca nachylenie linii
Wartości a i b uzyskuje się za pomocą następujących równań normalnych:
${\sum Y = Na + b\sum X \\[7pt] \sum XY = a \sum X + b \sum X^2 }$
Gdzie -
${N}$ = Liczba obserwacji
Równanie regresji X na Y
${X = a+bY}$
Gdzie -
${X}$ = Zmienna zależna
${Y}$ = Zmienna niezależna
${a}$ = Stała pokazująca punkt przecięcia z osią Y.
${b}$ = Stała pokazująca nachylenie linii
Wartości a i b uzyskuje się za pomocą następujących równań normalnych:
${\sum X = Na + b\sum Y \\[7pt] \sum XY = a \sum Y + b \sum Y^2 }$
Gdzie -
${N}$ = Liczba obserwacji
Przykład
Problem Statement:
Pewien badacz odkrył, że istnieje współzależność między tendencjami do masy ciała ojca i syna. Obecnie jest zainteresowany opracowaniem równania regresji na dwóch zmiennych z podanych danych:
Waga ojca (w kg) | 69 | 63 | 66 | 64 | 67 | 64 | 70 | 66 | 68 | 67 | 65 | 71 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Waga syna (w kg) | 70 | 65 | 68 | 65 | 69 | 66 | 68 | 65 | 71 | 67 | 64 | 72 |
Rozwijać
Równanie regresji Y na X.
Równanie regresji na Y.
Solution:
${X}$ | ${X^2}$ | ${Y}$ | ${Y^2}$ | ${XY}$ |
---|---|---|---|---|
69 | 4761 | 70 | 4900 | 4830 |
63 | 3969 | 65 | 4225 | 4095 |
66 | 4356 | 68 | 4624 | 4488 |
64 | 4096 | 65 | 4225 | 4160 |
67 | 4489 | 69 | 4761 | 4623 |
64 | 4096 | 66 | 4356 | 4224 |
70 | 4900 | 68 | 4624 | 4760 |
66 | 4356 | 65 | 4225 | 4290 |
68 | 4624 | 71 | 5041 | 4828 |
67 | 4489 | 67 | 4489 | 4489 |
65 | 4225 | 64 | 4096 | 4160 |
71 | 5041 | 72 | 5184 | 5112 |
${\sum X = 800}$ | ${\sum X^2 = 53,402}$ | ${\sum Y = 810}$ | ${\sum Y^2 = 54,750}$ | ${\sum XY = 54,059}$ |
Równanie regresji Y na X
Y = a + bX
Gdzie a i b uzyskuje się z równań normalnych
${\Rightarrow}$ 810 = 12a + 800b ... (i)
${\Rightarrow}$ 54049 = 800a + 53402 b ... (ii)
Mnożąc równanie (i) przez 800 i równanie (ii) przez 12, otrzymujemy:
96000 a + 640000 b = 648000 ... (iii)
96000 a + 640824 b = 648588 ... (iv)
Odejmowanie równania (iv) od (iii)
-824 b = -588
${\Rightarrow}$ b = -,0713
Podstawiając wartość b w równaniu. (ja)
810 = 12a + 800 (-0,713)
810 = 12a + 570,4
12a = 239,6
${\Rightarrow}$ a = 19,96
Stąd równanie Y na X można zapisać jako
Równanie regresji X na Y
X = a + bY
Gdzie a i b uzyskuje się z równań normalnych
${\Rightarrow}$ 800 = 12a + 810a + 810b ... (V)
${\Rightarrow}$ 54 049 = 810a + 54, 750 ... (vi)
Mnożąc eq (v) przez 810 i eq (vi) przez 12, otrzymujemy
9720 a + 656100 b = 648000 ... (vii)
9720 a + 65700 b = 648588 ... (viii)
Odejmowanie równania viii od równania vii
900b = -588
${\Rightarrow}$ b = 0,653
Podstawiając wartość b w równaniu (v)
800 = 12a + 810 (0,653)
12a = 271,07
${\Rightarrow}$ a = 22,58
Stąd równanie regresji X i Y jest