Podstawy regresji liniowej

Nov 27 2022
Definicja Regresja liniowa to metodologia, która pozwala nam powiązać dwa zjawiska. Takie podejście pozwala zidentyfikować regułę opartą na rzeczywistych danych w celu przewidywania nowych wartości.

Definicja

Regresja liniowa to metodologia, która pozwala nam powiązać dwa zjawiska. Takie podejście pozwala zidentyfikować regułę opartą na rzeczywistych danych w celu przewidywania nowych wartości. Istnieją algorytmy i pakiety, które w prosty sposób wykonują regresję liniową, ale nie do końca rozumiemy, co dzieje się za kurtyną. Celem tej prezentacji jest przedstawienie matematycznych podstaw regresji liniowej.

Metoda

Metodę można podzielić na trzy etapy:

  • Wstępny widok danych;
  • Określenie parametrów;
  • Wygeneruj znalezione parametry krzywej.

Celem tego kroku jest sprawdzenie, czy dane zachowują się w przybliżeniu liniowo. W przeciwnym razie nie należy stosować metody regresji liniowej. Rozważmy następujący zestaw dat.

Możemy wykreślić te dane i sprawdzić ich zachowanie. Na poniższym obrazku widać, że wykres przedstawia zachowanie liniowe, dlatego zastosowanie techniki regresji liniowej jest uzasadnione.

W tym repozytorium udostępniłem kod Pythona, który generuje dopasowanie krzywej za pomocą regresji liniowej, jak powiedziałem, podstawy matematyczne są tłumione i nie mamy pojęcia, co dzieje się wewnętrznie. Kod generuje obraz poniżej.

Określenie parametrów

Aby określić parametry aib krzywej, użyjemy metody najmniejszych kwadratów. W metodzie tej wartości aib uzyskuje się w taki sposób, aby suma kwadratów różnic między obserwowanymi wartościami Y a otrzymanymi z krzywej skorygowanej dla tych samych wartości X była minimalna. Matematycznie ten pomysł można przedstawić jako:

Aby znaleźć konfigurację minimalną, możemy wyprowadzić powyższe wyrażenie w odniesieniu do parametrów aib i ustawić je na zero.

Wiedząc, że n jest liczbą obserwacji, możemy zapisać równania (I) i (II) jako równania (III) i (IV) w następujący sposób.

Aby wyznaczyć parametr b, pierwsze równanie dzielimy przez n i wyodrębniamy a w celu podstawienia go w drugim równaniu:

Podstawiając w drugim równaniu:

Współczynnik liniowy linii można łatwo określić za pomocą równania już zdefiniowanego powyżej:

Możemy obliczyć te parametry bezpośrednio z danych, bez użycia pakietu scipy za pomocą poniższego kodu:

I wreszcie, po uzyskaniu współczynnika liniowego a i współczynnika kątowego b, możemy wykreślić krzywą dopasowania.