Morski - relacje liniowe

W większości przypadków używamy zbiorów danych zawierających wiele zmiennych ilościowych, a celem analizy jest często powiązanie tych zmiennych ze sobą. Można to zrobić za pomocą linii regresji.

Budując modele regresji, często szukamy multicollinearity,gdzie musieliśmy zobaczyć korelację między wszystkimi kombinacjami zmiennych ciągłych i podejmiemy niezbędne działania, aby usunąć współliniowość, jeśli istnieje. W takich przypadkach pomocne są poniższe techniki.

Funkcje do rysowania modeli regresji liniowej

W Seaborn są dwie główne funkcje wizualizacji liniowej zależności określonej za pomocą regresji. Te funkcje sąregplot() i lmplot().

regplot vs lmplot

regplot lmplot
akceptuje zmienne x i y w różnych formatach, w tym proste tablice numpy, obiekty serii pand lub jako odniesienia do zmiennych w pandach DataFrame ma dane jako wymagany parametr, a zmienne x i y muszą być określone jako ciągi. Ten format danych nazywa się danymi „długimi”

Narysujmy teraz wykresy.

Przykład

Kreślenie regplot, a następnie lmplot z tymi samymi danymi w tym przykładzie

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.regplot(x = "total_bill", y = "tip", data = df)
sb.lmplot(x = "total_bill", y = "tip", data = df)
plt.show()

Wynik

Widać różnicę w wielkości między dwoma działkami.

Możemy również dopasować regresję liniową, gdy jedna ze zmiennych przyjmuje wartości dyskretne

Przykład

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.lmplot(x = "size", y = "tip", data = df)
plt.show()

Wynik

Dopasowywanie różnych rodzajów modeli

Zastosowany powyżej prosty model regresji liniowej jest bardzo łatwy do dopasowania, ale w większości przypadków dane są nieliniowe, a powyższe metody nie mogą uogólniać linii regresji.

Użyjmy zbioru danych Anscombe z wykresami regresji -

Przykład

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('anscombe')
sb.lmplot(x="x", y="y", data=df.query("dataset == 'I'"))
plt.show()

W tym przypadku dane są dobrze dopasowane do modelu regresji liniowej z mniejszą wariancją.

Zobaczmy inny przykład, w którym dane mają duże odchylenie, co pokazuje, że linia najlepszego dopasowania nie jest dobra.

Przykład

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('anscombe')
sb.lmplot(x = "x", y = "y", data = df.query("dataset == 'II'"))
plt.show()

Wynik

Wykres pokazuje duże odchylenie punktów danych od linii regresji. Taki nieliniowy, wyższego rzędu można wizualizować za pomocąlmplot() i regplot()Mogą one pasować do modelu regresji wielomianowej do badania prostych rodzajów nieliniowych trendów w zbiorze danych -

Przykład

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('anscombe')
sb.lmplot(x = "x", y = "y", data = df.query("dataset == 'II'"),order = 2)
plt.show()

Wynik