R - Regresi Poisson

Regresi Poisson melibatkan model regresi dimana variabel respon berupa bilangan dan bukan bilangan pecahan. Misalnya, jumlah kelahiran atau jumlah kemenangan dalam seri pertandingan sepak bola. Juga nilai variabel respon mengikuti distribusi Poisson.

Persamaan matematika umum untuk regresi Poisson adalah -

log(y) = a + b1x1 + b2x2 + bnxn.....

Berikut ini adalah deskripsi parameter yang digunakan -

  • y adalah variabel respon.

  • a dan b adalah koefisien numerik.

  • x adalah variabel prediktor.

Fungsi yang digunakan untuk membuat model regresi Poisson adalah glm() fungsi.

Sintaksis

Sintaks dasar untuk glm() fungsi dalam regresi Poisson adalah -

glm(formula,data,family)

Berikut adalah deskripsi parameter yang digunakan dalam fungsi di atas -

  • formula adalah simbol yang menyajikan hubungan antar variabel.

  • data adalah kumpulan data yang memberikan nilai variabel ini.

  • familyadalah objek R untuk menentukan detail model. Nilainya adalah 'Poisson' untuk Regresi Logistik.

Contoh

Kami memiliki kumpulan data built-in "warpbreaks" yang menjelaskan pengaruh jenis wol (A atau B) dan tegangan (rendah, sedang atau tinggi) pada jumlah kerusakan warp per alat tenun. Mari kita pertimbangkan "jeda" sebagai variabel respons yang merupakan hitungan jumlah jeda. "Jenis" dan "tegangan" wol diambil sebagai variabel prediktor.

Input Data

input <- warpbreaks
print(head(input))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

breaks   wool  tension
1     26       A     L
2     30       A     L
3     54       A     L
4     25       A     L
5     70       A     L
6     52       A     L

Buat Model Regresi

output <-glm(formula = breaks ~ wool+tension, data = warpbreaks,
   family = poisson)
print(summary(output))

Ketika kita menjalankan kode di atas, hasilnya adalah sebagai berikut -

Call:
glm(formula = breaks ~ wool + tension, family = poisson, data = warpbreaks)

Deviance Residuals: 
    Min       1Q     Median       3Q      Max  
  -3.6871  -1.6503  -0.4269     1.1902   4.2616  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.69196    0.04541  81.302  < 2e-16 ***
woolB       -0.20599    0.05157  -3.994 6.49e-05 ***
tensionM    -0.32132    0.06027  -5.332 9.73e-08 ***
tensionH    -0.51849    0.06396  -8.107 5.21e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 297.37  on 53  degrees of freedom
Residual deviance: 210.39  on 50  degrees of freedom
AIC: 493.06

Number of Fisher Scoring iterations: 4

Dalam ringkasan kami mencari nilai-p di kolom terakhir menjadi kurang dari 0,05 untuk mempertimbangkan dampak variabel prediktor pada variabel respons. Seperti yang terlihat pada wol tipe B yang memiliki tipe tegangan M dan H berpengaruh terhadap jumlah putus.