Dasar-dasar Regresi Linear
Definisi
Regresi Linear adalah metodologi yang memungkinkan kita untuk menghubungkan dua fenomena. Pendekatan ini memungkinkan identifikasi aturan berdasarkan data nyata untuk memprediksi nilai baru. Ada algoritme dan paket yang melakukan regresi linier dengan cara yang sederhana, tetapi kami tidak selalu memahami apa yang terjadi di balik layar. Tujuan dari presentasi ini adalah untuk memaparkan dasar-dasar matematis dari regresi linier.
Metode
Metode ini dapat dibagi menjadi tiga langkah:
- Tampilan awal data;
- Penentuan parameter;
- Hasilkan kurva yang ditemukan parameter.
Tujuan dari langkah ini adalah untuk memverifikasi apakah data mengikuti perilaku yang mendekati linear. Jika tidak, metode regresi linier tidak boleh diterapkan. Mari kita pertimbangkan kumpulan tanggal berikut.

Kami dapat memplot data ini dan memeriksa perilakunya. Pada gambar di bawah ini kita dapat melihat bahwa grafik menunjukkan perilaku linier, oleh karena itu penerapan teknik regresi linier dibenarkan.

Dalam repositori ini saya telah menyediakan kode python yang menghasilkan pencocokan kurva menggunakan regresi linier, seperti yang saya katakan, dasar matematika ditekan dan kami tidak tahu apa yang terjadi secara internal. Kode menghasilkan gambar di bawah ini.


Menentukan parameter
Untuk menentukan parameter a dan b dari kurva, kita akan menggunakan metode kuadrat terkecil. Dalam metode ini, nilai a dan b diperoleh sedemikian rupa sehingga jumlah kuadrat dari perbedaan antara nilai Y yang diamati dan yang diperoleh dari kurva yang disesuaikan untuk nilai X yang sama adalah minimal. Secara matematis ide ini dapat direpresentasikan sebagai:

Untuk menemukan konfigurasi minimum kita dapat menurunkan ekspresi di atas sehubungan dengan parameter a dan b dan mengaturnya sama dengan nol.

Mengetahui bahwa n adalah jumlah pengamatan, kita dapat menulis persamaan (I) dan (II) sebagai persamaan (III) dan (IV) sebagai berikut.

Untuk menentukan parameter b, kita membagi persamaan pertama dengan n dan memisahkan a untuk mensubstitusikannya ke persamaan kedua:

Mengganti dalam persamaan kedua:

Koefisien linier garis dapat dengan mudah ditentukan dengan persamaan yang sudah didefinisikan di atas:

Parameter tersebut dapat kita hitung langsung dari datanya, tanpa menggunakan paket scipy melalui kode di bawah ini:

Dan akhirnya, setelah mendapatkan koefisien linier a dan koefisien sudut b, kita dapat memplot kurva yang sesuai.