Regressione logistica in Python - Introduzione
La regressione logistica è un metodo statistico di classificazione degli oggetti. Questo capitolo darà un'introduzione alla regressione logistica con l'aiuto di alcuni esempi.
Classificazione
Per comprendere la regressione logistica, dovresti sapere cosa significa classificazione. Consideriamo i seguenti esempi per capirlo meglio:
- Un medico classifica il tumore come maligno o benigno.
- Una transazione bancaria può essere fraudolenta o autentica.
Per molti anni, gli esseri umani hanno svolto tali compiti, anche se sono soggetti a errori. La domanda è: possiamo addestrare le macchine a svolgere questi compiti per noi con una maggiore precisione?
Uno di questi esempi di macchina che esegue la classificazione è l'e-mail Clientsulla tua macchina che classifica ogni posta in arrivo come "spam" o "non spam" e lo fa con una precisione abbastanza ampia. La tecnica statistica della regressione logistica è stata applicata con successo nel client di posta elettronica. In questo caso, abbiamo addestrato la nostra macchina a risolvere un problema di classificazione.
La regressione logistica è solo una parte dell'apprendimento automatico utilizzato per risolvere questo tipo di problema di classificazione binaria. Esistono molte altre tecniche di apprendimento automatico che sono già sviluppate e sono in pratica per risolvere altri tipi di problemi.
Se hai notato, in tutti gli esempi precedenti, il risultato della predicazione ha solo due valori - Sì o No. Li chiamiamo classi - così da dire che il nostro classificatore classifica gli oggetti in due classi. In termini tecnici, possiamo dire che il risultato o la variabile obiettivo è di natura dicotomica.
Esistono altri problemi di classificazione in cui l'output può essere classificato in più di due classi. Ad esempio, dato un cesto pieno di frutta, ti viene chiesto di separare frutti di diverso tipo. Ora, il cestino può contenere arance, mele, mango e così via. Quindi, quando separi i frutti, li separi in più di due classi. Questo è un problema di classificazione multivariata.