Fundamentos da Regressão Linear
Definição
A Regressão Linear é uma metodologia que nos permite relacionar dois fenômenos. Essa abordagem permite identificar uma regra com base em dados reais para prever novos valores. Existem algoritmos e pacotes que fazem regressão linear de forma simples, mas nem sempre entendemos o que se passa por trás das cortinas. O objetivo desta apresentação é expor os fundamentos matemáticos da regressão linear.
O método
O método pode ser dividido em três etapas:
- Visualização inicial dos dados;
- Determinação de parâmetros;
- Gere os parâmetros encontrados da curva.
O objetivo desta etapa é verificar se os dados seguem um comportamento aproximadamente linear. Caso contrário, o método de regressão linear não deve ser aplicado. Vamos considerar o seguinte conjunto de datas.
Podemos plotar esses dados e verificar seu comportamento. Na imagem abaixo podemos observar que o gráfico demonstra um comportamento linear, portanto justifica-se a aplicação da técnica de regressão linear.
Neste repositório eu disponibilizei um código python que gera um ajuste de curva usando regressão linear, como eu disse, os fundamentos matemáticos são suprimidos e não temos ideia do que acontece internamente. O código gera a imagem abaixo.
Determinando os parâmetros
Para determinar os parâmetros aeb da curva, usaremos o método dos mínimos quadrados. Nesse método, os valores aeb são obtidos de forma que a soma dos quadrados das diferenças entre os valores observados de Y e os obtidos da curva ajustada para os mesmos valores de X seja mínima. Matematicamente esta ideia pode ser representada como:
Para encontrar a configuração mínima, podemos derivar a expressão acima em relação aos parâmetros a e b e defini-la igual a zero.
Sabendo que n é o número de observações, podemos escrever as equações (I) e (II) como equações (III) e (IV) da seguinte forma.
Para determinar o parâmetro b, dividimos a primeira equação por n e isolamos a para substituí-lo na segunda equação:
Substituindo na segunda equação:
O coeficiente linear da reta pode ser facilmente determinado pela equação já definida acima:
Podemos calcular esses parâmetros diretamente dos dados, sem usar o pacote scipy através do código abaixo:
E finalmente, depois de obter o coeficiente linear a e o coeficiente angular b, podemos plotar a curva de ajuste.





































![O que é uma lista vinculada, afinal? [Parte 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)