Fundamentos da Regressão Linear
Definição
A Regressão Linear é uma metodologia que nos permite relacionar dois fenômenos. Essa abordagem permite identificar uma regra com base em dados reais para prever novos valores. Existem algoritmos e pacotes que fazem regressão linear de forma simples, mas nem sempre entendemos o que se passa por trás das cortinas. O objetivo desta apresentação é expor os fundamentos matemáticos da regressão linear.
O método
O método pode ser dividido em três etapas:
- Visualização inicial dos dados;
- Determinação de parâmetros;
- Gere os parâmetros encontrados da curva.
O objetivo desta etapa é verificar se os dados seguem um comportamento aproximadamente linear. Caso contrário, o método de regressão linear não deve ser aplicado. Vamos considerar o seguinte conjunto de datas.

Podemos plotar esses dados e verificar seu comportamento. Na imagem abaixo podemos observar que o gráfico demonstra um comportamento linear, portanto justifica-se a aplicação da técnica de regressão linear.

Neste repositório eu disponibilizei um código python que gera um ajuste de curva usando regressão linear, como eu disse, os fundamentos matemáticos são suprimidos e não temos ideia do que acontece internamente. O código gera a imagem abaixo.


Determinando os parâmetros
Para determinar os parâmetros aeb da curva, usaremos o método dos mínimos quadrados. Nesse método, os valores aeb são obtidos de forma que a soma dos quadrados das diferenças entre os valores observados de Y e os obtidos da curva ajustada para os mesmos valores de X seja mínima. Matematicamente esta ideia pode ser representada como:

Para encontrar a configuração mínima, podemos derivar a expressão acima em relação aos parâmetros a e b e defini-la igual a zero.

Sabendo que n é o número de observações, podemos escrever as equações (I) e (II) como equações (III) e (IV) da seguinte forma.

Para determinar o parâmetro b, dividimos a primeira equação por n e isolamos a para substituí-lo na segunda equação:

Substituindo na segunda equação:

O coeficiente linear da reta pode ser facilmente determinado pela equação já definida acima:

Podemos calcular esses parâmetros diretamente dos dados, sem usar o pacote scipy através do código abaixo:

E finalmente, depois de obter o coeficiente linear a e o coeficiente angular b, podemos plotar a curva de ajuste.