Regressão linear
Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.[1][2]
A regressão, em geral, tem como objetivo tratar de um valor que não se consegue estimar inicialmente.
A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[3]
Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. [carece de fontes]
Equação da Regressão Linear
editarPara se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.
, onde:
: Variável explicada (dependente); representa o que o modelo tentará prever
: É uma constante, que representa a interceptação da reta com o eixo vertical;
: Representa a inclinação (coeficiente angular) em relação à variável explicativa;
: Variável explicativa (independente);
: Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância , independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas).
Notação Matricial
editarA equação acima pode ser reescrita em forma de matriz:
Onde é uma matriz de observações, é uma matriz de tamanho (sendo a primeira coluna com valores sempre = 1, representando a constante , e é a quantidade de variáveis explicativas), é uma matriz de variáveis explicativas (sendo que representa a constante ) e é uma matriz de de resíduos.
Estimativa dos fatores e
editarA técnica mais usual para estimativa dos parâmetros e é o Método dos mínimos quadrados, mas também podem ser usados:
- Mínimos Quadrados Ponderados
- Mínimos quadrados generalizados
- Máxima verossimilhança
- Regularização de Tikhonov
- Mínimo Desvio absoluto
Interpretação dos parâmetros do modelo
editarO chamado intercepto ou coeficiente linear ( ) é utilizado para representar o ponto em que a reta da regressão corta o eixo Y quando X = 0. Já o parâmetro representa a inclinação da reta ( ) é denominado como coeficiente de regressão ou coeficiente angular. A interpretação geométrica dos coeficientes podem ser vistos na imagem abaixo.
Com base no modelo representado na imagem assim, é possível identificar que :
- A relação matemática entre Y e X é linear
- Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória
- A média do erro é nula, ou seja .
Dado isto, temos que a regressão do modelo acima e dado por:
- Sabendo que para cada valor de X, a variação de será sempre , teremos que:
Assim temos que :
Quando deparamos com casos como este, dizemos que o erro é homocedástico, ou seja, a variância é constante.
- Em casos como esse, esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal, esta hipótese é equivalente a independência dos erros.
Ver também
editarLigações externas
editar- SysLinea 0.1.2 : Programa de código aberto com regressão linear e não linear.
- Manual da Regressão Linear
Referências
- ↑ «Linear regression» (PDF) (em inglês). Stanford.edu. Consultado em 10 de julho de 2019
- ↑ «Chapter 9 - Simple linear regression» (PDF) (em inglês). Carnegie Mellon University - Statistics & Data Science. Consultado em 10 de julho de 2019
- ↑ http://www.fisica.ufs.br/egsantana/cinematica/regresion/regresion.htm Regressão linear com experimêntos físicos [ligação inativa]
Bibliografia
editar- REIS, E., Estatistica Descritiva (2ª ed.). Lisboa: Edições Sílabo, 1994