Coeficiente de determinação

O coeficiente de determinação, também chamado de R², é uma medida de ajuste de um modelo estatístico linear generalizado, como a regressão linear simples ou múltipla, aos valores observados de uma variável aleatória. O R² varia entre 0 e 1, por vezes sendo expresso em termos percentuais. Nesse caso, expressa a quantidade da variância dos dados que é explicada pelo modelo linear. Assim, quanto maior o R², mais explicativo é o modelo linear, ou seja, melhor ele se ajusta à amostra. Por exemplo, um R² = 0,8234 significa que o modelo linear explica 82,34% da variância da variável dependente a partir do regressores (variáveis independentes) incluídas naquele modelo linear.

Método

$SQ_{\text{tot}}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2},$ onde $n$ é o numero de observações;

Partindo de que $y_{i}$ é o valor observado e ${\bar {y}}$ é a média das observações, esta equação dá-nos a Soma Total dos Quadrados, ou seja, a soma dos quadrados das diferenças entre a média e cada valor observado. $SQ_{\text{res}}=\sum _{i=1}^{n}(y_{i}-{\hat {y_{i}}})^{2},$ onde ${\hat {y_{i}}}$ é o valor estimado (previsão) de $y_{i}$ .

Esta equação é a soma dos quadrados dos resíduos, que calcula a parte que não é explicada pelo modelo.

$SQ_{\text{exp}}=\sum _{i=1}^{n}({\hat {y_{i}}}-{\bar {y}})^{2},$

onde ${\hat {y_{i}}}$ é o valor estimado (previsão) de $y_{i}$ .

Esta equação, a soma dos quadrados explicada, indica-nos a diferença entre a média das observações e o valor estimado para cada observação, e soma os respectivos quadrados. Quanto menor for a diferença, maior poder explicativo detém o modelo.

Em alguns casos temos: $SQ_{\text{tot}}=SQ_{\text{exp}}+SQ_{\text{res}}.$ E normalizando a equação de cima, temos que: $R^{2}={\frac {SQ_{\text{exp}}}{SQ_{\text{tot}}}}=1-{\frac {SQ_{\text{res}}}{SQ_{\text{tot}}}}.$

R² ajustado

A inclusão de inúmeras variáveis, mesmo que tenham muito pouco poder explicativo sobre a variável dependente, aumentarão o valor de R². Isto incentiva a inclusão indiscriminada de variáveis, prejudicando o princípio da parcimônia (ver de forma mais ampla em navalha de Ockhan). Para combater esta tendência, podemos usar uma medida alternativa do coeficiente de determinação, que penaliza a inclusão de regressores pouco explicativos. Trata-se do R² ajustado: ${\bar {R^{2}}}=1-{\frac {n-1}{n-(k+1)}}\left(1-R^{2}\right),$ onde $(k+1)\,\!$ representa o número de variáveis explicativas mais a constante.

Note que a inclusão de mais variáveis com pouco poder explicativo prejudica o valor do R² ajustado, porque aumenta $k$ uma unidade, sem aumentar substancialmente o $R^{2}$ .

Relação entre Coeficiente de Determinação (R²) e Coeficiente de Correlação (R)

Para provarmos que o Coeficiente de Determinação equivale ao quadrado do Coeficiente de Correlação, precisamos provar inicialmente:

Teorema 1

$SQ_{\text{tot}}=n.{\biggl (}{\overline {y^{2}}}-{\overline {y}}^{2}{\biggr )}$

Prova

$SQ_{\text{tot}}=(y_{1}-{\overline {y}})^{2}+(y_{2}-{\overline {y}})^{2}+\cdots +(y_{n}-{\overline {y}})^{2}$

$=(y_{1}^{2}-2.y_{1}.{\overline {y}}+{\overline {y}}^{2})+\cdots +(y_{n}^{2}-2.y_{n}.{\overline {y}}+{\overline {y}}^{2})$

$={\bigl (}\sum {y^{2}}{\bigr )}-{\bigl (}2.{\overline {y}}.\sum {y}{\bigr )}+{\bigl (}n.{\overline {y}}^{2}{\bigr )}$

$=(n.{\overline {y^{2}}})-2.{\overline {y}}.(n.{\overline {y}})+n.{\overline {y}}^{2}$

$=n.({\overline {y^{2}}}-2.{\overline {y}}^{2}+{\overline {y}}^{2})$

$=n.({\overline {y^{2}}}-{\overline {y}}^{2})\ \ \ \ \ c.q.d.$

Teorema 2

$SQ_{res}=n.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}+SQ_{tot}$

Prova

Inicialmente, precisamos reescrever a expressão do valor estimado pela Regressão Linear:

${\hat {y}}_{k}=A.x_{k}+B$

$=A.x_{k}+({\overline {y}}-A.{\overline {x}})$

$=A.(x_{k}-{\overline {x}})+{\overline {y}}$

$SQ_{res}=({\hat {y}}_{1}-y_{1})^{2}+({\hat {y}}_{2}-y_{2})^{2}+\cdots +({\hat {y}}_{n}-y_{n})^{2}$

$=[A.(x_{1}-{\overline {x}})+{\overline {y}}-y_{1}]^{2}+\cdots +[A.(x_{n}-{\overline {x}})+{\overline {y}}-y_{n}]^{2}$

$=[A.(x_{1}-{\overline {x}})+({\overline {y}}-y_{1})]^{2}+\cdots +[A.(x_{n}-{\overline {x}})+({\overline {y}}-y_{n})]^{2}$ $=A^{2}.(x_{1}-{\overline {x}})^{2}+2.A.(x_{1}-{\overline {x}}).({\overline {y}}-y_{1})+({\overline {y}}-y_{1})^{2}+\cdots +A^{2}.(x_{n}-{\overline {x}})^{2}+2.A.(x_{n}-{\overline {x}}).({\overline {y}}-y_{n})+({\overline {y}}-y_{n})^{2}$ $=A^{2}.(x_{1}^{2}-2.x_{1}.{\overline {x}}+{\overline {x}}^{2})+2.A.(x_{1}.{\overline {y}}-x_{1}.y_{1}-{\overline {x}}.{\overline {y}}+{\overline {x}}.y_{1})+({\overline {y}}^{2}-2.{\overline {y}}.y_{1}+y_{1}^{2})+\cdots$ $=A^{2}.x_{1}^{2}-2A^{2}.x_{1}.{\overline {x}}+A^{2}.{\overline {x}}^{2}+2.A.x_{1}.{\overline {y}}-2.A.x_{1}.y_{1}-2.A.{\overline {x}}.{\overline {y}}+2.A.{\overline {x}}.y_{1}+{\overline {y}}^{2}-2.{\overline {y}}.y_{1}+y_{1}^{2}+\cdots$

$=A^{2}.(\sum {x^{2}})-2A^{2}.{\overline {x}}.(\sum {x})+n.A^{2}.{\overline {x}}^{2}+2.A.{\overline {y}}.(\sum {x})-2.A.(\sum {x.y})-2.A.n.{\overline {x}}.{\overline {y}}+2.A.{\overline {x}}.(\sum {y})+n.{\overline {y}}^{2}-2.{\overline {y}}.(\sum {y})+(\sum {y^{2}})$

$=A^{2}.(n.{\overline {x^{2}}})-2A^{2}.{\overline {x}}.(n.{\overline {x}})+n.A^{2}.{\overline {x}}^{2}+2.A.{\overline {y}}.(n.{\overline {x}})-2.A.(n.{\overline {xy}})-2.A.n.{\overline {x}}.{\overline {y}}+2.A.{\overline {x}}.(n.{\overline {y}})+n.{\overline {y}}^{2}-2.{\overline {y}}.(n.{\overline {y}})+(n.{\overline {y^{2}}})$

$=n.(A^{2}.{\overline {x^{2}}}-2.A^{2}.{\overline {x}}^{2}+A^{2}.{\overline {x}}^{2}+2.A.{\overline {x}}.{\overline {y}}-2.A.{\overline {xy}}-2.A.{\overline {x}}.{\overline {y}}+2.A.{\overline {x}}.{\overline {y}}+{\overline {y}}^{2}-2.{\overline {y}}^{2}+{\overline {y^{2}}})$

$=n.(A^{2}.{\overline {x^{2}}}-A^{2}.{\overline {x}}^{2}+2.A.{\overline {x}}.{\overline {y}}-2.A.{\overline {xy}}-{\overline {y}}^{2}+{\overline {y^{2}}})$

$=n.[A^{2}.({\overline {x^{2}}}-{\overline {x}}^{2})+2A.({\overline {x}}.{\overline {y}}-{\overline {xy}})+{\overline {y^{2}}}-{\overline {y}}^{2}]$

$=n.\left[\left({\dfrac {{\overline {x}}.{\overline {y}}-{\overline {xy}}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}\right)^{2}.({\overline {x^{2}}}-{\overline {x}}^{2})+2.{\dfrac {{\overline {x}}.{\overline {y}}-{\overline {xy}}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}.({\overline {x}}.{\overline {y}}-{\overline {xy}})\right]+n.({\overline {y^{2}}}-{\overline {y}}^{2})$

$=n.\left[{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}.-({\overline {x}}^{2}-{\overline {x^{2}}})}{({\overline {x}}^{2}-{\overline {x^{2}}})^{2}}}+2.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}\right]+SQ_{\text{tot}}$

$=n.\left[{\dfrac {-({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}+2.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}\right]+SQ_{\text{tot}}$

$=n.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}+SQ_{\overline {y}}\ \ \ \ \ \ c.q.d.$

Teorema 3: $R^{2}={\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{({\overline {x^{2}}}-{\overline {x}}^{2}).({\overline {y^{2}}}-{\overline {y}}^{2})}}$

Prova: $R^{2}=1-{\dfrac {SQ_{res}}{SQ_{\text{tot}}}}={\dfrac {SQ_{\text{tot}}}{SQ_{\text{tot}}}}-{\dfrac {SQ_{res}}{SQ_{\text{tot}}}}={\dfrac {SQ_{\text{tot}}-SQ_{res}}{SQ_{\text{tot}}}}={\dfrac {SQ_{\text{tot}}-\left[n.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x}}^{2}-{\overline {x^{2}}}}}+SQ_{\text{tot}}\right]}{SQ_{\text{tot}}}}$

$=n.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{{\overline {x^{2}}}-{\overline {x}}^{2}}}.{\dfrac {1}{SQ_{\text{tot}}}}=n.{\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{({\overline {x^{2}}}-{\overline {x}}^{2}).n.({\overline {y^{2}}}-{\overline {y}}^{2})}}={\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{({\overline {x^{2}}}-{\overline {x}}^{2}).({\overline {y^{2}}}-{\overline {y}}^{2})}}\ \ \ \ \ \ c.q.d.$

Teorema 4: (Coeficiente de Correlação)² = Coeficiente de Determinação

Prova: Coeficiente de Correlação = $R={\dfrac {\sum {(x-{\overline {x}}).(y-{\overline {y}})}}{{\sqrt {\sum {(x-{\overline {x}})^{2}}}}.{\sqrt {\sum {(y-{\overline {y}})^{2}}}}}}$

Para elevá-lo ao quadrado, façamos separadamente numerador e denominador:

Quadrado do numerador: $[\ \sum {(x-{\overline {x}}).(y-{\overline {y}})}\ ]^{2}$

$=[\ \sum {(x.y-x.{\overline {y}}-{\overline {x}}.y+{\overline {x}}.{\overline {y}})}\ ]^{2}$

$=[\ (x_{1}.y_{1}-x_{1}.{\overline {y}}-{\overline {x}}.y_{1}+{\overline {x}}.{\overline {y}})+\cdots +(x_{n}.y_{n}-x_{n}.{\overline {y}}-{\overline {x}}.y_{n}+{\overline {x}}.{\overline {y}})\ ]^{2}$

$=[\ (\sum {x.y})-{\overline {y}}.(\sum {x})-{\overline {x}}.(\sum {y})+n.{\overline {x}}.{\overline {y}}\ ]^{2}$

$=[\ (n.{\overline {x.y}})-{\overline {y}}.(n.{\overline {x}})-{\overline {x}}.(n.{\overline {y}})+n.{\overline {x}}.{\overline {y}}\ ]^{2}$

$=[\ n.({\overline {x.y}}-{\overline {x}}.{\overline {y}})\ ]^{2}$

$=n^{2}.({\overline {x.y}}-{\overline {x}}.{\overline {y}})^{2}$

Agora, façamos o quadrado do denominador:

$[\ {\sqrt {\sum {(x-{\overline {x}})^{2}}}}.{\sqrt {\sum {(y-{\overline {y}})^{2}}}}\ ]^{2}$

$=[\ \sum {(x-{\overline {x}})^{2}}\ ].[\ \sum {(y-{\overline {y}})^{2}}\ ]$

$=[\ \sum {(x^{2}-2.x.{\overline {x}}+{\overline {x}}^{2})}\ ].[\ \sum {(y^{2}-2.y.{\overline {y}}+{\overline {y}}^{2})}\ ]$

$=[\ (\sum {x^{2}})-2.{\overline {x}}.(\sum {x})+n.{\overline {x}}^{2}\ ].[\ (\sum {y^{2}})-2.{\overline {y}}.(\sum {y})+n.{\overline {y}}^{2}\ ]$

$=[\ (n.{\overline {x^{2}}})-2.{\overline {x}}.(n.{\overline {x}})+n.{\overline {x}}^{2}\ ].[\ (n.{\overline {y^{2}}})-2.{\overline {y}}.(n.{\overline {y}})+n.{\overline {y}}^{2}\ ]$

$=(n.{\overline {x^{2}}}-n.{\overline {x}}^{2}).(n.{\overline {y^{2}}}-n.{\overline {y}}^{2})$

$=[\ n.({\overline {x^{2}}}-{\overline {x}}^{2})\ ].[\ n.({\overline {y^{2}}}-{\overline {y}}^{2})\ ]$

$=n^{2}.({\overline {x^{2}}}-{\overline {x}}^{2}).({\overline {y^{2}}}-{\overline {y}}^{2})$

Juntando, temos:

(Coeficiente de Correlação)² = $(R)^{2}={\dfrac {n^{2}.({\overline {x.y}}-{\overline {x}}.{\overline {y}})^{2}}{n^{2}.({\overline {x^{2}}}-{\overline {x}}^{2}).({\overline {y^{2}}}-{\overline {y}}^{2})}}$

$={\dfrac {({\overline {x}}.{\overline {y}}-{\overline {xy}})^{2}}{({\overline {x^{2}}}-{\overline {x}}^{2}).({\overline {y^{2}}}-{\overline {y}}^{2})}}$ = Coeficiente de Determinação (R²) c.q.d.