Coeficiente de correlação tau de Kendall
Em estatística, o coeficiente de correlação de postos de Kendall, comumente chamado de coeficiente tau de Kendall (devido à letra grega τ), é uma estatística usada para medir a correlação de postos entre duas quantidades medidas. Um teste tau é um teste de hipóteses não paramétrico referente à dependência estatística baseada no coeficiente tau.
É uma medida de correlação de postos, ou seja, verifica a semelhança entre as ordens dos dados quando classificados por cada uma das quantidades. Recebe este nome em homenagem ao estatístico britânico Maurice Kendall, que o desenvolveu em 1938.[1] O filósofo alemão Gustav Fechner propôs uma medida semelhante no contexto das séries temporais em 1897.[2]
Intuitivamente, a correlação de Kendall entre duas variáveis será elevada se as observações tiverem uma classificação semelhante (ou idêntica no caso de correlação igual a 1), comparadas as duas variáveis. Por classificação, entende-se a descrição das posições relativas das observações no interior de cada variável. A correlação de Kendall será baixa quando as observações tiverem uma classificação diferente (ou completamente diferente no caso de correlação igual a -1) comparadas as duas variáveis.[3]
Tanto o coeficiente , como o coeficiente de Spearman podem ser formulados como casos especiais de um coeficiente de correlação geral.
Definição
editarConsidere , , ..., um conjunto de observações das variáveis aleatórias conjuntas e respectivamente, tal que todos os valores de e sejam únicos. Qualquer par de observações e , em que , é concordante se as classificações de ambos os elementos concordarem uma com a outra, isto é, se e ou se e . Elas são discordantes se e ou se e . Se ou , o par não é nem concordante, nem discordante.
O coeficiente de Kendall é definido como:
Propriedades
editar- O denominador é o número total de combinações de pares, então, o coeficiente deve estar no intervalo .
- Se a concordância entre as duas classificações for perfeita (isto é, se as duas classificações forem iguais), o coeficiente tem valor 1.
- Se a discordância entre as duas classificações for perfeita (isto é, se uma classificação for o reverso da outra), o coeficiente tem valor -1.
- Se e forem independentes, espera-se que o coeficiente seja próximo de zero.
Teste de hipóteses
editarO coeficiente de postos de Kendall é frequentemente usado como uma estatística de teste em um teste de hipóteses para estabelecer se duas variáveis podem ser consideradas estatisticamente dependentes. O teste é não paramétrico, já que não se apoia em pressupostos sobre as distribuições de ou ou a distribuição de .
Sob a hipótese nula da independência de e , a distribuição amostral de tem valor esperado igual a zero.[5] Esta distribuição não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada com exatidão para pequenas amostras.[6] No caso de amostras maiores, é comum usar uma aproximação da distribuição normal com média zero e variância igual a:
- .[7]
Repetições
editarUm par é considerado empatado se ou . Um par empatado não é concordante, nem discordante. Quando pares empatados aparecem nos dados, o coeficiente pode ser modificado de várias maneiras para que se mantenha no intervalo .
Tau-a
editarA estatística de Tau-a testa a razão de possibilidades de tabelas de contingência. Ambas as variáveis devem ser ordinais. Tau-a não fará ajustes para empates. É definida como:
em que , e são definidas na próxima seção.
Tau-b
editarA estatística de Tau-b, diferentemente de Tau-a, faz ajustes para empates.[8] Valores de Tau-b variam entre -1 (associação 100% negativa ou inversão perfeita) e +1 (associação 100% positiva ou concordância perfeita). Sendo igual a zero, indica ausência de associação.
O coeficiente Tau-b de Kendall é definido como:
em que
- ;
- ;
- ;
- é o número de pares concordantes;
- é o número de pares discordantes;
- é o número de valores empatados no -ésimo grupo de empates para a primeira quantidade;
- é o número de valores empatados no -ésimo grupo de empates para a segunda quantidade.
Tau-c
editarA estatística de Tau-c (também chamada de Tau-c de Stuart-Kendall) difere de Tau-b na medida em que é mais adequada para tabelas retangulares do que para tabelas quadradas.
Testes de significância
editarQuando duas quantidades são estatisticamente independentes, a distribuição de não é facilmente caracterizável em termos de distribuições conhecidas.[9] Entretanto, para , a seguinte estatística, , é aproximadamente distribuída como uma normal padrão quando as variáveis são estatisticamente independentes:
Assim, para testar se as duas variáveis são estatisticamente dependentes, computa-se e encontra-se a probabilidade cumulativa para a distribuição normal padrão em . Para um teste bicaudal, multiplica-se aquele número por dois para obter o valor-p. Se o valor-p, estiver abaixo de um dado nível de significância, rejeita-se a hipótese nula (àquele nível de significância) de que as quantidades são estatisticamente independentes.
Numerosos ajustes devem ser acrescentados a quando se levam em conta os empates. A seguinte estatística, , tem distribuição igual à distribuição e é mais uma vez aproximadamente igual à distribuição normal padrão quando as quantidades forem estatisticamente independentes:
em que
- ;
- ;
- ;
- ;
- ;
- .
Ver também
editarReferências
editar- ↑ Kendall, M. G. (1 de junho de 1938). «A NEW MEASURE OF RANK CORRELATION». Biometrika. 30 (1-2): 81–93. ISSN 0006-3444. doi:10.1093/biomet/30.1-2.81
- ↑ Kruskal, William H. (1 de dezembro de 1958). «Ordinal Measures of Association». Journal of the American Statistical Association. 53 (284): 814–861. ISSN 0162-1459. doi:10.2307/2281954
- ↑ Kendall, Maurice George (1 de janeiro de 1970). Rank Correlation Methods (em inglês). [S.l.]: Griffin. ISBN 9780852641996
- ↑ «Kendall tau metric - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017
- ↑ Daniel, Wayne W. (1990). Applied nonparametric statistics (em inglês). [S.l.]: PWS-Kent Publ. ISBN 9780534919764
- ↑ Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/bf02294183
- ↑ «Kendall coefficient of rank correlation - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017
- ↑ Agresti, Alan (6 de julho de 2012). Analysis of Ordinal Categorical Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118209998
- ↑ Abdi, Hervé (2007). «The Kendall Rank Correlation Coefficient». In: Salkind, Neil. Encyclopedia of Measurement and Statistics (PDF). Thousand Oaks (Califórnia): Sage. Consultado em 21 de junho de 2017