Coeficiente de correlação tau de Kendall

Em estatística, o coeficiente de correlação de postos de Kendall, comumente chamado de coeficiente tau de Kendall (devido à letra grega τ), é uma estatística usada para medir a correlação de postos entre duas quantidades medidas. Um teste tau é um teste de hipóteses não paramétrico referente à dependência estatística baseada no coeficiente tau.

É uma medida de correlação de postos, ou seja, verifica a semelhança entre as ordens dos dados quando classificados por cada uma das quantidades. Recebe este nome em homenagem ao estatístico britânico Maurice Kendall, que o desenvolveu em 1938.[1] O filósofo alemão Gustav Fechner propôs uma medida semelhante no contexto das séries temporais em 1897.[2]

Intuitivamente, a correlação de Kendall entre duas variáveis será elevada se as observações tiverem uma classificação semelhante (ou idêntica no caso de correlação igual a 1), comparadas as duas variáveis. Por classificação, entende-se a descrição das posições relativas das observações no interior de cada variável. A correlação de Kendall será baixa quando as observações tiverem uma classificação diferente (ou completamente diferente no caso de correlação igual a -1) comparadas as duas variáveis.[3]

Tanto o coeficiente , como o coeficiente de Spearman podem ser formulados como casos especiais de um coeficiente de correlação geral.

Definição

editar

Considere  ,  , ...,   um conjunto de observações das variáveis aleatórias conjuntas   e   respectivamente, tal que todos os valores de   e   sejam únicos. Qualquer par de observações   e  , em que  , é concordante se as classificações de ambos os elementos concordarem uma com a outra, isto é, se   e   ou se   e  . Elas são discordantes se   e   ou se   e  . Se   ou  , o par não é nem concordante, nem discordante.

O coeficiente   de Kendall é definido como:

 [4]

Propriedades

editar
  • O denominador é o número total de combinações de pares, então, o coeficiente deve estar no intervalo  .
  • Se a concordância entre as duas classificações for perfeita (isto é, se as duas classificações forem iguais), o coeficiente tem valor 1.
  • Se a discordância entre as duas classificações for perfeita (isto é, se uma classificação for o reverso da outra), o coeficiente tem valor -1.
  • Se   e   forem independentes, espera-se que o coeficiente seja próximo de zero.

Teste de hipóteses

editar

O coeficiente de postos de Kendall é frequentemente usado como uma estatística de teste em um teste de hipóteses para estabelecer se duas variáveis podem ser consideradas estatisticamente dependentes. O teste é não paramétrico, já que não se apoia em pressupostos sobre as distribuições de   ou   ou a distribuição de  .

Sob a hipótese nula da independência de   e  , a distribuição amostral de   tem valor esperado igual a zero.[5] Esta distribuição não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada com exatidão para pequenas amostras.[6] No caso de amostras maiores, é comum usar uma aproximação da distribuição normal com média zero e variância igual a:

 .[7]

Repetições

editar

Um par   é considerado empatado se   ou  . Um par empatado não é concordante, nem discordante. Quando pares empatados aparecem nos dados, o coeficiente pode ser modificado de várias maneiras para que se mantenha no intervalo  .

A estatística de Tau-a testa a razão de possibilidades de tabelas de contingência. Ambas as variáveis devem ser ordinais. Tau-a não fará ajustes para empates. É definida como:

 

em que  ,   e   são definidas na próxima seção.

A estatística de Tau-b, diferentemente de Tau-a, faz ajustes para empates.[8] Valores de Tau-b variam entre -1 (associação 100% negativa ou inversão perfeita) e +1 (associação 100% positiva ou concordância perfeita). Sendo igual a zero, indica ausência de associação.

O coeficiente Tau-b de Kendall é definido como:

 

em que

  •  ;
  •  ;
  •  ;
  •   é o número de pares concordantes;
  •   é o número de pares discordantes;
  •   é o número de valores empatados no  -ésimo grupo de empates para a primeira quantidade;
  •   é o número de valores empatados no  -ésimo grupo de empates para a segunda quantidade.

A estatística de Tau-c (também chamada de Tau-c de Stuart-Kendall) difere de Tau-b na medida em que é mais adequada para tabelas retangulares do que para tabelas quadradas.

Testes de significância

editar

Quando duas quantidades são estatisticamente independentes, a distribuição de   não é facilmente caracterizável em termos de distribuições conhecidas.[9] Entretanto, para  , a seguinte estatística,  , é aproximadamente distribuída como uma normal padrão quando as variáveis são estatisticamente independentes:

 

Assim, para testar se as duas variáveis são estatisticamente dependentes, computa-se   e encontra-se a probabilidade cumulativa para a distribuição normal padrão em  . Para um teste bicaudal, multiplica-se aquele número por dois para obter o valor-p. Se o valor-p, estiver abaixo de um dado nível de significância, rejeita-se a hipótese nula (àquele nível de significância) de que as quantidades são estatisticamente independentes.

Numerosos ajustes devem ser acrescentados a   quando se levam em conta os empates. A seguinte estatística,  , tem distribuição igual à distribuição   e é mais uma vez aproximadamente igual à distribuição normal padrão quando as quantidades forem estatisticamente independentes:

 

em que

  •  ;
  •  ;
  •  ;
  •  ;
  •  ;
  •  .

Ver também

editar

Referências

editar
  1. Kendall, M. G. (1 de junho de 1938). «A NEW MEASURE OF RANK CORRELATION». Biometrika. 30 (1-2): 81–93. ISSN 0006-3444. doi:10.1093/biomet/30.1-2.81 
  2. Kruskal, William H. (1 de dezembro de 1958). «Ordinal Measures of Association». Journal of the American Statistical Association. 53 (284): 814–861. ISSN 0162-1459. doi:10.2307/2281954 
  3. Kendall, Maurice George (1 de janeiro de 1970). Rank Correlation Methods (em inglês). [S.l.]: Griffin. ISBN 9780852641996 
  4. «Kendall tau metric - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017 
  5. Daniel, Wayne W. (1990). Applied nonparametric statistics (em inglês). [S.l.]: PWS-Kent Publ. ISBN 9780534919764 
  6. Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/bf02294183 
  7. «Kendall coefficient of rank correlation - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017 
  8. Agresti, Alan (6 de julho de 2012). Analysis of Ordinal Categorical Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118209998 
  9. Abdi, Hervé (2007). «The Kendall Rank Correlation Coefficient». In: Salkind, Neil. Encyclopedia of Measurement and Statistics (PDF). Thousand Oaks (Califórnia): Sage. Consultado em 21 de junho de 2017 

Ligações externas

editar