O coeficiente kappa de Cohen (κ) é uma estatística que é usada para medir a confiabilidade interexaminador (e também a confiabilidade intraexaminador) para itens qualitativos (categóricos).[1] Geralmente é considerada uma medida mais robusta do que o simples cálculo percentual de concordância, pois κ leva em consideração a possibilidade de a concordância ocorrer por acaso. Há controvérsia em torno do kappa de Cohen devido à dificuldade em interpretar os índices de concordância. Alguns pesquisadores sugeriram que é conceitualmente mais simples avaliar a discordância entre os itens.

História

editar

A primeira menção de uma estatística semelhante ao kappa é atribuída a Galton (1892). [2][3]

O artigo seminal introduzindo o kappa como uma nova técnica foi publicado por Jacob Cohen na revista Educational and Psychological Measurement em 1960. [4]

Definição

editar

O kappa de Cohen mede a concordância entre dois avaliadores que classificam N itens em C categorias mutuamente exclusivas. A definição de   é

 

onde po é a concordância relativa observada entre os avaliadores e pe é a probabilidade hipotética de concordância ao acaso, usando os dados observados para calcular as probabilidades de cada observador ver aleatoriamente cada categoria. Se os avaliadores estiverem de acordo, então  . Se não houver acordo entre os avaliadores além do que seria esperado por acaso (conforme dado por pe),  . É possível que a estatística seja negativa, [5] o que pode ocorrer por acaso se não houver relação entre as avaliações dos dois avaliadores, ou pode refletir uma tendência real dos avaliadores em dar avaliações diferentes.

Para k categorias, N observações para categorizar e   o número de vezes que o avaliador i previu a categoria k:

 

Isso é derivado da seguinte equação:

 

Onde   é a probabilidade estimada de que tanto o avaliador 1 quanto o avaliador 2 classificarão o mesmo item como k, enquanto   é a probabilidade estimada de que o avaliador 1 classificará um item como k (e similarmente para o avaliador 2). A relação   baseia-se na suposição de que a classificação dos dois avaliadores é independente. O termo   é estimado usando o número de itens classificados como k pelo avaliador 1 ( ) dividido pelo total de itens a classificar ( ):   (e da mesma forma para o avaliador 2).

Matriz de confusão de classificação binária

editar

Na tradicional matriz de confusão 2 × 2 empregada em aprendizado de máquina e estatística para avaliar classificações binárias, a fórmula Kappa de Cohen pode ser escrita como: [6]

 

onde TP são os verdadeiros positivos, FP são os falsos positivos, TN são os verdadeiros negativos e FN são os falsos negativos. Neste caso, o Kappa de Cohen é equivalente à pontuação de habilidade de Heidke conhecida na meteorologia. [7] A medida foi introduzida pela primeira vez por Myrick Haskell Doolittle em 1888. [8]

Propriedades

editar

Teste de hipóteses e intervalo de confiança

editar

O valor-p para kappa raramente é relatado, provavelmente porque mesmo valores relativamente baixos de kappa podem ser significativamente diferentes de zero, mas não de magnitude suficiente para satisfazer os investigadores. [9] Ainda assim, seu erro padrão foi descrito [10] e é calculado por vários programas de computador. [11]

Interpretando a magnitude

editar

Se a significância estatística não for um guia útil, que magnitude de kappa reflete uma concordância adequada? Diretrizes seriam úteis, mas outros fatores além do acordo podem influenciar sua magnitude, o que torna problemática a interpretação de uma determinada magnitude. Como Sim e Wright observaram, dois fatores importantes são prevalência (os códigos são equiprováveis ou suas probabilidades variam) e viés (são as probabilidades marginais para os dois observadores semelhantes ou diferentes). Outras coisas sendo iguais, os kappas são maiores quando os códigos são equiprováveis. Por outro lado, os Kappas são maiores quando os códigos são distribuídos assimetricamente pelos dois observadores. Em contraste com as variações de probabilidade, o efeito do viés é maior quando Kappa é pequeno do que quando é grande. [12]

Veja também

editar

Bibliografia

editar
  • Banerjee, M.; Capozzoli, Michelle; McSweeney, Laura; Sinha, Debajyoti (1999). «Beyond Kappa: A Review of Interrater Agreement Measures». The Canadian Journal of Statistics. 27 (1): 3–23. JSTOR 3315487. doi:10.2307/3315487 
  • Chicco D., Warrens M.J., Jurman G. (2021). «The Matthews correlation coefficient (MCC) is more informative than Cohen's Kappa and Brier score in binary classification assessment». IEEE Access. 9: 78368 - 78381. doi:10.1109/access.2021.3084050  
  • Cohen, Jacob (1960). «A coefficient of agreement for nominal scales». Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104  |hdl-access= requer |hdl= (ajuda)
  • Cohen, J. (1968). «Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit». Psychological Bulletin. 70 (4): 213–220. PMID 19673146. doi:10.1037/h0026256 
  • Fleiss, J.L.; Cohen, J. (1973). «The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability». Educational and Psychological Measurement. 33 (3): 613–619. doi:10.1177/001316447303300309 
  • Sim, J.; Wright, C. C. (2005). «The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements». Physical Therapy. 85 (3): 257–268. PMID 15733050. doi:10.1093/ptj/85.3.257  
  • Warrens, J. (2011). «Cohen's kappa is a weighted average». Statistical Methodology. 8 (6): 473–484. doi:10.1016/j.stamet.2011.06.002  

Referências

editar
  1. McHugh, Mary L. (2012). «Interrater reliability: The kappa statistic». Biochemia Medica. 22 (3): 276–282. PMC 3900052 . PMID 23092060. doi:10.11613/bm.2012.031 
  2. Galton, F. (1892) Finger Prints Macmillan, London.
  3. Smeeton, N.C. (1985). «Early History of the Kappa Statistic». Biometrics. 41 (3). 795 páginas. JSTOR 2531300 
  4. Cohen, Jacob (1960). «A coefficient of agreement for nominal scales». Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104  |hdl-access= requer |hdl= (ajuda)
  5. Sim, Julius; Wright, Chris C. (2005). «The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements». Physical Therapy. 85 (3): 257–268. ISSN 1538-6724. PMID 15733050. doi:10.1093/ptj/85.3.257  
  6. Chicco D., Warrens M.J., Jurman G. (junho de 2021). «The Matthews correlation coefficient (MCC) is more informative than Cohen's Kappa and Brier score in binary classification assessment». IEEE Access. 9: 78368 - 78381. doi:10.1109/ACCESS.2021.3084050  
  7. Heidke, P. (1 de dezembro de 1926). «Berechnung Des Erfolges Und Der Güte Der Windstärkevorhersagen Im Sturmwarnungsdienst». Geografiska Annaler. 8 (4): 301–349. ISSN 2001-4422. doi:10.1080/20014422.1926.11881138 
  8. Philosophical Society of Washington (Washington, D.C.) (1887). Bulletin of the Philosophical Society of Washington. 10. Washington, D.C.: Published by the co-operation of the Smithsonian Institution. 83 páginas 
  9. Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis 2nd ed. Cambridge, UK: Cambridge University Press. ISBN 978-0-521-27593-4 
  10. Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). «Large sample standard errors of kappa and weighted kappa». Psychological Bulletin. 72 (5): 323–327. doi:10.1037/h0028106 
  11. Robinson, B.F; Bakeman, R. (1998). «ComKappa: A Windows 95 program for calculating kappa and related statistics». Behavior Research Methods, Instruments, and Computers. 30 (4): 731–732. doi:10.3758/BF03209495  
  12. Sim, J; Wright, C. C (2005). «The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements». Physical Therapy. 85 (3): 257–268. PMID 15733050. doi:10.1093/ptj/85.3.257