Estimador de Hodges–Lehmann
Em estatística, o estimador de Hodges-Lehmann é um estimador robusto e não paramétrico de parâmetro de localização de uma população. Em populações que são simétricas em relação a uma mediana, tais como o (Gaussiana) de distribuição normal ou a distribuição t-Student, o estimador de Hodges-Lehmann é uma estimativa consistente e mediana-imparcial da média da população. Para as populações não-simétricos, o estimador de Hodges-Lehmann estima a "pseudo-mediana", que está intimamente relacionada com a mediana da população.
O estimador de Hodges-Lehmann foi inicialmente proposto para estimar o parâmetro local de populações unidimensionais, mas tem sido utilizado para muitos outros fins. Ele tem sido usado para estimar a diferença entre os membros de duas populações. Tem sido generalizado das populações univariadas para as populações multivariadas, que produzem amostras de vetores.
Ele é baseado no teste de sinais de Wilcoxon. Na teoria estatística, foi um dos primeiros exemplos de um estimador baseado em posição, uma importante classe de estimadores, tanto em estatística não paramétrica quanto nas estatísticas robustas. O estimador de Hodges-Lehmann foi proposto em 1963 de forma independente por Pranab Kumar Sen, Joseph por Hodges e Erich Lehmann, e por isso também é chamado de "estimador Hodges-Lehmann-Sen".[1]
Definição
editarNo caso mais simples, a estatística de "Hodges-Lehmann" estima o parâmetro local para uma população univariada.[2][3] Seu cálculo pode ser descrito rapidamente. Para um conjunto de dados com n medições, o produto cartesiano com a própria tem n(n + 1)/2 pares, incluindo o par de cada elemento tomado duas vezes. Para cada par, a média é calculada e, finalmente, a mediana destas n(n + 1)/2 médias é definida como sendo o estimador de Hodges-Lehmann de localização.
A estatística de Hodges-Lehmann também estima a diferença entre duas populações. Para dois conjuntos de dados com m e n observações, seu produto cartesiano contém m × n pares de pontos (um de cada conjunto); cada um destes pares define uma diferença de valores. A estatística de Hodges-Lehmann é a mediana do m × n diferenças.[4]
A estimativa da mediana de uma população simétrica
editarPara uma população que é simétrica, a estatística de Hodges-Lehmann estima mediana da população. É uma estatística robusta que tem um ponto de quebra de 0,29, o que significa que ela continua a ser consistente apesar de cerca de 30 por cento dos dados tenham sido contaminados. Essa robustez é uma vantagem importante sobre a média da amostra, que tem um ponto de quebra zero, sendo proporcional a qualquer observação única e por isso passível de ser enganada por pelo menos um caso isolado. A mediana da amostra é ainda mais robusta, com um ponto de quebra 0,50.[5] O estimador de Hodges-Lehmann é muito melhor do que a média da amostra na estimativa de distribuições normais mistas, também.[6]
Para distribuições simétricas, a estatística de Hodges-Lehmann tem uma maior eficiência do que a média da amostra. Para a distribuição normal, a estatística de Hodges-Lehmann é quase tão eficiente quanto a média da amostra. Para a distribuição de Cauchy (distribuição t-Student com um grau de liberdade), o Hodges-Lehmann é infinitamente mais eficiente do que a média da amostra, que não é um estimador consistente da mediana.[5]
Para as populações não-simétricas, a estatística de Hodges-Lehmann estima a "pseudo-mediana" da população,[7] um parâmetro local que está intimamente relacionado com a mediana. A diferença entre a mediana e pseudo-mediana é relativamente pequena e por isso esta distinção é negligenciada nas discussões elementares. Assim como a mediana espacial,[8] a pseudo-mediana é bem definida para todas as distribuições de variáveis aleatórias que têm dimensão dois ou maior; Para as distribuições unidimensionais, existe alguma pseudo-mediana, que não precisa ser única. Como a mediana, o pseudo-mediana é definida mesmo para distribuições com caudas pesadas que não possuem qualquer média (finita).[9]
A estatística de Hodges-Lehmann de uma amostra não precisa estimar qualquer população, o que para muitas distribuições não existe. O estimador de Hodges-Lehmann de duas amostras não precisa estimar a diferença de dois meios ou a diferença de duas (pseudo-)medianas, mas sim, calcula as diferenças entre a população das variáveis aleatórias binárias extraídas respectivamente a partir das populações.[4]
Generalizações
editarAs estatísticas univariadas de Hodges-Lehmann tem várias generalizações em estatísticas multivariáveis:[10]
Notas
editar- ↑ Lehmann (2006, pp. 176 e 200–201)
- ↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-850994-4 Entrada para "Hodges-Lehmann one-samaple estimator"
- ↑ Hodges & Lehmann (1963)
- ↑ a b Everitt (2002) Entrada para "Hodges-Lehmann estimator"
- ↑ a b Myles Hollander. Douglas A. Wolfe. Nonparametric statistical methods. 2nd ed. John Wiley.
- ↑ Jureckova Sen. Robust Statistical Procedures.
- ↑ Hettmansperger & McKean (1998, pp. 2–4)
- ↑ a b Oja (2010, p. 71)
- ↑ Hettmansperger & McKean (1998, pp. 2–4 e 355–356)
- ↑ Oja (2010, pp. 2–3)
- ↑ Oja (2010, p. 34)
- ↑ Oja (2010, pp. 83–94)
- ↑ Oja (2010, pp. 98–102)
- ↑ Oja (2010, pp. 160, 162, e 167–169)
Referências
editar- Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
- Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical methods. Col: Kendall's Library of Statistics. 5. London: Edward Arnold. pp. xiv+467. ISBN 0-340-54937-8. MR 1604954.
First ed., rather than Taylor and Francis (2010) second
- Hodges, J. L.; Lehmann, E. L. (1963). «Estimation of location based on ranks». Annals of Mathematical Statistics. 34 (2): 598–611. JSTOR 2238406. MR 152070. Zbl 0203.21105. doi:10.1214/aoms/1177704172. Predefinição:Euclid
- Lehmann, Erich L. (2006). Nonparametrics: Statistical methods based on ranks. With the special assistance of H. J. M. D'Abrera Reprinting of 1988 revision of 1975 Holden-Day ed. New York: Springer. pp. xvi+463. ISBN 978-0-387-35212-1. MR 395032
- Oja, Hannu (2010). Multivariate nonparametric methods with R: An approach based on spatial signs and ranks. Col: Lecture Notes in Statistics. 199. New York: Springer. pp. xiv+232. ISBN 978-1-4419-0467-6. MR 2598854. doi:10.1007/978-1-4419-0468-3
- Sen, Pranab Kumar (1963). «On the estimation of relative potency in dilution(-direct) assays by distribution-free methods». Biometrics. 19 (4): 532–552. JSTOR 2527532. Zbl 0119.15604. doi:10.2307/2527532