Divergência de Kullback-leibler

 Nota: Este artigo é sobre a métrica usada para cálculo da diferença entre duas distribuições de probabilidade. Para divergência no cálculo vetorial, veja divergência.

A divergência de Kullback-Leibler (também chamada de entropia relativa) é uma medida não-simétrica da diferença entre duas distribuições de probabilidade.[1][2]

Especificamente, A divergência de Kullback–Leibler de Q dado P, indicada com DKL(P||Q), é a medida da informação perdida quando Q è usada para aproximar o valor de P:[3] Ainda que frequentemente vista como uma distância, a divergência KL não é, estritatemente, uma métrica de distância. Por exemplo, falta-le simetria: a KL de P dado Q não é, de forma geral, a mesma KL de Q dado P.

Uma divergência de Kullback-Leibler igual a 0 indica que as funçõe/distribuições P e Q são muito parecidas (iguais, até), enquanto uma divergência de 1 indica que se comportam de maneira diferente.

As aplicações da medida incluem a caracterização da entropia (teoria da informação) em sistemas de informação, a aleatoriedade, em séries temporais, ganho de informação ao comparar com modelos estatísticos de inferência. Em versões simplificadas, é usada também em estatística aplicada, mecânica dos fluidos, neurociência e aprendizado de máquina.

Etimologia

editar

A divergência de Kullback-Leibler foi introduzida por Solomon Kullback e Richard Leibler em 1951 como a divergência, distância entre duas distribuições; Kullback preferiu o termo 'informação de discriminação' . [4]

Interpretações

editar

A divergência de Kullback-Leibler de Q para P é frequentemente denotada com DKL(PQ ).

No contexto do aprendizado de máquina, DKL( PQ ) é frequentemente chamado de ganho de informação alcançado se Q for usado ao invés de P. Por analogia com a teoria da informação, também é chamada de entropia relativa de P em relação a Q. No contexto da teoria de codificação, D KL(PQ) pode ser interpretado como medida do número esperado de bits extras bits necessários para código amostras de P usando um código optimizado para Q ao invés do código optimizado para P.

Na visão de Inferência Bayesiana, DKL (PQ) é uma medida da informação obtida quando alguém revê suas crenças da distribuição de probabilidade inicial Q para distribuição de probabilidade final P. Em outras palavras, é a quantidade de informação perdida quando Q é usado para aproximar P. [5] Em aplicações, P tipicamente representa a distribuição "verdadeira" de dados, observações, ou uma distribuição teórica precisamente calculada, enquanto Q tipicamente representa uma teoria, modelo , descrição ou aproximação de P. Para encontrar uma distribuição Q mais próxima de P, podemos minimizar a divergência de KL e computar uma projeção de informação.

A divergência de Kullback-Leibler é um caso especial de uma classe mais ampla de divergências chamada divergências f assim como a classe de divergência de Bregman. É a única divergência sobre probabilidades que é um membro de ambas as classes. Muitas vezes é intuído pensar como uma forma de medir a distância entre distribuições de probabilidade, a divergência de Kullback-Leibler não é uma verdadeiramente métrica. Ela não obedece à desigualdade triangular e, em geral, DKL( PQ ) não é igual a DKL( Q‖P ). No entanto, sua forma infinitesimal, especificamente sua Hessiana, fornece um tensor métrico conhecido como informação de Fisher.

Definição

editar

Para uma distribuição discreta de probabilidade P e Q, a divergência de Kullback-Leibler de Q para P 'é definida.[6] como,

 

o que é equivalente a

 

Em outras palavras, é a expectativa da diferença logarítmica entre as probabilidades P e Q, onde a expectativa é obtida usando as probabilidades P. A divergência de Kullback-Leibler é definida apenas se para todo i, Q(i) =0 implica P(i)=0 (continuidade absoluta). Sempre que P(i) é zero, a contribuição do i-ésimo termo é interpretado como zero pois  .

Para as distribuições P e Q de uma variável aleatória contínua, a divergência de Kullback-Leibler é definida como sendo a integral:[7]

 

onde p e q denotam as densidades de P e Q.

De modo geral, se P e Q são probabilidade medida sobre um conjunto X, e P é absolutamente contínua em relação a Q, então o Kullback-Leibler divergência de Q para P é definida como

 

Onde   é a derivada de Radon-Nikodym de P em relação a Q, garantindo dado que a expressão do lado direito exista. Equivalente, isso pode ser escrito como

 

que é a entropia de P em relação a Q. Continuando neste caso, se   é uma medida em X para o qual   e   existita (o que significa que p e q são absolutamente contínuas em relação a  ), então a divergência Kullback–Leibler de Q a P é dada como

 

Os logaritmos destas fórmulas são tomados na base 2 se a informação é medida em unidades de bits ou na base e se a informação é medida em nat s. A maioria das fórmulas envolvendo a divergência de Kullback-Leibler são verdadeiras independente da base do logaritmo.

Existem várias convenções para se referir a DKL(PQ) em palavras. Muitas vezes é referida como a divergência entre P e Q; no entanto, isso não consegue transmitir a assimetria fundamental na relação. Às vezes, como neste artigo, pode ser encontrada descrita como a divergência de P a partir de, ou em relação a Q. Isso reflete a assimetria na inferência bayesiana, que inicia de um Q anterior e atualiza para o P posterior.

Referências

  1. Kullback, S.; Leibler, R.A. (1951). «On information and sufficiency». Annals of Mathematical Statistics. 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694 
  2. Kullback, S. (1959), Information Theory and Statistics, John Wiley & Sons . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9.
  3. Kenneth P. Burnham, David R. Anderson (2002), Model Selection and Multi-Model Inference: A Practical Information-Theoretic Approach. Springer. (2nd ed), p.51
  4. Kullback, S. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician. 41 (4): 340–341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510 
  5. Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference 2nd ed. [S.l.]: Springer. p. 51 
  6. MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms First ed. [S.l.]: Cambridge University Press. p. 34 
  7. Bishop C. (2006). Pattern Recognition and Machine Learning p. 55.