Usuário(a):Rielson Leandro/Testes
Este artigo é sobre distribuição de probabilidade. Para funções generalizadas em análise matemática, consulte Distribuição (Matemática). Para outros usos, veja Distribuição.
Em probabilidade e estatística, a distribuição de probabilidade atribui uma probabilidade para cada subconjunto mensurável dos resultados possíveis de uma forma aleatória experimento, pesquisa ou procedimento de inferência estatística. Exemplos são encontrados em experiências cujos amostra espaço énão numérico, em que a distribuição é uma distribuição categórica; experiências cujo espaço amostral é codificado por discretas variáveis aleatórias, onde a distribuição pode ser especificada por uma função massa de probabilidade; e experimentos com espaços amostrais codificada por variáveis aleatórias contínuas, onde a distribuição pode ser especificada por uma função densidade de probabilidade. Mais experimentos complexos, que envolvem processos estocásticos definidos em tempo contínuo, pode exigir o uso de medidas de probabilidade.
Em probabilidade aplicada, uma distribuição de probabilidade pode ser aplicada em inúmeras maneiras diferentes, frequentemente escolhidos conveniência matemática:
- fornecendo uma válida função massa de probabilidade ou função densidade de probabilidade.
- fornecendo uma válida função de distribuição cumulativa ou função de sobrevivência.
- fornecendo uma válida função de risco.
- fornecendo uma válida função característica
- através do fornecimento de uma regra para a construção de uma nova variável aleatória a partir de outras variáveis aleatórias cuja distribuição de probabilidade conjunta é conhecida.
A distribuição de probabilidade pode ser univariada ou multivariada. A distribuição univariada da as probabilidades de uma única variável aleatória assumindo vários valores possíveis; uma distribuição multivariada (a distribuição de probabilidade conjunta) da as probabilidades de uma vetor aleatório conjunto de duas ou mais variáveis aleatórias levando diversas combinações de valores.
Distribuições de probabilidade univariada importante e comumente encontrados incluem a distribuição binomial , a distribuição hipergeométrica , ea distribuição normal . A distribuição normal multivariada é uma distribuição multivariada comumente encontradas.
Conteúdo
editar- 1 Introdução
- 2 Terminologia
- 2.1 Termos básicos
- 3 Função de distribuição cumulativa
- 4 de distribuição de probabilidade discreta
- 4.1 Medida formulação teórica
- 4.2 densidade cumulativa
- 4.3 representação Delta-function
- 4.4 representação Indicator-function
- 5 distribuição de probabilidade contínua
- 6 Algumas propriedades
- 7 Kolmogorov definição
- 8 geração de números aleatórios
- 9 Applications
- 10 distribuições de probabilidade comuns
- 10.1 ligadas às quantidades de valor real que crescem de forma linear (por exemplo, erros, offsets)
- 10,2 ligadas às quantidades de valor real positivos que crescem exponencialmente (por exemplo, preços, renda, as populações)
- 10,3 ligadas às quantidades de valor real que são assumidos para ser distribuído uniformemente sobre uma região (possivelmente desconhecido)
- 10,4 relativos aos ensaios de Bernoulli (sim / não há eventos, com uma dada probabilidade)
- 10,5 relacionadas a resultados categóricos (eventos com Kresultados possíveis, com uma determinada probabilidade para cada resultado)
- 10,6 relacionadas a eventos em um processo de Poisson (eventos que ocorrem de forma independente com uma determinada taxa)
- 10.7 Com relação aos valores absolutos de vetores com componentes distribuídos normalmente
- 10,8 ligadas às quantidades distribuídas normalmente operados com soma dos quadrados (para testes de hipóteses)
- 10.9 útil como conjugadas distribuições anteriores em inferência bayesiana
- 11 Veja também
- 12 Referências
- 13 Ligações externas
Introdução:
editarA função massa de probabilidade (PMF)p ( S ) especifica a distribuição de probabilidade para a soma S de contagens de dois dados . Por exemplo, a figura mostra que a p (11) = 1/18. O PMF permite o cálculo de probabilidades de eventos, tais como P ( S > 9) = 1/12 + 1/18 + 1/36 = 1/6, e todas as outras probabilidades na distribuição.
Para definir as distribuições de probabilidade para os casos mais simples, é preciso distinguir entrediscretas e contínuasvariáveis aleatórias . No caso discreto, pode-se facilmente atribua uma probabilidade para cada valor possível: por exemplo, ao jogar um justo fieira , cada um dos seis valores de 1 a6 tem a probabilidade 1/6. Em contraste, quando uma variável aleatória assume valores de um continuum, em seguida, normalmente, as probabilidades pode ser diferente de zero somente se eles se referem a intervalos regulares: no controle de qualidade pode-se exigir que a probabilidade de um pacote de "500 g", contendo entre 490 ge 510 g não deve ser inferior a 98%.
A função densidade de probabilidade(pdf) do distribuição normal , também chamado de Gauss ou "curva de sino", a distribuição aleatória e contínua mais importante. Como notado na figura, as probabilidades de intervalos de valores corresponde à área sob a curva.
Se a variável aleatória é de valor real (ou, mais geralmente, se opedido total é definida pelos seus valores possíveis), a função de distribuição cumulativa (CDF) dá a probabilidade de que a variável aleatória não é maior do que um determinado valor; no caso de valor real, o CDF é o integrante da função densidade de probabilidade (pdf), desde que esta função existe.
Terminologia:
editarComo a teoria da probabilidade é usado em bastante diversas aplicações, a terminologia não é uniforme e, por vezes, confusa. Os seguintes termos são usados para funções de distribuição de probabilidade não-cumulativos:
- Massa de probabilidade , função massa de probabilidade , PMF: para variáveis aleatórias discretas.
- Distribuição categórica : para variáveis aleatórias discretas com um conjunto finito de valores.
- Densidade de probabilidade , função densidade de probabilidade , pdf : na maioria das vezes reservado para variáveis aleatórias contínuas.
Os seguintes termos são um tanto ambígua, pois pode se referir a distribuições não-cumulativos ou cumulativos, dependendo das preferências dos autores:
- Função de distribuição de probabilidade : contínua ou discreta, não-cumulativo ou cumulativa .
- Função de probabilidade : ainda mais ambígua, pode significar qualquer das coisas acima ou outros.
Finalmente,
- Distribuição de probabilidade : às vezes a mesma função de distribuição de probabilidade , mas geralmente refere-se à atribuição de mais completa de probabilidades para todos os subconjuntos mensuráveis de resultados, e não apenas para os resultados ou intervalos de resultados específicos.
Termos básicos:
editar- Modo : para uma variável aleatória discreta, o valor com maior probabilidade (o local em que a função de massa de probabilidade tem seu pico); para uma variável aleatória e contínua, o local em que a função densidade de probabilidade tem o seu pico.
- Apoio : o menor conjunto fechado cujo complemento tem probabilidade zero.
- Cabeça : o intervalo de valores em que a PMF ou pdf é relativamente alta.
- Cauda : o complemento da cabeça dentro do suporte; o grande conjunto de valores onde o PMF ou pdf é relativamente baixo.
- O valor esperado ou média : a média ponderada dos valores possíveis, usando suas probabilidades como seus pesos; ou o análogo contínua dos mesmos.
- Mediana : o valor de tal modo que o conjunto de valores de menos do que a mediana tem uma probabilidade de uma metade.
- Variação : o segundo momento da PMF ou pdf sobre a média;uma medida importante da dispersão da distribuição.
- Desvio padrão : a raiz quadrada da variância, e, portanto, uma outra medida de dispersão.
- Simetria : uma propriedade de algumas distribuições no qual a porção de distribuição para a esquerda de um valor específico é uma imagem espelho da porção para a sua direita.
- Assimetria : uma medida da extensão em que um PMF ou pdf "inclina" a um lado da sua média.
Função de distribuição cumulativa:
editarPorque uma distribuição de probabilidade Pr sobre o eixo real é determinado pela probabilidade de um escalar variável aleatória Xestar num intervalo semi-aberto (-∞, x ], a distribuição de probabilidade é completamente caracterizada pela sua função de distribuição cumulativa :
Distribuição de probabilidade discreta:
editarVeja também: função massa de probabilidade e distribuição Categorical
A função de massa de probabilidade de uma distribuição de probabilidade discreta. As probabilidades de os singletons {1}, {3} e {7} são, respectivamente, 0,2, 0,5, 0,3. Um jogo que não contenham qualquer um desses pontos tem probabilidade zero.
O cdf de uma distribuição de probabilidade discreta, ...
... De uma distribuição de probabilidade contínua, ...
... De uma distribuição que tem tanto uma parte contínua e uma parte discreta.
Uma distribuição de probabilidade discretadeve ser entendida como uma distribuição de probabilidade caracterizada por uma função de densidade de probabilidade. Assim, a distribuição de uma variável aleatória X é discreta, e X é chamado uma variável aleatória discreta , se
como u atravessa o conjunto de todos os valores possíveis de X . Assim, uma variável aleatória pode assumir apenas um finito ouinfinito contável número de valores. Para obter o número de valores possíveis de ser infinito contável, apesar de suas probabilidades resumir a 1, as probabilidades de ter de recusar a zero rápido o suficiente. por exemplo, se para n= 1, 2, ..., temos a soma das probabilidades de 1/2 + 1/4 + 1/8 + ... = 1.
Distribuições de probabilidade discretas bem conhecidos utilizados na modelagem estatística incluem adistribuição de Poisson , a distribuição de Bernoulli , a distribuição binomial , a distribuição geométrica , ea distribuição binomial negativa . Além disso, a distribuição uniforme discreta é comumente usado em programas de computador que fazem seleções aleatórias de igual probabilidade entre uma série de opções.
Meça formulação teórica:
editarA função mensurável entre um espaço de probabilidade e um espaço mensurável é chamado de variável aleatória discreta desde que a sua imagem é um conjunto contável e da pré-imagem de conjuntos únicos são mensuráveis, ou seja, para todos . O último requisito induz uma função massa de probabilidade via . Uma vez que os pré-imagens de conjuntos disjuntos são disjuntos
Isso recupera a definição dada acima.
Densidade cumulativa:
editarDe forma equivalente ao anterior, uma variável aleatória discreta pode ser definida como uma variável aleatória cuja distribuição acumulada função (CDF) aumente apenas salto descontinuidades , isto é, os seus aumentos de cdf apenas quando "salta" para um valor mais elevado, e é constante entre esses saltos. Os pontos onde ocorrem saltos são precisamente os valores que a variável aleatória pode assumir.
Representação Delta-função:
editarPor conseguinte, uma distribuição de probabilidade discreta é muitas vezes representado como uma generalizada função densidade de probabilidade que envolve funções delta de Dirac , que unifica substancialmente o tratamento das distribuições contínuas e discretas. Isto é especialmente útil quando se lida com distribuições de probabilidade que envolvem tanto a contínua e uma parte discreta.
Representação em função do indicador:
editarPara uma variável aleatória discreta X , deixe u 0 , u 1 , ... ser os valores que ele pode levar com probabilidade diferente de zero.Denotar
Estes são os conjuntos disjuntos , e pela fórmula (1)
Segue-se que a probabilidade de que X toma qualquer valor excepto para u 0 , u 1 , ... é zero, e, portanto, pode-se escrever X como
exceto em um conjunto de probabilidade zero, onde é a função de indicador de A . Isto pode servir como uma definição alternativa de variáveis aleatórias discretas.
Distribuição de probabilidade contínua:
editarVeja também: Função densidade de probabilidade
Uma distribuição de probabilidade contínua é uma distribuição de probabilidade que tem uma função de densidade de probabilidade .Os matemáticos também chamar um tal distribuição absolutamente contínua , desde a sua função de distribuição cumulativa éabsolutamente contínua com respeito à medida de Lebesgue λ . Se a distribuição de X é contínua, então X é chamado uma variável aleatória contínua . Há muitos exemplos de distribuições de probabilidade contínuas: normais , uniforme , qui-quadrado , e outros.
Intuitivamente, uma variável aleatória contínua é o que pode ter uma gama de valores contínua, em oposição a uma distribuição discreta , em que o conjunto de valores possíveis para a variável aleatória é, no máximo, contáveis . Enquanto que para uma distribuição discreta um evento com probabilidade zero é impossível (por exemplo, rolando 3 1 / 2 sobre uma matriz padrão é impossível, e tem probabilidade zero), isso não acontece no caso de uma variável aleatória contínua. Por exemplo, se mede-se a largura de uma folha de carvalho, o resultado de 3½ cm é possível; no entanto, ele tem probabilidade zero porque uncountably muitos outros valores de potencial existe ainda entre 3 cm e 4 cm. Cada um destes resultados individuais tem probabilidade zero, no entanto, a probabilidade de que o resultado vai cair no intervalo (3 cm, 4 centímetros) é diferente de zero. Este aparente paradoxo é resolvido pelo fato de que a probabilidade de que X atinge algum valor dentro de um infinitoconjunto, como um intervalo, não pode ser encontrado por ingenuamente adicionando as probabilidades de valores individuais.Formalmente, cada valor tem um infinitamente pequena probabilidade, o que estatisticamente é equivalente a zero.
Formalmente, se X é uma variável aleatória contínua, então ele tem uma função de densidade de probabilidade ƒ ( x ), e, por conseguinte, a sua probabilidade de cair num dado intervalo, dizer[ a , b ] é dada pela integral
Em particular, a probabilidade de X para assumir qualquer valor único de um (que é um ≤ X ≤ um ) é zero, porque um integrantecoincidindo com limites superior e inferior é sempre igual a zero.
Os estados de definição que a distribuição de probabilidade contínua deve possuir uma densidade, ou equivalentemente, a sua função de distribuição cumulativa ser absolutamente contínua. Esta exigência é mais forte do que simples continuidade da função de distribuição cumulativa, e há uma classe especial de distribuições, distribuições singulares , que não são nem contínuo nem discreta nem uma mistura daqueles. Um exemplo é dado pela distribuição Cantor .Essas distribuições singulares no entanto, nunca são encontrados na prática.
Nota sobre a terminologia: alguns autores usam o termo "distribuição contínua" para denotar a distribuição com a função de distribuição cumulativa contínua. Assim, a sua definição inclui ambos os (absolutamente) distribuições contínuas e singulares.
De acordo com uma convenção, uma distribuição de probabilidade é chamado contínua se a sua função de distribuição cumulativa é contínua e, por conseguinte, a medida da probabilidade únicos para todos .
Outra convenção reserva-se o prazo de distribuição de probabilidade contínua para absolutamente contínuas distribuições. Tais distribuições podem ser caracterizadas por uma função de densidade de probabilidade : um não-negativo integrável Lebesguefunção definida sobre os números reais tais que
Distribuições discretas e algumas distribuições contínuas (como adistribuição de Cantor ) não admitem tal densidade.
Algumas propriedades:
editar- A distribuição de probabilidade de a soma de duas variáveis aleatórias independentes é a convolução de cada uma das suas distribuições.
- As distribuições de probabilidade não são um espaço vetorial -não são fechados sob combinações lineares , uma vez que estes não preservam não negatividade ou 1-mas eles estão fechados sob integrais total de combinação convexa , formando assim umsubconjunto convexo medidas do espaço de funções (ou ).
Kolmogorov definição:
editarArtigos principais: espaço de probabilidade e medida de probabilidade
Na medida teórica formalização da teoria da probabilidade , umavariável aleatória é definida como uma função mensurável X a partir de um espaço de probabilidade para o espaço mensurável . Uma distribuição de probabilidade de X é a medida pushforward X * P de X , que é uma medida de probabilidade em satisfazer X * P = P X -1 .
Geração de números aleatórios:
editarVer artigo principal: amostragem de números pseudo-aleatório
Um problema frequente nas simulações estatísticas (o método de Monte Carlo ) é a geração de números pseudo-aleatórios que são distribuídos em um determinado caminho. A maior parte dos algoritmos são baseadas em um gerador de números pseudo-aleatória que produz números X que são distribuídos uniformemente no intervalo [0,1). Estes variates aleatórios X são então transformadas através de um algoritmo para criar um novo variate aleatória de distribuição de probabilidade exigida.
Aplicações:
editarO conceito da distribuição de probabilidade e as variáveis aleatóriasque eles descrevem subjacente à disciplina matemática da teoria da probabilidade e da ciência da estatística . Não é espalhada ou variabilidade em quase qualquer valor que pode ser medida numa população (por exemplo altura das pessoas, durabilidade de um metal, o crescimento de vendas, o fluxo de tráfego, etc.); quase todas as medições são feitas com algum erro intrínseco ; em física de muitos processos são descritos probabilisticamente, a partir daspropriedades cinéticas de gases para a mecânica quântica descrição de partículas elementares . Por estas e muitas outras razões, simples números são muitas vezes inadequadas para descrever a quantidade, enquanto as distribuições de probabilidade são muitas vezes mais adequado.
Como um exemplo mais específico de um aplicativo, os modelos de linguagem de cache e outros modelos de linguagem estatísticautilizados no processamento de linguagem natural para atribuir probabilidades para a ocorrência de determinadas palavras e seqüências de palavras fazê-lo por meio de distribuições de probabilidade.
Distribuições de probabilidade Comum:
editarVer artigo principal: Lista de distribuições de probabilidades
O que se segue é uma lista de algumas das distribuições mais comuns de probabilidade, agrupados por tipo de processo que eles estão relacionados com. Para obter uma lista mais completa, verlista de distribuições de probabilidade , que os grupos pela natureza do resultado a ser consideradas (discreto, contínuo, multivariada, etc.)
Note-se também que todas as distribuições univariadas abaixo são isoladamente pico; isto é, presume-se que os valores se aglomeram em torno de um único ponto. Na prática, as quantidades realmente observadas podem agrupar em torno de vários valores. Essas quantidades podem ser modelados usando uma mistura de distribuição .
Relacionado a quantidades de valor real que crescem linearmente (por exemplo, erros, offsets):
editar- A distribuição normal ( distribuição de Gauss ), para uma única tal quantidade; a distribuição contínua mais comum
Relacionado a quantidades positivas de valor real que crescem exponencialmente (por exemplo, os preços, os rendimentos, populações):
editar- Log-normal de distribuição , para um único tal quantidade cujo log é normalmente distribuído
- Distribuição de Pareto , para um único tal quantidade cujo registro é exponencialmente distribuída; o protótipo de lei de potência de distribuição
Relacionado a quantidades de valor real que são assumidos para ser distribuído uniformemente ao longo de um (possivelmente desconhecido) região:
editar- Distribuição discreta uniforme , para um conjunto finito de valores (por exemplo, o resultado de um dado honesto)
- Distribuição uniforme contínua , por valores distribuídos continuamente
Relacionado a tentativas de Bernoulli (sim / não há eventos, com uma dada probabilidade):
editar- Distribuições básicas:
- Distribuição de Bernoulli , para o resultado de um único ensaio Bernoulli (por exemplo, o sucesso / fracasso, sim / não)
- Distribuição binomial , para o número de "ocorrências positivas" (por exemplo, os sucessos, sim votos, etc.) dado um número total fixa de independentes ocorrências
- Distribuição binomial negativa , para as observações do tipo binomial, mas sempre que a quantidade de interesse é o número de falhas antes que um determinado número de sucessos ocorre
- Distribuição geométrica , para as observações do tipo binomial, mas sempre que a quantidade de interesse é o número de falhas antes do primeiro sucesso; um caso especial da distribuição binomial negativa
- Relacionados para os esquemas de amostragem sobre uma população finita:
- Distribuição Hypergeometric , para o número de "ocorrências positivas" (por exemplo, os sucessos, sim votos, etc.) dado um número fixo do total de ocorrências, utilizandoamostragem sem reposição
- Distribuição binomial-Beta , para o número de "ocorrências positivas" (por exemplo, os sucessos, sim votos, etc.) dado um número fixo do total de ocorrências, amostragem utilizando um esquema de urna Polya (em certo sentido, o "oposto" de amostragem sem reposição )
Relacionadas com os resultados categóricos (eventos com K resultados possíveis, com uma determinada probabilidade para cada resultado):
editar- Distribuição categórica , para um único resultado categórico (por exemplo, sim / não / talvez em uma pesquisa); uma generalização da distribuição de Bernoulli
- Multinominal distribuição , para o número de cada tipo de evolução categórica, dado um número fixo dos resultados totais;uma generalização da distribuição binomial
- Distribuição multivariada hypergeometric , similar à distribuição multinomial , mas usando a amostragem sem reposição ; uma generalização da distribuição hipergeométrico
Relacionado a eventos em um processo de Poisson (eventos que ocorrem de forma independente com uma determinada taxa):
editar- A distribuição de Poisson , do número de ocorrências de um evento de Poisson-tipo em um determinado período de tempo
- Distribuição exponencial , para o tempo antes de ocorrer o evento ao lado do tipo Poisson
- Distribuição Gama , para o tempo antes da próxima k eventos Poisson do tipo ocorrer
Relacionada com os valores absolutos de vetores com componentes distribuídos normalmente:
editar- Distribuição de Rayleigh , para a distribuição de magnitudes de vetores com Gaussianas componentes ortogonais distribuídos.Distribuições Rayleigh são encontrados em sinais de RF com componentes de Gauss reais e imaginários.
- Distribuição de arroz , uma generalização das distribuições Rayleigh para onde há um componente de sinal de fundo imóvel.Encontrado em desvanecimento Rician de sinais de rádio, devido à propagação multipath e em imagens de RM com a corrupção de ruído em sinais de RMN não nulos.
Relacionado a quantidades distribuídas normalmente operados com soma dos quadrados (para testes de hipóteses):
editar- Distribuição qui-quadrado , a distribuição de uma soma de quadrados padrão normais variáveis; por exemplo útil para a inferência sobre a variação da amostra de amostras normalmente distribuídos (ver teste do qui-quadrado )
- A distribuição t de Student , a distribuição da proporção de umpadrão normal variável e a raiz quadrada de uma dimensionadoqui quadrado variável; útil para a inferência sobre a média das amostras normalmente distribuídos com variância desconhecida (ver t de Student )
- F-distribuição , a distribuição de relação de dois dimensionadoqui quadrado variáveis; por exemplo útil para inferências que envolvem comparando variações ou envolvendo R-quadrado (o quadrado do coeficiente de correlação )
Útil como conjugadas distribuições anteriores em inferência bayesiana:
editarVer artigo principal: Conjugado antes
- Beta distribuição , para um único probabilidade (número real entre 0 e 1); conjugado com a distribuição de Bernoulli edistribuição binomial
- Distribuição Gama , por um parâmetro de escala não negativo;conjugado com o parâmetro da velocidade de uma distribuição de Poisson ou distribuição exponencial , a precisão (inversovariância ) de uma distribuição normal , etc.
- Distribuição Dirichlet , para um vetor de probabilidades que devem somar 1; conjugado com a distribuição categórica edistribuição multinomial ; generalização da distribuição beta
- Distribuição Wishart , para uma simétrica definitiva não negativomatriz; conjugado com o inverso da matriz de covariância de uma distribuição normal multivariada ; generalização dadistribuição gama
Referências:
editar- BS Everitt: O dicionário Cambridge de Estatística , Cambridge University Press , Cambridge (3ª edição, 2006). ISBN 0-521-69027-7
- Bispo: Reconhecimento de Padrões e Machine Learning ,Springer , ISBN 0-387-31073-8
- den Dekker AJ, Sijbers J., (2014) "distribuições de dados em imagens de ressonância magnética: uma revisão", Physica Medica , [1]
Categorias :
- As distribuições de probabilidade