Distribuição de probabilidade condicional

Uma distribuição de probabilidade conjunta com os valores observados.
Teoria das probabilidades
  • Axiomas de probabilidade
  • v
  • d
  • e

Na teoria da probabilidade e estatística, dadas duas variáveis aleatórias X {\displaystyle X} e Y {\displaystyle Y} distribuídas conjuntamente, a distribuição de probabilidade condicional de Y {\displaystyle Y} dado X {\displaystyle X} é a distribuição de probabilidade de Y {\displaystyle Y} quando X {\displaystyle X} é um determinado valor conhecido. Em alguns casos, as probabilidades condicionais podem ser expressas como funções contendo um valor não especificado x {\displaystyle x} de X {\displaystyle X} como um parâmetro. No caso em que ambos X {\displaystyle X} e Y {\displaystyle Y} são variáveis categóricas, uma tabela de probabilidade condicional é normalmente usada para representar a probabilidade condicional. A distribuição condicional contrasta com a distribuição marginal de uma variável aleatória, que é a distribuição sem referência para o valor da outra variável.

Se a distribuição condicional de Y {\displaystyle Y} dado X {\displaystyle X} é uma distribuição contínua, então a sua função densidade de probabilidade é conhecida como a função densidade condicional. As propriedades de uma distribuição condicional, tal como o momento, são muitas vezes chamadas por nomes correspondentes, tais como média condicional e variância condicional.

Geralmente, pode-se referir a distribuição condicional de um subconjunto de um conjunto de mais de duas variáveis; esta distribuição condicional é contingente sobre os valores de todas as variáveis restantes, e se mais do que uma variável é incluída no subconjunto então esta distribuição condicional é a distribuição conjunta condicional das variáveis.

Distribuições discretas

Para variáveis aleatórias discretas, a função massa de probabilidade condicional de Y {\displaystyle Y} dada a ocorrência do valor x {\displaystyle x} de X {\displaystyle X} pode ser escrita de acordo com a sua definição como:

p Y ( y X = x ) = P ( Y = y X = x ) = P ( X = x   Y = y ) P ( X = x ) {\displaystyle p_{Y}(y\mid X=x)=P(Y=y\mid X=x)={\frac {P(X=x\ \cap Y=y)}{P(X=x)}}} .

Devido à ocorrência de P ( X = x ) {\displaystyle P(X=x)}  em um denominador, isto é definido apenas para não-nulos (portanto, estritamente positivos) P ( X = x ) {\displaystyle P(X=x)} .[1]

A relação com a distribuição de probabilidade de X {\displaystyle X} dado Y {\displaystyle Y} é:

P ( Y = y X = x ) P ( X = x ) = P ( X = x   Y = y ) = P ( X = x Y = y ) P ( Y = y ) {\displaystyle P(Y=y\mid X=x)P(X=x)=P(X=x\ \cap Y=y)=P(X=x\mid Y=y)P(Y=y)} .

Distribuições contínuas

Da mesma forma, para variáveis aleatórias contínuas, a função de densidade de probabilidade condicional de Y {\displaystyle Y} dada a ocorrência do valor x {\displaystyle x} de X {\displaystyle X} pode ser escrita como

{\displaystyle } f Y ( y X = x ) = f X , Y ( x , y ) f X ( x ) {\displaystyle f_{Y}(y\mid X=x)={\frac {f_{X,Y}(x,y)}{f_{X}(x)}}} ,

onde f X , Y ( x , y ) {\displaystyle f_{X,Y}(x,y)} dá a densidade conjunta de X {\displaystyle X} e Y {\displaystyle Y} , enquanto que f X ( x ) {\displaystyle f_{X}(x)} dá a densidade marginal de X {\displaystyle X} . Também neste caso é necessário que f X ( x ) > 0 {\displaystyle f_{X}(x)>0} .

A relação com a distribuição de probabilidade de X {\displaystyle X} dado Y {\displaystyle Y} é dada por:

f Y ( y X = x ) f X ( x ) = f X , Y ( x , y ) = f X ( x Y = y ) f Y ( y ) {\displaystyle f_{Y}(y\mid X=x)f_{X}(x)=f_{X,Y}(x,y)=f_{X}(x\mid Y=y)f_{Y}(y)} .[2]

O conceito de uma distribuição condicional de uma variável aleatória contínua não é tão intuitivo quanto parece: o paradoxo de Borel mostra que funções densidade de probabilidade condicionais não precisam ser invariantes sob transformações de coordenadas.

Relação com a independência

As variáveis aleatórias X {\displaystyle X} , Y {\displaystyle Y} são independentes se e somente se a distribuição condicional de Y {\displaystyle Y} dado X {\displaystyle X} é, para todos os valores possíveis de X {\displaystyle X} , igual à distribuição não condicional de Y {\displaystyle Y} . Para variáveis aleatórias discretas isto significa que P ( Y = y | X = x ) = P ( Y = y ) {\displaystyle P(Y=y|X=x)=P(Y=y)} para todos os x {\displaystyle x} e y {\displaystyle y} . Para variáveis aleatórias contínuas X {\displaystyle X} e Y {\displaystyle Y} , tendo uma função de densidade conjunta, isso significa que f Y ( y | X = x ) = f Y ( y ) {\displaystyle f_{Y}(y|X=x)=f_{Y}(y)} para todos os x {\displaystyle x} e y {\displaystyle y} .

Propriedades

Visto como uma função de y {\displaystyle y} para um dado x {\displaystyle x} , P ( Y = y | X = x ) {\displaystyle P(Y=y|X=x)} é uma probabilidade e, portanto, a soma de todos os y {\displaystyle y} (ou a integral, se é uma densidade de probabilidade condicional) é igual a 1. Visto como uma função de x {\displaystyle x} dado y {\displaystyle y} é uma função de verossimilhança, de modo que a soma de todos os x {\displaystyle x} não precisa ser 1.

Formulação teórica

Seja ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} um espaço de probabilidade, G F {\displaystyle {\mathcal {G}}\subseteq {\mathcal {F}}} um campo- σ {\displaystyle \sigma } em F {\displaystyle {\mathcal {F}}} , e X : Ω R {\displaystyle X:\Omega \to \mathbb {R} } uma variável aleatória de valor real (mensurável a respeito do campo- σ {\displaystyle \sigma } de Borel R 1 {\displaystyle {\mathcal {R}}^{1}} em R {\displaystyle \mathbb {R} } ). Pode se mostrar que existe uma função μ : R 1 × Ω R {\displaystyle \mu :{\mathcal {R}}^{1}\times \Omega \to \mathbb {R} } tal que μ ( , ω ) {\displaystyle \mu (\cdot ,\omega )} é a medida de probabilidade em R 1 {\displaystyle {\mathcal {R}}^{1}} para cada ω Ω {\displaystyle \omega \in \Omega } (isto é, é regular) e μ ( H , ) = P ( X H G ) {\displaystyle \mu (H,\cdot )=P(X\in H\mid {\mathcal {G}})} (quase certamente) para todo H R 1 {\displaystyle H\in {\mathcal {R}}^{1}} . Para qualquer ω Ω {\displaystyle \omega \in \Omega } , a função μ ( , ω ) : R 1 R {\displaystyle \mu (\cdot ,\omega ):{\mathcal {R}}^{1}\to \mathbb {R} } é chamada de distribuição de probabilidade condicional de X {\displaystyle X} dado G {\displaystyle {\mathcal {G}}} . Neste caso,

E [ X G ] = x μ ( d x , ) {\displaystyle E[X\mid {\mathcal {G}}]=\int _{-\infty }^{\infty }x\,\mu (dx,\cdot )}

quase certamente.[3]

Relação com a expectativa condicional

Para qualquer evento A A B {\displaystyle A\in {\mathcal {A}}\supseteq {\mathcal {B}}} , definindo a função indicadora:

1 A ( ω ) = { 1 se  ω A , 0 se  ω A , {\displaystyle \mathbf {1} _{A}(\omega )={\begin{cases}1\;&{\text{se }}\omega \in A,\\0\;&{\text{se }}\omega \notin A,\end{cases}}}

que é uma variável aleatória. Observe que a expectativa dessa variável aleatória é igual à probabilidade de A {\displaystyle A} em si:

E ( 1 A ) = P ( A ) {\displaystyle \operatorname {E} (\mathbf {1} _{A})=\operatorname {P} (A)} .

Então, a probabilidade condicional dado B {\displaystyle {\mathcal {B}}} é uma função P ( B ) : A × Ω ( 0 , 1 ) {\displaystyle \operatorname {P} (\cdot \mid {\mathcal {B}}):{\mathcal {A}}\times \Omega \to (0,1)} de tal forma que P ( A B ) {\displaystyle \operatorname {P} (A\mid {\mathcal {B}})} é a expectativa condicional da função indicadora para A {\displaystyle A} :

P ( A B ) = E ( 1 A B ) {\displaystyle \operatorname {P} (A\mid {\mathcal {B}})=\operatorname {E} (\mathbf {1} _{A}\mid {\mathcal {B}})}

Em outras palavras, P ( A B ) {\displaystyle \operatorname {P} (A\mid {\mathcal {B}})} é uma função B {\displaystyle {\mathcal {B}}} -mensurável que satisfaz

B P ( A B ) ( ω ) d P ( ω ) = P ( A B ) para todo A A , B B {\displaystyle \int _{B}\operatorname {P} (A\mid {\mathcal {B}})(\omega )\,\mathrm {d} \operatorname {P} (\omega )=\operatorname {P} (A\cap B)\qquad {\text{para todo}}\quad A\in {\mathcal {A}},B\in {\mathcal {B}}} .

A probabilidade condicional é regular se P ( B ) ( ω ) {\displaystyle \operatorname {P} (\cdot \mid {\mathcal {B}})(\omega )} é também uma medida da probabilidade para todo ω Ω {\displaystyle \omega \in \Omega } . Uma expectativa de uma variável aleatória em relação a uma probabilidade condicional regular é igual a sua expectativa condicional.

  • Para o sigma-álgebra trivial B = { , Ω } {\displaystyle {\mathcal {B}}=\{\emptyset ,\Omega \}} a probabilidade condicional é uma função constante, P ( A { , Ω } ) P ( A ) {\displaystyle \operatorname {P} \!\left(A\mid \{\emptyset ,\Omega \}\right)\equiv \operatorname {P} (A)} .
  • Para A B {\displaystyle A\in {\mathcal {B}}} , como descrito acima, P ( A B ) = 1 A {\displaystyle \operatorname {P} (A\mid {\mathcal {B}})=1_{A}} .

Veja também

Referências

  1. Liberal, Tarciana. Distribuições Condicionais. Curso de Probabilidade II, Aula 11, Departamento de Estatística da UFPB.
  2. Wooldridge, Jeffrey M. Introdução À Econometria - Uma Abordagem Moderna (PDF) 4ª ed. [S.l.]: Thomson 
  3. Billingsley, Patrick (1995). Probability and Measure 3rd ed. New York: John Wiley and Sons 
  • Portal de probabilidade e estatística
  • Portal da matemática