Podmíněná entropie

Vennův diagram ukazující aditivní a subtraktivní vztahy různých informačních měr přiřazených ke korelovaným proměnným X {\displaystyle X} a Y {\displaystyle Y} . Plocha pokrytá některou z kružnic je sdružená entropie H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} . Kružnice vlevo (červená a fialová) je entropie H ( X ) {\displaystyle \mathrm {H} (X)} , přičemž červená je podmíněná entropie H ( X | Y ) {\displaystyle \mathrm {H} (X|Y)} . Kružnice vpravo (modrá a fialová) je H ( Y ) {\displaystyle \mathrm {H} (Y)} , přičemž modrá je H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} . Fialová je vzájemná informace I ( X ; Y ) {\displaystyle \operatorname {I} (X;Y)} .

Podmíněná entropie (anglicky conditional entropy) v teorii informace kvantifikuje množství informace potřebné pro popsání výsledku náhodného pokusu Y {\displaystyle Y} , pokud je známá hodnota jiné náhodné proměnné X {\displaystyle X} . Měří se stejně jako informační entropie v bitech (kterým se v této souvislosti také říká „shannons“), někdy v „přirozených jednotkách“ (natech) nebo v desítkových číslicích (nazývaný „dits“, „bans“ nebo „hartleys“). Jednotka měření závisí na základu logaritmu použitého pro výpočet entropie.

Entropii Y {\displaystyle Y} podmíněnou X {\displaystyle X} zapisujeme H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} , kde H {\displaystyle \mathrm {H} } je velké řecké písmeno Éta.

Definice

Podmíněná entropie Y {\displaystyle Y} , je-li dáno X {\displaystyle X} , je definována jako

H ( Y | X )   = x X , y Y p ( x , y ) log p ( x , y ) p ( x ) {\displaystyle \mathrm {H} (Y|X)\ =-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}}

 

 

 

 

(1)

kde X {\displaystyle {\mathcal {X}}} a Y {\displaystyle {\mathcal {Y}}} označuje nosič náhodných proměnných X {\displaystyle X} a Y {\displaystyle Y} .

Poznámka: při výpočtech se neurčité výrazy 0 log 0 {\displaystyle 0\log 0} a 0 log c / 0 {\displaystyle 0\log c/0} pro pevné c > 0 {\displaystyle c>0} považují za rovné nule, protože lim θ 0 + θ log c / θ = 0 {\displaystyle \lim _{\theta \to 0^{+}}\theta \,\log \,c/\theta =0} a lim θ 0 + θ log θ = 0 {\displaystyle \lim _{\theta \to 0^{+}}\theta \,\log \theta =0} .[1]

Intuitivní vysvětlení definice: Podle definice platí, že H ( Y | X ) = E (   f ( X , Y )   ) {\displaystyle \displaystyle H(Y|X)=\mathbb {E} (\ f(X,Y)\ )} kde f : ( x , y )   log (   p ( y | x )   ) . {\displaystyle \displaystyle f:(x,y)\ \rightarrow -\log(\ p(y|x)\ ).} f {\displaystyle \displaystyle f} přiřazuje dvojici ( x , y ) {\displaystyle \displaystyle (x,y)} informační obsah ( Y = y ) {\displaystyle \displaystyle (Y=y)} , je-li dáno ( X = x ) {\displaystyle \displaystyle (X=x)} , což je množství informace potřebné pro popsání události ( Y = y ) {\displaystyle \displaystyle (Y=y)} , je-li dáno ( X = x ) {\displaystyle (X=x)} . Podle zákona velkýich čísel, H ( Y | X ) {\displaystyle \displaystyle H(Y|X)} je aritmetický průměr velkého počtu nezávislých realizací f ( X , Y ) {\displaystyle \displaystyle f(X,Y)} .

Motivace

Nechť H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} je entropie diskrétní náhodné proměnné Y {\displaystyle Y} podmíněná tím, že diskrétní náhodná proměnná X {\displaystyle X} nabývá hodnotu x {\displaystyle x} . Označme nosiče funkcí X {\displaystyle X} a Y {\displaystyle Y} X {\displaystyle {\mathcal {X}}} a Y {\displaystyle {\mathcal {Y}}} . Nechť Y {\displaystyle Y} pravděpodobnostní funkci p Y ( y ) {\displaystyle p_{Y}{(y)}} . Nepodmíněná entropie Y {\displaystyle Y} se spočítá jako H ( Y ) := E [ I ( Y ) ] {\displaystyle \mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]} , tj.

H ( Y ) = y Y P r ( Y = y ) I ( y ) = y Y p Y ( y ) log 2 p Y ( y ) , {\displaystyle \mathrm {H} (Y)=\sum _{y\in {\mathcal {Y}}}{\mathrm {Pr} (Y=y)\,\mathrm {I} (y)}=-\sum _{y\in {\mathcal {Y}}}{p_{Y}(y)\log _{2}{p_{Y}(y)}},}

kde I ( y i ) {\displaystyle \operatorname {I} (y_{i})} je informační obsah toho, že výsledek Y {\displaystyle Y} má hodnotu y i {\displaystyle y_{i}} . Entropie Y {\displaystyle Y} podmíněná tím, že X {\displaystyle X} nabývá hodnotu x {\displaystyle x} , je definována podobně podmíněné očekávání:

H ( Y | X = x ) = y Y Pr ( Y = y | X = x ) log 2 Pr ( Y = y | X = x ) . {\displaystyle \mathrm {H} (Y|X=x)=-\sum _{y\in {\mathcal {Y}}}{\Pr(Y=y|X=x)\log _{2}{\Pr(Y=y|X=x)}}.}

Pamatujte, že H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} je výsledek průměrování H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} přes všechny možné hodnoty x {\displaystyle x} , kterých může nabývat X {\displaystyle X} . Také pokud se výše uvedený součet bere přes vzorek y 1 , , y n {\displaystyle y_{1},\dots ,y_{n}} , očekávaná hodnota E X [ H ( y 1 , , y n X = x ) ] {\displaystyle E_{X}[\mathrm {H} (y_{1},\dots ,y_{n}\mid X=x)]} je známa v nějakém oboru jako ekvivokace (anglicky equivocation).[2]

Jsou-li dány diskrétní náhodné proměnné X {\displaystyle X} s obrazem X {\displaystyle {\mathcal {X}}} a Y {\displaystyle Y} s obrazem Y {\displaystyle {\mathcal {Y}}} , podmíněná entropie Y {\displaystyle Y} , je-li dáno X {\displaystyle X} se definuje jako vážený součet H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} pro každou možnou hodnotu x {\displaystyle x} , s použitím p ( x ) {\displaystyle p(x)} jako váhy:[3]:s.15

H ( Y | X )   x X p ( x ) H ( Y | X = x ) = x X p ( x ) y Y p ( y | x ) log p ( y | x ) = x X y Y p ( x , y ) log p ( y | x ) = x X , y Y p ( x , y ) log p ( y | x ) = x X , y Y p ( x , y ) log p ( x , y ) p ( x ) . = x X , y Y p ( x , y ) log p ( x ) p ( x , y ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}}


Vlastnosti

Nulová podmíněná entropie

H ( Y | X ) = 0 {\displaystyle \mathrm {H} (Y|X)=0} právě tehdy, když hodnota Y {\displaystyle Y} je úplně určena hodnotou X {\displaystyle X} .

Podmíněná entropie of nezávislý náhodné proměnné

Naopak H ( Y | X ) = H ( Y ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)} právě tehdy, když Y {\displaystyle Y} a X {\displaystyle X} jsou nezávislé náhodné proměnné.

Řetízkové pravidlo

Předpokládejme, že kombinovaný systém určený dvěma náhodnými proměnnými X {\displaystyle X} a Y {\displaystyle Y} má sdruženou entropii H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} , tj. potřebujeme průměrně H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} bitů informace pro popsání jeho přesného stavu. Pokud nejdříve zjistíme hodnotu X {\displaystyle X} , získali jsme H ( X ) {\displaystyle \mathrm {H} (X)} bitů informace. Pokud je X {\displaystyle X} známé, potřebujeme pouze H ( X , Y ) H ( X ) {\displaystyle \mathrm {H} (X,Y)-\mathrm {H} (X)} bitů pro popsání stavu celého systému. Tato hodnota se přesně rovná H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} , kterou dává řetízkové pravidlo podmíněné entropie:

H ( Y | X ) = H ( X , Y ) H ( X ) . {\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).} [3]:s.17

řetízkové pravidlo vyplývá z výše uvedené definice podmíněné entropie:

H ( Y | X ) = x X , y Y p ( x , y ) log ( p ( x ) p ( x , y ) ) = x X , y Y p ( x , y ) ( log ( p ( x ) ) log ( p ( x , y ) ) ) = x X , y Y p ( x , y ) log ( p ( x , y ) ) + x X , y Y p ( x , y ) log ( p ( x ) ) = H ( X , Y ) + x X p ( x ) log ( p ( x ) ) = H ( X , Y ) H ( X ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)(\log(p(x))-\log(p(x,y)))\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}}

Řetízkové pravidlo platí obecně pro více náhodné proměnné:

H ( X 1 , X 2 , , X n ) = i = 1 n H ( X i | X 1 , , X i 1 ) {\displaystyle \mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})} [3]:s.22

Tento vztah se podobá řetízkovému pravidlu z teorie pravděpodobnosti, ale místo násobení využívá sčítání.

Bayesovo pravidlo

Bayesovo pravidlo pro podmíněnou entropii říká

H ( Y | X ) = H ( X | Y ) H ( X ) + H ( Y ) . {\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).}

Důkaz: H ( Y | X ) = H ( X , Y ) H ( X ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)} a H ( X | Y ) = H ( Y , X ) H ( Y ) {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)} . Symetrie má za následek H ( X , Y ) = H ( Y , X ) {\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)} . Odečtením obou rovnic dostaneme Bayesovo pravidlo.

Pokud Y {\displaystyle Y} je podmíněně nezávislé na Z {\displaystyle Z} , je-li dáno X {\displaystyle X} máme:

H ( Y | X , Z ) = H ( Y | X ) . {\displaystyle \mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).}

Další vlastnosti

Pro jakékoli X {\displaystyle X} a Y {\displaystyle Y} :

H ( Y | X ) H ( Y ) H ( X , Y ) = H ( X | Y ) + H ( Y | X ) + I ( X ; Y ) , H ( X , Y ) = H ( X ) + H ( Y ) I ( X ; Y ) , I ( X ; Y ) H ( X ) , {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}}

kde I ( X ; Y ) {\displaystyle \operatorname {I} (X;Y)} je vzájemná informace mezi X {\displaystyle X} a Y {\displaystyle Y} .

Pro nezávislé X {\displaystyle X} a Y {\displaystyle Y} :

H ( Y | X ) = H ( Y ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)} a H ( X | Y ) = H ( X ) {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)\,}

Přestože určitá podmíněná entropie H ( X | Y = y ) {\displaystyle \mathrm {H} (X|Y=y)} může být menší i větší než H ( X ) {\displaystyle \mathrm {H} (X)} pro dané náhodné variace y {\displaystyle y} Y {\displaystyle Y} , H ( X | Y ) {\displaystyle \mathrm {H} (X|Y)} nemůže nikdy přesáhnout H ( X ) {\displaystyle \mathrm {H} (X)} .

Podmíněná diferenciální entropie

Definice

Výše uvedená definice platí pro diskrétní náhodné proměnné. Spojitá verze diskrétní podmíněné entropie se nazývá podmíněná diferenciální (nebo spojitá) entropie. Nechť X {\displaystyle X} a Y {\displaystyle Y} jsou spojité náhodné proměnné se sdruženou hustotou pravděpodobnosti f ( x , y ) {\displaystyle f(x,y)} . Diferenciální podmíněná entropie h ( X | Y ) {\displaystyle h(X|Y)} se definuje takto[3]:s.249

h ( X | Y ) = X , Y f ( x , y ) log f ( x | y ) d x d y {\displaystyle h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy}

 

 

 

 

(2)

Vlastnosti

Oproti podmíněné entropii pro diskrétní náhodné proměnné může být podmíněná diferenciální entropie záporná.

Stejně jako v diskrétním případě platí řetízkové pravidlo pro diferenciální entropii:

h ( Y | X ) = h ( X , Y ) h ( X ) {\displaystyle h(Y|X)\,=\,h(X,Y)-h(X)} [3]:s.253

Toto pravidlo však neplatí, pokud se příslušné diferenciální entropie neexistují nebo jsou nekonečné.

Sdružené diferenciální entropie se také používají v definici vzájemné informace mezi spojitými náhodnými proměnnými:

I ( X , Y ) = h ( X ) h ( X | Y ) = h ( Y ) h ( Y | X ) {\displaystyle \operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)}

h ( X | Y ) h ( X ) {\displaystyle h(X|Y)\leq h(X)} , přičemž rovnost nastává právě tehdy, když X {\displaystyle X} a Y {\displaystyle Y} jsou nezávislé.[3]:s.253

Vztah k chybě odhad

Podmíněné diferenciální entropie dává spodní mez očekávané druhé mocniny chyby odhadu. Pro jakoukoli náhodnou proměnnou X {\displaystyle X} , pozorování Y {\displaystyle Y} a odhad X ^ {\displaystyle {\widehat {X}}} platí:[3]:s.255

E [ ( X X ^ ( Y ) ) 2 ] 1 2 π e e 2 h ( X | Y ) {\displaystyle \mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}}

Což se podobá principu neurčitosti z kvantové mechaniky.

Zobecnění na kvantovou teorii

V kvantové teorii informace se podmíněná entropie zobecňuje na podmíněnou kvantovou entropii, která na rozdíl od svého klasického protějšku může nabývat záporných hodnot.

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Conditional entropy na anglické Wikipedii.

  1. David MacKay: Information Theory, Pattern Recognition and Neural Networks: The Book [online]. [cit. 2019-10-25]. Dostupné online. 
  2. HELLMAN, M.; RAVIV, J. Probability of error, equivocation, and the Chernoff bound. IEEE Transactions on Information Theory. 1970, roč. 16, čís. 4, s. 368–372. 
  3. a b c d e f g COVER, Thomas M. Elements of Information Theory. [s.l.]: [s.n.], 1991. Dostupné online. ISBN 0-471-06259-6. 

Související články