Movatterモバイル変換


[0]ホーム

URL:


Přeskočit na obsah
WikipedieWikipedie: Otevřená encyklopedie
Hledání

Křížová entropie

Z Wikipedie, otevřené encyklopedie

Křížová entropie mezi dvěmarozděleními pravděpodobnostip{\displaystyle p} aq{\displaystyle q} se stejnou podkladovou množinou událostí míry je vteorii informace průměrný početbitů potřebných pro identifikaci události vybrané z množiny, jestliže kódovací schéma používané pro množinu je optimalizované pro odhadnuté rozdělení pravděpodobnostiq{\displaystyle q} místo skutečného rozděleníp{\displaystyle p}.

Definice

[editovat |editovat zdroj]

Křížová entropie rozděleníq{\displaystyle q} vůči rozděleníp{\displaystyle p} na danémnožině je definovaná takto:

H(p,q)=Ep[logq]{\displaystyle H(p,q)=-\operatorname {E} _{p}[\log q]}.

Jiná definice používáKullbackovu–Leiblerovu divergenciDKL(pq){\displaystyle D_{\mathrm {KL} }(p\|q)} rozděleníp{\displaystyle p} zq{\displaystyle q} (nebolirelativní entropie rozděleníq{\displaystyle q} vzhledem kp{\displaystyle p}):

H(p,q)=H(p)+DKL(pq){\displaystyle H(p,q)=H(p)+D_{\mathrm {KL} }(p\|q)},

kdeH(p){\displaystyle H(p)} jeentropie rozděleníp{\displaystyle p}.

Prodiskrétní pravděpodobnostní distribucep{\displaystyle p} aq{\displaystyle q} se stejnýmnosičemX{\displaystyle {\mathcal {X}}} to znamená

H(p,q)=xXp(x)logq(x){\displaystyle H(p,q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x)} (rovnice 1)

Prospojité distribuce je situace analogická. Musíme předpokládat, žep{\displaystyle p} aq{\displaystyle q} jsouabsolutně spojité vzhledem k nějaké referenčnímířer{\displaystyle r} (obvykle jer{\displaystyle r}Lebesgueova míra naBorelovskéσ-algebře). NechťP{\displaystyle P} aQ{\displaystyle Q} jsou hustoty pravděpodobností rozděleníp{\displaystyle p} aq{\displaystyle q} vzhledem kr{\displaystyle r}. Pak

XP(x)logQ(x)dr(x)=Ep[logQ]{\displaystyle -\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q]}

a tedy

H(p,q)=XP(x)logQ(x)dr(x){\displaystyle H(p,q)=-\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)} (rovnice 2)

Poznámka: NotaceH(p,q){\displaystyle H(p,q)} se používá také pro jinou veličinu,sdruženou entropii rozděleníp{\displaystyle p} aq{\displaystyle q}.

Motivace

[editovat |editovat zdroj]

Kraftova–McMillanova věta vteorii informace říká, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy identifikující jednu hodnotuxi{\displaystyle x_{i}} ze sady možností{x1,...,xn}{\displaystyle \{x_{1},...,x_{n}\}} můžeme považovat za reprezentaci implicitního rozdělení pravděpodobnostiq(xi)=(12)li{\displaystyle q(x_{i})=\left({\frac {1}{2}}\right)^{l_{i}}} pro{x1,...,xn}{\displaystyle \{x_{1},...,x_{n}\}}, kdeli{\displaystyle l_{i}} je délka kódu proxi{\displaystyle x_{i}} v bitech. Proto lze křížovouentropii interpretovat jako očekávanou délku zprávy pro zakódování jedné položky, když předpokládáme nějaké rozděleníq{\displaystyle q}, zatímco data mají ve skutečnosti rozděleníp{\displaystyle p}. To znamená, že očekávané hodnoty se berou ze skutečného rozdělení pravděpodobnostip{\displaystyle p} místo zq{\displaystyle q}. Očekávaná délka zprávy při skutečném rozděleníp{\displaystyle p} je

Ep[l]=Ep[lnq(x)ln(2)]=Ep[log2q(x)]=xip(xi)log2q(xi)=xp(x)log2q(x)=H(p,q){\displaystyle \operatorname {E} _{p}[l]=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}}{\ln(2)}}\right]=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]=-\sum _{x_{i}}p(x_{i})\,\log _{2}{q(x_{i})}=-\sum _{x}p(x)\,\log _{2}q(x)=H(p,q)}

Odhad

[editovat |editovat zdroj]

Je mnoho situací, kdy by bylo třeba měřit křížovou entropii, ale rozděleníp{\displaystyle p} je neznámé. Příkladem jejazykové modelování, kde model je vytvořen na trénovací množiněT{\displaystyle T} a jeho křížová entropie je pak měřena na testovací množině pro zhodnocení, jak je model přesný v predikci testovacích dat. V tomto příkladě jep{\displaystyle p} skutečné rozdělení slov v nějakém korpusu aq{\displaystyle q} je rozdělení slov predikované modelem. Protože skutečné rozdělení je neznámé, nelze křížovou entropii přímo spočítat. V takovém případě se odhad křížové entropie počítá pomocí vzorce:

H(T,q)=i=1N1Nlog2q(xi){\displaystyle H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})}

kdeN{\displaystyle N} je velikost testovací množiny aq(x){\displaystyle q(x)} je pravděpodobnost událostix{\displaystyle x} odhadnuté z trénovací množiny. Suma se počítá přesN{\displaystyle N}. Toto je pravděpodobnostní (Monte Carlo) odhad skutečné křížové entropie, při kterém testovací množinu považujeme za vzorek zp(x){\displaystyle p(x)}.

Vztah k logaritmické věrohodnosti

[editovat |editovat zdroj]

U klasifikačních problémů chceme odhadnout pravděpodobnost jednotlivých výsledků. Pokud odhadnutá pravděpodobnost výsledkui{\displaystyle i} jeqi{\displaystyle q_{i}}, zatímco frekvence (empirická pravděpodobnost) výsledkui{\displaystyle i} v trénovací množině jepi{\displaystyle p_{i}} a v trénovací množině je N vzorků, pak věrohodnost trénovací množiny je

iqiNpi{\displaystyle \prod _{i}q_{i}^{Np_{i}}}

a logaritmická věrohodnost vydělenáN{\displaystyle N} je

1NlogiqiNpi=ipilogqi=H(p,q){\displaystyle {\frac {1}{N}}\log \prod _{i}q_{i}^{Np_{i}}=\sum _{i}p_{i}\log q_{i}=-H(p,q)}

takže maximalizace věrohodnosti je totéž jako minimalizace křížové entropie.

Minimalizace křížové entropie

[editovat |editovat zdroj]

Minimalizace křížové entropie se často používá při optimalizaci a odhadu pravděpodobnosti řídkých událostí; vizmetoda křížové entropie.

Při porovnávání rozděleníq{\displaystyle q} s pevným referenčním rozdělenímp{\displaystyle p} jsou křížová entropie aKL divergence identické až na aditivní konstantu (protožep{\displaystyle p} je pevné): obě nabývají prop=q{\displaystyle p=q} své minimální hodnoty, která je0{\displaystyle 0} pro KL divergenci aH(p){\displaystyle \mathrm {H} (p)} pro křížovou entropii[1]. V inženýrské literatuře se postup minimalizace KL divergence (Kullbackův "Princip minimální diskriminace informace") často nazýváPrincip minimální křížové entropie (MCE, z anglickéhoPrinciple of Minimum Cross-Entropy) neboMinxent.

Jak je však diskutováno v článkuKullbackova–Leiblerova divergence, někdy je rozděleníq{\displaystyle q} fixováno před referenčním rozdělením a rozděleníp{\displaystyle p} je optimalizováno, aby bylo co nejbližší kq{\displaystyle q}, při platnosti určitých omezení. V takovém případě obě minimalizacenejsou ekvivalentní. To vedlo k určité nejednoznačnosti v literatuře, protože někteří autoři usilovali vyřešit nekonzistenci tím, že termínem křížová entropie označujíDKL(pq){\displaystyle D_{\mathrm {KL} }(p\|q)} místoH(p,q){\displaystyle H(p,q)}.

Nákladová funkce křížové entropie a logistická regrese

[editovat |editovat zdroj]

Křížovou entropii lze použít pro definování nákladové funkce přistrojovém učení aoptimalizaci. Skutečná pravděpodobnostpi{\displaystyle p_{i}} je skutečný popisek a dané rozděleníqi{\displaystyle q_{i}} je predikovanou hodnotou současného modelu.

Konkrétněji uvažujmelogistickou regresi, kterou lze (mimo jiné) použít pro klasifikaci pozorování do dvou možných tříd (často značených0{\displaystyle 0} a1{\displaystyle 1}). Výstup modelu pro určité pozorování dané vektorem vstupních vlastnostíx{\displaystyle x} lze interpretovat jako pravděpodobnost, což slouží jako základ pro klasifikaci pozorování. Pravděpodobnost je znázorněna pomocílogistické funkceg(z)=1/(1+ez){\displaystyle g(z)=1/(1+e^{-z})} kdez{\displaystyle z} je nějaká funkce vstupního vektorux{\displaystyle x}, obvykle pouzelineární funkce. Pravděpodobnost výstupuy=1{\displaystyle y=1} je

qy=1 = y^  g(wx) =1/(1+ewx),{\displaystyle q_{y=1}\ =\ {\hat {y}}\ \equiv \ g(\mathbf {w} \cdot \mathbf {x} )\ =1/(1+e^{-\mathbf {w} \cdot \mathbf {x} }),}

kde vektor vahw{\displaystyle \mathbf {w} } je optimalizován pomocí nějakého vhodného algoritmu, jako napříkladmetodou gradientního spádu. Podobně komplementární pravděpodobnost hledání výstupy=0{\displaystyle y=0} je

qy=0 = 1y^{\displaystyle q_{y=0}\ =\ 1-{\hat {y}}}

Při použití notacep{y,1y}{\displaystyle p\in \{y,1-y\}} aq{y^,1y^}{\displaystyle q\in \{{\hat {y}},1-{\hat {y}}\}} můžeme používat křížovou entropii pro získání míry odlišnosti mezip{\displaystyle p} aq{\displaystyle q}:

H(p,q) = ipilogqi = ylogy^(1y)log(1y^){\displaystyle H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}})}

Typická nákladová funkce, kterou používáme v logistické regresi, se počítá jako průměr všech křížových entropií ve vzorku. Pokud například mámeN{\displaystyle N} vzorků indexovanýchn=1,,N{\displaystyle n=1,\dots ,N}, bude nákladová funkce

J(w) = 1Nn=1NH(pn,qn) = 1Nn=1N [ynlogy^n+(1yn)log(1y^n)],{\displaystyle {\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}}

kdey^ng(wxn)=1/(1+ewxn){\displaystyle {\hat {y}}_{n}\equiv g(\mathbf {w} \cdot \mathbf {x} _{n})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{n}})} ag(z){\displaystyle g(z)} je logistická funkce stejně jako výše.

Logistická ztráta se někdy nazývá ztráta křížové entropie nebo logaritmická ztráta (V tomto případě se třídy zpravidla označují hodnotami {-1,+1})[2].

Odkazy

[editovat |editovat zdroj]

Reference

[editovat |editovat zdroj]

V tomto článku byl použitpřeklad textu z článkucross entropy na anglické Wikipedii.

  1. GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron.Deep Learning. [s.l.]: MIT Press, 2016.Dostupné online. 
  2. MURPHY, Kevin.Machine Learning: A Probabilistic Perspective. [s.l.]: MIT, 2012.ISBN 978-0262018029. 

Související články

[editovat |editovat zdroj]

Externí odkazy

[editovat |editovat zdroj]
Citováno z „https://cs.wikipedia.org/w/index.php?title=Křížová_entropie&oldid=24572288
Kategorie:
Skryté kategorie:

[8]ページ先頭

©2009-2025 Movatter.jp