• 交叉熵

    編輯
    本詞條由“匿名用戶” 建檔。

    目錄

    交叉熵

    編輯

    在信息論中,兩個概率分布 p {\displaystyle p} 和 q {\displaystyle q} 在相同的基礎事件集上的交叉熵測量識別從集合中提取的事件所需的平均位數,如果 用于該集合的編碼方案針對估計的概率分布 q {\displaystyle q} 而不是真實分布 p {\displaystyle p} 進行了優化。

    定義

    編輯

    分布 q {\displaystyle q} 相對于給定集合上的分布 p {\displaystyle p} 的交叉熵定義如下:

    H ( p , q ) = ? E p ? [ log ? q ] {\displaystyle H(p,q)=-\operatorname {E} _{p}[\log q]} ,

    其中 E p [ ? ] {\displaystyle E_{p}[\cdot ]} 是關于分布 p {\displaystyle p} 的期望值算子。

    該定義可以使用 Kullback–Leibler 散度 D K L ( p ∥ q ) {\displaystyle D_{\mathrm {KL} }(p\parallel q)} , p {\displaystyle p} 來自 q 的散度來表述 {\displaystyle q}(也稱為 p {\displaystyle p} 相對于 q {\displaystyle q} 的相對熵)。

    H ( p , q ) = H ( p ) + D K L ( p ∥ q ) , {\displaystyle H(p,q)=H(p)+D_{\mathrm {KL} }(p\parallel q ),}

    其中 H ( p ) {\displaystyle H(p)} 是 p {\displaystyle p} 的熵。

    對于具有相同支持 X {\displaystyle {\mathcal {X}}} 的離散概率分布 p {\displaystyle p} 和 q {\displaystyle q} 這意味著

    (等式 1)

    連續分布的情況是類似的。 我們必須假設 p {\displaystyle p} 和 q {\displaystyle q} 相對于一些參考測度 r {\displaystyle r} 是xxx連續的(通常 r {\displaystyle r} 是關于 a Borel σ-代數)。 設 P {\displaystyle P} 和 Q {\displaystyle Q} 是 p {\displaystyle p} 和 q {\displaystyle q} 關于 r {\displaystyle r} 的概率密度函數。 然后

    ? ∫ X P ( x ) log ? Q ( x ) d r ( x ) = E p ? [ ? log ? Q ] {\displaystyle -\int _{\mathcal {X}}P(x)\, \log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q]}

    因此

    (等式 2)

    注意:符號 H ( p , q ) {\displaystyle H(p,q)} 也用于不同的概念,即 p {\displaystyle p} 和 q {\displaystyle q} 的聯合熵

    動機

    編輯

    在信息論中,Kraft–McMillan 定理確立了任何可直接解碼的編碼方案,用于編碼消息以從一組可能性中識別一個值 x i {\displaystyle x_{i}} { x 1 , … , x n } { displaystyle \{x_{1},\ldots ,x_{n}\}} 可以被視為表示隱式概率分布 q ( x i ) = ( 1 2 ) ? i {\displaystyle q(x_{ i})=\left({\frac {1}{2}}\right){\ell _{i}}} 在 { x 1 , … , x n } {\displaystyle \{x_ {1},\ldots ,x_{n}\}} ,其中 ? i {\displaystyle \ell _{i}} 是 x i {\displaystyle x_{i}} 在 位。 因此,當假定錯誤分布 q {\displaystyle q} 而數據實際上遵循分布 p {\displaystyle p} 時,交叉熵可以解釋為每個數據的預期消息長度。 這就是為什么期望取而代之的是真實概率分布 p {\displaystyle p} 而不是 q {\displaystyle q} 。 實際上,真實分布 p {\displaystyle p} 下的預期消息長度是

    E p ? [ ? ] = ? E p ? [ ln ? q ( x ) ln ? ( 2 ) ] = ? E p ? [ log 2 ? q ( x ) ] = ? ∑ x i p ( x i ) log 2 ? q ( x i ) = ? ∑ x p ( x ) log 2 ? q ( x ) = H ( p , q ) 。 {\displaystyle \operatorname {E} _{p}[\ell ]=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}} {\ln(2)}}\right]=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]=-\ 總和 _{x_{i}}p(x_{i})\,\log _{2}q(x_{i})=-\總和 _{x}p(x)\,\ log _{2}q(x)=H(p,q).}

    估計

    編輯

    有很多情況需要測量交叉熵,但 p {\displaystyle p} 的分布是未知的。 一個例子是語言建模,其中基于訓練集 T {\displaystyle T} 創建模型,然后在測試集上測量其交叉熵以評估模型在預測測試數據時的準確性。 在此示例中,p {\displaystyle p} 是任何語料庫中單詞的真實分布,而 q {\displaystyle q} 是模型預測的單詞分布。 由于真實分布未知,因此無法直接計算交叉熵。 在這些情況下,使用以下公式計算交叉熵的估計值:

    交叉熵

    H ( T , q ) = ? ∑ i = 1 N 1 N log 2 ? q ( x i ) {\displaystyle H(T,q)=-\sum _{i=1}{N}{\frac {1}{N}}\log _{2}q(x_{i})}

    其中 N {\displaystyle N} 是測試集的大小,q ( x ) {\displaystyle q(x)} 是從訓練集中估計的事件 x {\displaystyle x} 的概率。 換句話說,q ( x i ) {\displaystyle q(x_{i})} 是模型的概率估計,即文本的第 i 個詞是 x i {\displaystyle x_{i}} 。 總和是測試的 N {\displaystyle N} 個單詞的平均值。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/217556/

    (1)
    詞條目錄
    1. 交叉熵
    2. 定義
    3. 動機
    4. 估計

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久