機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.15(標準)

問題

多変量ガウス分布{\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})エントロピー

\begin{eqnarray}
{\rm H}[{\bf x}]=\frac{1}{2}\ln|{\bf\Sigma}|+\frac{D}{2}(1+\ln(2\pi))\tag{2.283}
\end{eqnarray}
となることを示せ。
ただし、D{\bf x}の次元数である。

解答

先に解答で使う式を書いておきます。
※本問題の解答の期待値は、p({\bf x})={\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})に関する期待値なので、\langle\rangle_{p({\bf x})}と書くべきですが、
\langle\rangle確率密度関数を省略しています。

\begin{eqnarray}
&&\langle{\bf x}\rangle={\boldsymbol\mu}\tag{1}\\
&&\langle{\bf x}{\bf x}^\top\rangle={\boldsymbol\mu}{\boldsymbol\mu}^\top+{\bf\Sigma}\tag{2}\\
&&{\rm Tr}({\bf A}{\bf B})={\rm Tr}({\bf B}{\bf A})\tag{3}
\end{eqnarray}
(1)は多変量ガウス分布の期待値です。
(2)は多変量ガウス分布の共分散の式より求まります。

{\rm H}[{\bf x}]を計算していきます。

\begin{eqnarray}
{\rm H}[{\bf x}]&=&-\langle\ln{\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})\rangle\\
&=&-\left\langle\ln\frac{1}{\sqrt{(2\pi)^D|{\bf\Sigma}|}}\exp\left(({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})\right)\right\rangle\\
&=&\frac{1}{2}\left(\langle({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})\rangle+\ln|{\bf\Sigma}|+D\ln2\pi\right)\tag{4}
\end{eqnarray}

(4)\langle({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})\rangleを計算します。

\begin{eqnarray}
&&\langle({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})\rangle\\
&=&{\rm Tr}(\langle({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})\rangle)\\
&=&{\rm Tr}(\langle({\bf x}-{\boldsymbol\mu})({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}\rangle)\\
&=&{\rm Tr}(\langle({\bf x}-{\boldsymbol\mu})({\bf x}^\top-{\boldsymbol\mu}^\top){\bf\Sigma}^{-1}\rangle)\\
&=&{\rm Tr}(\langle({\bf x}{\bf x}^\top-{\bf x}{\boldsymbol\mu}^\top-{\boldsymbol\mu}{\bf x}^\top+{\boldsymbol\mu}{\boldsymbol\mu}^\top){\bf\Sigma}^{-1}\rangle)\\
&=&{\rm Tr}((\langle{\bf x}{\bf x}^\top\rangle-\langle{\bf x}\rangle{\boldsymbol\mu}^\top-{\boldsymbol\mu}\langle{\bf x}\rangle^\top+{\boldsymbol\mu}{\boldsymbol\mu}^\top){\bf\Sigma}^{-1})\\
&=&{\rm Tr}(({\boldsymbol\mu}{\boldsymbol\mu}^\top+{\bf\Sigma}-{\boldsymbol\mu}{\boldsymbol\mu}^\top-{\boldsymbol\mu}{\boldsymbol\mu}^\top+{\boldsymbol\mu}{\boldsymbol\mu}^\top){\bf\Sigma}^{-1})\\
&=&{\rm Tr}({\bf\Sigma}{\bf\Sigma}^{-1})\\
&=&{\rm Tr}({\bf I}_D)\\
&=&D\tag{5}
\end{eqnarray}

(5)の2行目ですが、スカラーのトレースはスカラーであることを用いています。わかりにくい場合はスカラー1\times 1単位行列がかかっているとみてもよいと思います。
(5)の3行目ですが、式(3)を用いています。

(5)(4)に代入します。

\begin{eqnarray}
{\rm H}[{\bf x}]&=&\frac{1}{2}\left(D+\ln|{\bf\Sigma}|+D\ln2\pi\right)\\
&=&\frac{1}{2}\ln|{\bf\Sigma}|+\frac{D}{2}(1+\ln{(2\pi)})\tag{6}
\end{eqnarray}
(6)より、式(2.283)が示せました。

参考文献

ベイズ推論による機械学習入門 p66-p67

目次へ戻る