機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 10.14(標準)

問題

(10.59)の分布を使って、(10.64)の結果を確かめよ。

参照

\begin{eqnarray}
q^*({\boldsymbol\mu}_k,{\bf\Lambda}_k)={\mathcal N}({\boldsymbol\mu}_k|{\bf m}_k,(\beta_k{\bf\Lambda}_k)^{-1}){\mathcal W}({\bf\Lambda}_k|{\bf W}_k,\nu_k)\tag{10.59}
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}_{{\boldsymbol\mu}_k,{\bf\Lambda}_k}[({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)]=D\beta_k^{-1}+\nu_k({\bf x}_n-{\bf m}_k)^\top{\bf W}_k({\bf x}_n-{\bf m}_k)\tag{10.64}
\end{eqnarray}

多次元ガウス分布{\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf\Lambda}^{-1})=\dfrac{\sqrt{|{\bf\Lambda}|}}{\sqrt{(2\pi)^D}}\exp\left(-\dfrac{1}{2}({\bf x}-{\boldsymbol\mu}){\bf\Lambda}({\bf x}-{\boldsymbol\mu})\right){\bf x}の期待値は以下の式(B.38)です。

\begin{eqnarray}
&&{\mathbb E}[{\bf x}]={\boldsymbol\mu}\tag{B.38}
\end{eqnarray}

ウィシャート分布\mathcal{W}({\bf\Lambda}|{\bf W},\nu)=C_{\mathcal W}|{\bf\Lambda}|^{{(\nu-D-1)}/{2}}\exp\left(-\dfrac{1}{2}{\rm Tr}({\bf W}^{-1}{\bf\Lambda})\right){\bf\Lambda}の期待値は以下の式(B.80)です。

\begin{eqnarray}
{\mathbb E}[{\bf\Lambda}]=\nu{\bf W}\tag{B.80}\\
\end{eqnarray}

解答

{\mathbb E}_{{\boldsymbol\mu}_k,{\bf\Lambda}_k}[({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)]=\langle({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}を計算します。

\begin{eqnarray}
\langle({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}&=&\langle{\bf x}_n^\top{\bf\Lambda}{\bf x}_n-2{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n+{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}\\
&=&\langle{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}-2\langle{\bf x}_n^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}+\langle{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}\\
&=&{\bf x}_n^\top\langle{\bf\Lambda}_k\rangle_{q({\bf\Lambda}_k)}{\bf x}_n-2{\bf x}_n^\top\langle{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k)}+\langle{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k)}\\
&=&{\bf x}_n^\top\underbrace{\nu_k{\bf W}_k}_{(B.80)}{\bf x}_n-2\underbrace{{\bf x}_n^\top\langle{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k)}}_{=:A}+\underbrace{\langle{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k)}}_{=:B}\tag{1}\\
\end{eqnarray}

A:={\bf x}_n^\top\langle{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k)}を計算します。

\begin{eqnarray}
A&:=&{\bf x}_n^\top\langle{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k)}\\
&=&{\bf x}^\top_n\iint q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k){\bf\Lambda}_k{\boldsymbol\mu}_k{\rm d}{\boldsymbol\mu}_k{\rm d}{\bf\Lambda}_k\\
&=&{\bf x}^\top_n\int {\bf\Lambda}_kq({\bf\Lambda}_k)\left(\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\boldsymbol\mu}_k{\rm d}{\boldsymbol\mu}_k\right){\rm d}{\bf\Lambda}_k\\
&=&{\bf x}^\top_n\left(\int {\bf\Lambda}_k q({\bf\Lambda}_k){\rm d}{\bf\Lambda}_k\right)\underbrace{{\bf m}_k}_{(B.38)}\\
&=&{\bf x}^\top_n\underbrace{\nu_k{\bf W}_k}_{(B.80)}{\bf m}_k\tag{2}\\
\end{eqnarray}

B:=\langle{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda})q({\bf\Lambda}_k)}を計算します。

\begin{eqnarray}
B&:=&\langle{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\rangle_{q({\boldsymbol\mu}_k|{\bf\Lambda})q({\bf\Lambda}_k)}\\
&=&\iint q({\boldsymbol\mu}_k|{\bf\Lambda}_k)q({\bf\Lambda}_k){\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k{\rm d}{\boldsymbol\mu}_k{\rm d}{\bf\Lambda}_k\\
&=&\int \Bigg(\underbrace{\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k{\rm d}{\boldsymbol\mu}_k}_{=:C}\Bigg)q({\bf\Lambda}_k){\rm d}{\bf\Lambda}_k\tag{3}
\end{eqnarray}

C:=\displaystyle\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k{\rm d}{\boldsymbol\mu}_kを計算します。

\begin{eqnarray}
C&:=&\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k{\rm d}{\boldsymbol\mu}_k\\
&=&\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\rm Tr}\left({\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k\right){\rm d}{\boldsymbol\mu}_k\\
&=&\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\rm Tr}\left({\boldsymbol\mu}_k{\boldsymbol\mu}_k^\top{\bf\Lambda}_k\right){\rm d}{\boldsymbol\mu}_k\\
&=&\int {\rm Tr}\left(q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\boldsymbol\mu}_k{\boldsymbol\mu}_k^\top{\bf\Lambda}_k\right){\rm d}{\boldsymbol\mu}_k\\
&=&{\rm Tr}\left(\left(\int q({\boldsymbol\mu}_k|{\bf\Lambda}_k){\boldsymbol\mu}_k{\boldsymbol\mu}_k^\top{\rm d}{\boldsymbol\mu}_k\right){\bf\Lambda}_k\right)\\
&=&{\rm Tr}\left(\left((\beta_k{\bf\Lambda}_k)^{-1}+{\bf m}_k{\bf m}_k^\top\right){\bf\Lambda}_k\right)\\
&=&{\rm Tr}\left(\beta_k^{-1}{\bf I}+{\bf m}_k{\bf m}_k^\top{\bf\Lambda}_k\right)\\
&=&{\rm Tr}\left(\beta_k^{-1}{\bf I}\right)+{\rm Tr}\left({\bf m}_k{\bf m}_k^\top{\bf\Lambda}_k\right)\\
&=&D\beta_k^{-1}+{\rm Tr}\left({\bf m}_k^\top{\bf\Lambda}_k{\bf m}_k\right)\\
&=&D\beta_k^{-1}+{\bf m}_k^\top{\bf\Lambda}_k{\bf m}_k\tag{4}
\end{eqnarray}

(4)を式(3)に代入します。

\begin{eqnarray}
B&=&\int (D\beta_k^{-1}+{\bf m}_k^\top{\bf\Lambda}_k{\bf m}_k) q({\bf\Lambda}_k){\rm d}{\bf\Lambda}_k\\
&=&D\beta_k^{-1}+{\bf m}_k^\top\int{\bf\Lambda}_kq({\bf\Lambda}_k){\rm d}{\bf\Lambda}_k{\bf m}_k\\
&=&D\beta_k^{-1}+{\bf m}_k^\top\underbrace{\nu_k{\bf W}_k}_{(B.80)}{\bf m}_k\tag{5}\\
\end{eqnarray}

(2),(5)を式(1)に代入します。

\begin{eqnarray}
\langle({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)\rangle_{q({\boldsymbol\mu}_k,{\bf\Lambda}_k)}&=&{\bf x}^\top_n\nu_k{\bf W}_k{\bf x}_n-2{\bf x}^\top_n\nu_k{\bf W}_k{\bf m}_k+D\beta_k^{-1}+{\bf m}_k^\top\nu_k{\bf W}_k{\bf m}_k\\
&=&D\beta_k^{-1}+\nu_k\left({\bf x}^\top_n{\bf W}_k{\bf x}_n-2{\bf x}^\top_n{\bf W}_k{\bf m}_k+{\bf m}_k^\top{\bf W}_k{\bf m}_k\right)\\
&=&D\beta_k^{-1}+\nu_k({\bf x}_n-{\bf m}_k)^\top{\bf W}_k({\bf x}_n-{\bf m}_k)\tag{6}
\end{eqnarray}

(6)より、式(10.64)が示せました。

目次へ戻る