機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 10.13(標準) www

問題

(10.54)から始めて、ベイズ混合ガウス分布における\boldsymbol\mu_k{\bf\Lambda_k}の最適な変分事後分布についての結果(10.59)を導き、
この分布のパラメータが(10.60)-(10.63)で与えられることを確かめよ。

参照

\begin{eqnarray}
p({\bf Z}|{\boldsymbol\pi})=\prod_{n=1}^N\prod_{k=1}^K\pi_k^{z_{nk}}\tag{10.37}
\end{eqnarray}

\begin{eqnarray}
p({\bf X}|{\bf Z},{\boldsymbol\mu},{\bf\Lambda})=\prod_{n=1}^N\prod_{k=1}^K{\mathcal N}({\bf x}_n|{\boldsymbol\mu}_k,{\bf\Lambda}_k^{-1})^{z_{nk}}\tag{10.38}
\end{eqnarray}

\begin{eqnarray}
p({\boldsymbol\pi})={\rm Dir}({\boldsymbol\pi}|{\boldsymbol\alpha}_0)=C({\boldsymbol\alpha}_0)\prod_{k=1}^K\pi_k^{\alpha_0-1}\tag{10.39}
\end{eqnarray}

\begin{eqnarray}
p({\boldsymbol\mu},{\bf\Lambda})&=&p({\boldsymbol\mu}|{\bf\Lambda})p({\bf\Lambda})\\
&=&\prod_{k=1}^K{\mathcal N}\left({\boldsymbol\mu}_k|{\bf m}_0,(\beta_0{\bf\Lambda}_k)^{-1}\right){\mathcal W}({\bf\Lambda}_k|{\bf W}_0,\nu_0)\tag{10.40}
\end{eqnarray}

\begin{eqnarray}
N_k=\sum_{n=1}^Nr_{nk}\tag{10.51}
\end{eqnarray}

\begin{eqnarray}
\overline{\bf x}_k=\frac{1}{N_k}\sum_{n=1}^Nr_{nk}{\bf x}_n\tag{10.52}
\end{eqnarray}

\begin{eqnarray}
{\bf S}_k=\frac{1}{N_k}\sum_{n=1}^Nr_{nk}({\bf x}_n-\overline{\bf x}_k)({\bf x}_n-\overline{\bf x}_k)^\top\tag{10.53}
\end{eqnarray}

\begin{eqnarray}
\ln q^\star({\boldsymbol\pi},{\boldsymbol\mu},{\bf\Lambda})=\ln p({\boldsymbol\pi})+\sum_{k=1}^K\ln p({\boldsymbol\mu}_k,{\bf\Lambda}_k)+{\mathbb E}_{\bf Z}[\ln p({\bf Z}|{\boldsymbol\pi})]+\sum_{k=1}^K\sum_{n=1}^N{\mathbb E}[z_{nk}]\ln{\mathcal N}({\bf x}_n|{\boldsymbol\mu}_k,{\bf\Lambda}_k^{-1})+{\rm const}\tag{10.54}
\end{eqnarray}

\begin{eqnarray}
q^*({\boldsymbol\mu}_k,{\bf\Lambda}_k)={\mathcal N}({\boldsymbol\mu}_k|{\bf m}_k,(\beta_k{\bf\Lambda}_k)^{-1}){\mathcal W}({\bf\Lambda}_k|{\bf W}_k,\nu_k)\tag{10.59}
\end{eqnarray}

\begin{eqnarray}
\beta_k=\beta_0+N_k\tag{10.60}
\end{eqnarray}

\begin{eqnarray}
{\bf m}_k=\frac{1}{\beta_k}(\beta_0{\bf m}_0+N_k{\bf x}_k)\tag{10.61}
\end{eqnarray}

\begin{eqnarray}
{\bf W}_k^{-1}={\bf W}_0^{-1}+N_k{\bf S}_k+\frac{\beta_0N_k}{\beta_0+N_k}(\overline{\bf x}_k-{\bf m}_0)(\overline{\bf x}_k-{\bf m}_0)^\top\tag{10.62}
\end{eqnarray}

\begin{eqnarray}
\nu_k=\nu_0+N_k\tag{10.63}
\end{eqnarray}

解答

(10.54)の期待値を{\mathbb E}[\cdot]から\langle\cdot\rangleに書き換えます。(私はこっちの方が好きなので)

\begin{eqnarray}
\ln q({\boldsymbol\pi},{\boldsymbol\mu},{\bf\Lambda})&=&\ln p({\boldsymbol\pi})+\ln p({\boldsymbol\mu},{\bf\Lambda})+\langle\ln p({\bf Z}|{\boldsymbol\pi})\rangle_{q({\bf Z})}+\langle\ln p({\bf X}|{\bf Z},{\boldsymbol\mu},{\bf\Lambda})\rangle_{q({\bf Z})}+{\rm const}\tag{1}\\
\end{eqnarray}

(1)より、 {\boldsymbol\pi} だけを含む項と \boldsymbol\mu 及び  \bf\Lambda のみを含む項の和に分解されることが分かります。
これは変分事後分布 q({\boldsymbol\pi},{\boldsymbol\mu},{\bf\Lambda})q({\boldsymbol\pi})q({\boldsymbol\mu},{\bf\Lambda}) と分解されることを意味します。
さらに、{\boldsymbol\mu} 及び \bf\Lambda を含む項は {\boldsymbol\mu}_k{\bf\Lambda}_k を含む項の k についての積からなり、次のように分解されます。

\begin{eqnarray}
q({\boldsymbol\pi},{\boldsymbol\mu},{\bf\Lambda})=q({\boldsymbol\pi})\prod_{k=1}^Kq({\boldsymbol\mu}_k,{\bf\Lambda}_k)\tag{2}
\end{eqnarray}

q({\boldsymbol\pi})q({\boldsymbol\mu}_k,{\bf\Lambda}_k) を別々に求めていけばよいことになります。

まずは q({\boldsymbol\pi}) を求めていきます。式(1)から {\boldsymbol\pi} に依存する項のみ取り出します。
※問題は、q({\boldsymbol\pi}) を求める必要はありませんが、ついでに求めます。

\begin{eqnarray}
\ln q({\boldsymbol\pi})&=&\ln p({\boldsymbol\pi}) + \langle\ln p({\bf Z}|{\boldsymbol\pi})\rangle_{q({\bf Z})}+{\rm const}\\
&=&\ln\Bigg(\underbrace{C({\boldsymbol\alpha}_0)\prod_{k=1}^K\pi_k^{\alpha_0-1}}_{(10.39)}\Bigg)+\Bigg\langle\ln\Bigg(\underbrace{\prod_{n=1}^N\prod_{k=1}^K\pi_k^{z_{nk}}}_{(10.37)}\Bigg)\Bigg\rangle_{q({\bf Z})}+{\rm const}\\
&=&\sum_{k=1}^K(\alpha_0-1)\ln\pi_k+\sum_{n=1}^N\sum_{k=1}^K\langle z_{nk}\rangle_{q({\bf Z})}\ln\pi_k+{\rm const}\\
&=&\sum_{k=1}^K(\alpha_0-1)\ln\pi_k+\sum_{k=1}^K\sum_{n=1}^Nr_{nk}\ln\pi_k+{\rm const}\\
&=&\sum_{k=1}^K(\alpha_0-1)\ln\pi_k+\sum_{k=1}^KN_k\ln\pi_k+{\rm const}\\
&=&\sum_{k=1}^K(\alpha_0+N_k-1)\ln\pi_k+{\rm const}\tag{3}\\
\end{eqnarray}

(3)より、 q({\boldsymbol\pi}) はディレクレ分布であることが分かります。ディレクレ分布のパラメータを {\boldsymbol\alpha}=(\alpha_0,\ldots,\alpha_K)^\top とおきます。

\begin{eqnarray}
\ln q({\boldsymbol\pi})&=&\ln{\rm Dir}({\boldsymbol\pi}|{\boldsymbol\alpha})\\
&=&\sum_{k=1}^K(\alpha_k-1)\ln\pi_k+\ln C_{\rm D}({\boldsymbol\alpha})\tag{4}
\end{eqnarray}

(3)と式(4)を比較します。

\begin{eqnarray}
\alpha_k=\alpha_0+N_k\tag{5}
\end{eqnarray}

(5)は、 q({\boldsymbol\pi})のパラメータの更新式です。

次に q({\boldsymbol\mu}_k,{\bf\Lambda}_k) を求めてみます。式(1)から q({\boldsymbol\mu}_k,{\bf\Lambda}_k) に依存する項のみ取り出します。

\begin{eqnarray}
\ln q({\boldsymbol\mu}_k,{\bf\Lambda}_k)&=&\ln p({\boldsymbol\mu},{\bf\Lambda})+\langle\ln p({\bf X}|{\bf Z},{\boldsymbol\mu},{\bf\Lambda})\rangle_{q({\bf Z})}+{\rm const}\\
&=&\ln\Bigg(\underbrace{\prod_{k=1}^K\mathcal{N}({\boldsymbol\mu}_k|{\bf m}_0,(\beta_0{\bf\Lambda}_k)^{-1})\mathcal{W}({\bf\Lambda}_k|{\bf W}_0,\nu_0)}_{(10.40)}\Bigg)+\Bigg\langle\ln\Bigg(\underbrace{\prod_{n=1}^N\mathcal{N}({\bf x}_n|{\boldsymbol\mu}_k,{\bf\Lambda}_k^{-1})^{z_{nk}}}_{(10.38)}\Bigg)\Bigg\rangle_{q({\bf Z})}\\
&=&\sum_{k=1}^K\left(\ln\mathcal{N}({\boldsymbol\mu}_k|{\bf m}_0,(\beta_0{\bf\Lambda}_k)^{-1})+\ln\mathcal{W}({\bf\Lambda}_k|{\bf W}_0,\nu_0)\right)+\left\langle\sum_{n=1}^Nz_{nk}\ln\mathcal{N}({\bf x}_n|{\boldsymbol\mu}_k,{\bf\Lambda}_k^{-1})\right\rangle_{q({\bf Z})}\\
&=&\ln\mathcal{N}({\boldsymbol\mu}_k|{\bf m}_0,(\beta_0{\bf\Lambda}_k)^{-1})+\ln\mathcal{W}({\bf\Lambda}_k|{\bf W}_0,\nu_0)+\sum_{n=1}^N\langle z_{nk}\rangle_{q({\bf Z})}\ln\mathcal{N}({\bf x}_n|{\boldsymbol\mu}_k,{\bf\Lambda}_k^{-1})+{\rm const}\\
&=&\frac{1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_0)^\top\beta_0{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_0)+\frac{\nu_0-D-1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}{\rm Tr}({\bf W}_0^{-1}{\bf\Lambda}_k)
\\&&+\sum_{n=1}^Nr_{nk}\left(\frac{1}{2}\ln|{\bf\lambda}_k|-\frac{1}{2}({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)\right)+{\rm const}\tag{6}\\
\end{eqnarray}

ここで(6)-\dfrac{1}{2}({\boldsymbol\mu}_k-{\bf m}_0)^\top\beta_0{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_0)-\dfrac{1}{2}\displaystyle\sum_{n=1}^Nr_{nk}({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k){\boldsymbol\mu}_kについて平方完成します。

\begin{eqnarray}
&&-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_0)^\top\beta_0{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_0)-\frac{1}{2}\sum_{n=1}^Nr_{nk}({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)\\
&=&-\frac{1}{2}\left(({\boldsymbol\mu}_k-{\bf m}_0)^\top\beta_0{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_0)+\sum_{n=1}^Nr_{nk}({\bf x}_n-{\boldsymbol\mu}_k)^\top{\bf\Lambda}_k({\bf x}_n-{\boldsymbol\mu}_k)\right)\\
&=&-\frac{1}{2}\left({\boldsymbol\mu}_k^\top\beta_0{\bf\Lambda}_k{\boldsymbol\mu}_k-2{\boldsymbol\mu_k}^\top\beta_0{\bf\Lambda}_k{\bf m}_0+{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0+\sum_{n=1}^Nr_{nk}({\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n-2{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\bf x}_n+{\boldsymbol\mu}_k^\top{\bf\Lambda}_k{\boldsymbol\mu}_k)\right)\\
&=&-\frac{1}{2}\left({\boldsymbol\mu}_k^\top{\bf\Lambda}_k\left(\beta_0+\sum_{n=1}^Nr_{nk}\right){\boldsymbol\mu}_k-2{\boldsymbol\mu}_k^\top{\bf\Lambda}_k\left(\beta{\bf m}_0+\sum_{n=1}^Nr_{nk}{\bf x}_n\right)+{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0+\sum_{n=1}^Nr_{nk}{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n\right)\\
&=&-\frac{1}{2}\left({\boldsymbol\mu}_k^\top{\bf\Lambda}_k(\beta_0+N_k){\boldsymbol\mu}_k-2{\boldsymbol\mu}_k^\top{\bf\Lambda}_k(\beta{\bf m}_0+N_k\bar{\bf x}_n)+{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0+\sum_{n=1}^Nr_{nk}{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n\right)\\
&=&-\frac{1}{2}\Bigg({\boldsymbol\mu}_k^\top{\bf\Lambda}_k(\beta_0+N_k){\boldsymbol\mu}_k-2{\boldsymbol\mu}_k^\top{\bf\Lambda}_k(\beta_0+N_k)\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}+\left(\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)^\top{\bf\Lambda}_k(\beta_0+N_k)\left(\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)\\
&&-\left(\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)^\top{\bf\Lambda}_k(\beta_0+N_k)\left(\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)+{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0+\sum_{n=1}^Nr_{nk}{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n\Bigg)\\
&=&-\frac{1}{2}\Bigg(\left({\boldsymbol\mu}_k-\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)^\top{\bf\Lambda}_k(\beta_0+N_k)\left({\boldsymbol\mu}_k-\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)\\ &&-\left(\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)^\top{\bf\Lambda}_k(\beta_0+N_k)\left(\frac{\beta{\bf m}_0+N_k\bar{\bf x}_n}{\beta_0+N_k}\right)+{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0+\sum_{n=1}^Nr_{nk}{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n\Bigg)\\
&=&-\frac{1}{2}\left(({\boldsymbol\mu}_k-{\bf m}_k)^\top\beta_k{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_k)-{\bf m}_k^\top\beta_k{\bf\Lambda}_k{\bf m}_k+{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0+\sum_{n=1}^Nr_{nk}{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n\right)\tag{7}
\end{eqnarray}

(7)\beta_k,{\bf m}_kは以下のようにおきました。

\begin{eqnarray}
&&\beta_k=\beta_0+N_k\tag{8}\\
&&{\bf m}_k=\frac{1}{\beta_k}(\beta_0{\bf m}_0+N_k\bar{\bf x}_k)\tag{9}\\
\end{eqnarray}

(7)を式(6)に代入します。

\begin{eqnarray}
&&\ln q({\boldsymbol\mu}_k,{\bf\Lambda}_k)\\
&=&\frac{1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_k)^\top\beta_k{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_k)+\frac{\nu_0-D-1}{2}\ln|{\bf\Lambda}_k|+N_k\frac{1}{2}\ln|{\bf\lambda}_k|\\
&&-\frac{1}{2}{\rm Tr}({\bf W}_0^{-1}{\bf\Lambda}_k)+\frac{1}{2}{\bf m}_k^\top\beta_k{\bf\Lambda}_k{\bf m}_k-\frac{1}{2}{\bf m}_0^\top\beta_0{\bf\Lambda}_k{\bf m}_0-\frac{1}{2}\sum_{n=1}^Nr_{nk}{\bf x}_n^\top{\bf\Lambda}_k{\bf x}_n+{\rm const}\\
&=&\frac{1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_k)^\top\beta_k{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_k)+\frac{\nu_0+N_k-D-1}{2}\ln|{\bf\Lambda}_k|\\
&&-\frac{1}{2}{\rm Tr}({\bf W}_0^{-1}{\bf\Lambda}_k)+\frac{1}{2}{\rm Tr}({\bf m}_k{\bf m}_k^\top\beta_k{\bf\Lambda}_k)-\frac{1}{2}{\rm Tr}({\bf m}_0{\bf m}_0^\top\beta_0{\bf\Lambda}_k)-\frac{1}{2}{\rm Tr}(\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top{\bf\Lambda}_k)+{\rm const}\\
&=&\frac{1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_k)^\top\beta_k{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_k)+\frac{\nu_0+N_k-D-1}{2}\ln|{\bf\Lambda}_k|\\
&&-\frac{1}{2}{\rm Tr}\left({\bf W}_0^{-1}-{\bf m}_k{\bf m}_k^\top\beta_k-{\bf m}_0{\bf m}_0^\top\beta_0-\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top\right){\bf\Lambda}_k+{\rm const}\tag{10}\\
\end{eqnarray}

(10)-{\bf m}_k{\bf m}_k^\top\beta_k-{\bf m}_0{\bf m}_0^\top\beta_0-\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\topを変形します。

\begin{eqnarray}
&&-{\bf m}_k{\bf m}_k^\top\beta_k-{\bf m}_0{\bf m}_0^\top\beta_0-\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top\\
&=&\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top-\frac{1}{\beta_k}(\beta_0{\bf m}_0+N_k\bar{\bf x}_k)(\beta_0{\bf m}_0+N_k\bar{\bf x}_k)^\top+{\bf m}_0{\bf m}_0\beta_0\\
&=&\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top-\frac{\beta_0^2}{\beta_k}{\bf m}_0{\bf m}_0^\top-2\frac{\beta_0N_k}{\beta_k}{\bf m}_0\bar{\bf x}_k^\top-\frac{N_k^2}{\beta_k}\bar{\bf x}_k\bar{\bf x}_k^\top+{\bf m}_0{\bf m}_0\beta_0\\
&=&\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top-\frac{N_k^2}{\beta_k}\bar{\bf x}_k\bar{\bf x}_k^\top-2\frac{\beta_0N_k}{\beta_k}{\bf m}_0\bar{\bf x}_k^\top+\frac{\beta_0N_k}{\beta_k}{\bf m}_0{\bf m}_0^\top\\
&=&\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top-N_k\bar{\bf x}_k\bar{\bf x}_k^\top+\frac{\beta_0N_k}{\beta_k}\bar{\bf x}_k\bar{\bf x}_k^\top-2\frac{\beta_0N_k}{\beta_k}{\bf m}_0\bar{\bf x}_k^\top+\frac{\beta_0N_k}{\beta_k}{\bf m}_0{\bf m}_0^\top\\
&=&\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top-N_k\bar{\bf x}_k\bar{\bf x}_k^\top+\frac{\beta_0N_k}{\beta_k}(\bar{\bf x}_k\bar{\bf x}_k^\top-2{\bf m}_0\bar{\bf x}_k^\top+{\bf m}_0{\bf m}_0^\top)\\
&=&\sum_{n=1}^Nr_{nk}{\bf x}_n{\bf x}_n^\top-2\sum_{n=1}^Nr_{nk}\bar{\bf x}_n\bar{\bf x}_k^\top+\sum_{n=1}^Nr_{nk}\bar{\bf x}_k\bar{\bf x}_k^\top+\frac{\beta_0N_k}{\beta_k}(\bar{\bf x}_k\bar{\bf x}_k^\top-2{\bf m}_0\bar{\bf x}_k^\top+{\bf m}_0{\bf m}_0^\top)\\
&=&\sum_{n=1}^Nr_{nk}({\bf x}_n-\bar{\bf x}_n)({\bf x}_n-\bar{\bf x}_n)^\top+\frac{\beta_0N_k}{\beta_k}(\bar{\bf x}_k-{\bf m}_0)(\bar{\bf x}_k-{\bf m}_0)^\top\\
&=&N_kS_k+\frac{\beta_0N_k}{\beta_0+N_k}(\bar{\bf x}_k-{\bf m}_0)(\bar{\bf x}_k-{\bf m}_0)^\top\tag{11}\\
\end{eqnarray}

(11)を式(10)に代入します。

\begin{eqnarray}
&&\ln q({\boldsymbol\mu}_k,{\bf\Lambda}_k)\\
&=&\frac{1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_k)^\top\beta_k{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_k)+\frac{\nu_0+N_k-D-1}{2}\ln|{\bf\Lambda}_k|\\
&&-\frac{1}{2}{\rm Tr}\left({\bf W}_0^{-1}+N_kS_k+\frac{\beta_0N_k}{\beta_0+N_k}(\bar{\bf x}_k-{\bf m}_0)(\bar{\bf x}_k-{\bf m}_0)^\top\right){\bf\Lambda}_k+{\rm const}\\
&=&\frac{1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}({\boldsymbol\mu}_k-{\bf m}_k)^\top\beta_k{\bf\Lambda}_k({\boldsymbol\mu}_k-{\bf m}_k)+\frac{\nu_k-D-1}{2}\ln|{\bf\Lambda}_k|-\frac{1}{2}{\rm Tr}({\bf W}_k^{-1}{\bf\Lambda}_k)+{\rm const}\tag{12}\\
\end{eqnarray}

(12)で、\nu_k,{\bf W}_kは以下のようにおきました。

\begin{eqnarray}
&&\nu_k=\nu_0+N_k\tag{13}\\
&&{\bf W}_k^{-1}={\bf W}_0^{-1}+N_kS_k+\frac{\beta_0N_k}{\beta_0+N_k}(\bar{\bf x}_k-{\bf m}_0)(\bar{\bf x}_k-{\bf m}_0)^\top\tag{14}\\
\end{eqnarray}

(12)よりq({\boldsymbol\mu}_k,{\bf\Lambda}_k)ガウス-ウィシャート分布であることが分かります。

\begin{eqnarray}
q({\boldsymbol\mu}_k,{\bf\Lambda}_k)=\mathcal{N}({\boldsymbol\mu}_k|{\bf m}_k,(\beta_k{\bf\Lambda}_k)^{-1})\mathcal{W}({\bf\Lambda}_k|{\bf W}_k,\nu_k)\tag{15}
\end{eqnarray}

(15)より、式(10.59)が示せました。
(8),(9),(13),(14)より、式(10.60),(10.61),(10.62),(10.63)が示せました。

目次へ戻る