機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 9.4(基本)

問題

潜在変数を持つモデルに関して、データ集合 \bf X を観測した下での事後分布 p({\boldsymbol\theta}|{\bf X}) を、
EMアルゴリズムを用いて {\boldsymbol\theta} について最大化する問題を考える。
このとき、Eステップは最尤推定問題の場合と同じであるのに対し、
Mステップでは、最大化すべき量が {\mathcal Q}({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})+\ln p({\boldsymbol\theta}) で与えられることを示せ。
ただし、{\mathcal Q}({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})(9.30) で定義されている。

参照

\begin{eqnarray}
{\mathcal Q}({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})=\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\bf X},{\bf Z}|{\boldsymbol\theta})\tag{9.30}
\end{eqnarray}

解答

\ln p({\boldsymbol\theta}|{\bf X})=\ln\left(\displaystyle\sum_{\bf Z}p({\boldsymbol\theta},{\bf Z}|{\bf X})\right) は log-sumの形をしており、最大化が難しいので、
代わりに完全データの対数尤度の潜在変数の事後分布に関する期待値 {\mathbb E}_{p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})}[\ln p({\boldsymbol\theta},{\bf Z}|{\bf X})] を最大化することを考えます。

\begin{eqnarray}
{\mathbb E}_{p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})}[\ln p({\boldsymbol\theta},{\bf Z}|{\bf X})]&=&\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\boldsymbol\theta},{\bf Z}|{\bf X})\\
&=&\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln \frac{p({\bf Z},{\bf X}|{\boldsymbol\theta})p({\boldsymbol\theta})}{p({\bf X})}\\
&=&\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\left(\ln p({\bf Z},{\bf X}|{\boldsymbol\theta})+\ln p({\boldsymbol\theta}) - \ln p({\bf X})\right)\\
&=&\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\bf Z},{\bf X}|{\boldsymbol\theta})+\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\boldsymbol\theta})-\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\bf X})\\
&=&\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\bf Z},{\bf X}|{\boldsymbol\theta})+\ln p({\boldsymbol\theta})-\ln p({\bf X})\\
&=&\sum_{\bf Z}p({\bf Z}|{\bf X},{\boldsymbol\theta}^{\rm old})\ln p({\bf Z},{\bf X}|{\boldsymbol\theta})+\ln p({\boldsymbol\theta})+{\rm const}\\
&=&\underbrace{{\mathcal Q}({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})}_{(9.30)}+\ln p({\boldsymbol\theta})+{\rm const}\tag{1}
\end{eqnarray}

(1) より、最大化すべき量が {\mathcal Q}({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})+\ln p({\boldsymbol\theta}) で与えられることが示せました。

目次へ戻る