機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 13.32(標準) www

問題

線形動的システムにおける、{\boldsymbol\mu}_0{\bf P}_0 に対する
Mステップの方程式の結果 (13.110)(13.111) を確かめよ。

参照

\begin{eqnarray}
{\boldsymbol\mu}_0^{\rm new}={\mathbb E}[{\bf z}_1]\tag{13.110}
\end{eqnarray}

\begin{eqnarray}
{\bf P}_0^{\rm new}={\mathbb E}[{\bf z}_1{\bf z}_1^\top]-{\mathbb E}[{\bf z}_1]{\mathbb E}[{\bf z}_1^\top]\tag{13.111}
\end{eqnarray}

解答

PRML下巻 p361より、以下が成り立ちます。

\begin{eqnarray}
Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})=-\frac{1}{2}\ln|{\bf P}_0|-{\mathbb E}_{{\bf Z}|{\boldsymbol\theta}^{\rm old}}\left[\frac{1}{2}({\bf z}_1-{\boldsymbol\mu}_0)^\top{\bf\Sigma}^{-1}({\bf z}_1-{\boldsymbol\mu}_0)\right]+{\rm const}\tag{1}
\end{eqnarray}

(1){\boldsymbol\mu}_0微分して、={\bf 0} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\boldsymbol\mu}_0}Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\frac{\partial}{\partial{\boldsymbol\mu}_0}({\bf z}_1-{\boldsymbol\mu}_0)^\top{\bf P}_0^{-1}({\bf z}_1-{\boldsymbol\mu}_0)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[-2\frac{\partial}{\partial{\boldsymbol\mu}_0}{\bf z}_1^\top{\bf P}_0^{-1}{\boldsymbol\mu}_0+\frac{\partial}{\partial{\boldsymbol\mu}_0}{\boldsymbol\mu}_0^\top{\bf P}_0^{-1}{\boldsymbol\mu}_0\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\big[-2\underbrace{({\bf z}_1^\top{\bf P}_0^{-1})^\top}_{\frac{\partial}{\partial{\bf x}}{\bf x}^\top{\bf a}={\bf a}}+\underbrace{2{\bf P}_0^{-1}{\boldsymbol\mu}_0}_{\frac{\partial}{\partial{\bf x}}{\bf x}^\top{\bf A}{\bf x}=2{\bf A}{\bf x}}\big]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\big[-2{\bf P}_0^{-1}{\bf z}_1+2{\bf P}_0^{-1}{\boldsymbol\mu}_0\big]={\bf O}\\
&&\Leftrightarrow {\bf P}_0^{-1}{\boldsymbol\mu}_0={\bf P}_0^{-1}{\mathbb E}[{\bf z}_1]\\
&&\Leftrightarrow {\boldsymbol\mu}_0={\mathbb E}[{\bf z}_1]\tag{2}
\end{eqnarray}

(2) より、式 (13.110) が示せました。

(1){\bf P}_0微分して、={\bf 0} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf P}_0}Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})={\bf O}\\
&&\Leftrightarrow \frac{\partial}{\partial{\bf P}_0}\ln|{\bf P}_0|+{\mathbb E}\left[\frac{\partial}{\partial{\bf P}_0}({\bf z}_1-{\boldsymbol\mu}_0)^\top{\bf P}_0^{-1}({\bf z}_1-{\boldsymbol\mu}_0)\right]={\bf O}\\
&&\Leftrightarrow \frac{\partial}{\partial{\bf P}_0}\ln|{\bf P}_0|+{\mathbb E}\left[\frac{\partial}{\partial{\bf P}_0}{\rm Tr}( ({\bf z}_1-{\boldsymbol\mu}_0)^\top{\bf P}_0^{-1}({\bf z}_1-{\boldsymbol\mu}_0))\right]={\bf O}\\
&&\Leftrightarrow \frac{\partial}{\partial{\bf P}_0}\ln|{\bf P}_0|+{\mathbb E}\Bigg[\frac{\partial}{\partial{\bf P}_0}\underbrace{{\rm Tr}({\bf P}_0^{-1}({\bf z}_1-{\boldsymbol\mu}_0)({\bf z}_1-{\boldsymbol\mu}_0)^\top)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}\Bigg]={\bf O}\\
&&\Leftrightarrow \underbrace{({\bf P}_0^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}\ln|{\bf A}|=({\bf A}^{-1})^\top}+{\mathbb E}\Bigg[\underbrace{-({\bf P}_0^{-1}({\bf z}_1-{\boldsymbol\mu}_0)({\bf z}_1-{\boldsymbol\mu}_0)^\top{\bf P}_0^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\top}\Bigg]={\bf O}\\
&&\Leftrightarrow {\bf P}_0^{-1}-{\mathbb E}\left[{\bf P}_0^{-1}({\bf z}_1-{\boldsymbol\mu}_0)({\bf z}_1-{\boldsymbol\mu}_0)^\top{\bf P}_0^{-1}\right]={\bf O}\\
&&\Leftrightarrow {\bf P}_0^{-1}={\bf P}_0^{-1}{\mathbb E}\left[({\bf z}_1-{\boldsymbol\mu}_0)({\bf z}_1-{\boldsymbol\mu}_0)^\top\right]{\bf P}_0^{-1}\\
&&\Leftrightarrow {\bf P}_0={\mathbb E}\left[({\bf z}_1-{\boldsymbol\mu}_0)({\bf z}_1-{\boldsymbol\mu}_0)^\top\right]\\
&&\Leftrightarrow {\bf P}_0={\mathbb E}\left[{\bf z}_1{\bf z}_1^\top-{\bf z}_1{\boldsymbol\mu}_0^\top-{\boldsymbol\mu}_0{\bf z}_1^\top+{\boldsymbol\mu}_0{\boldsymbol\mu}_0^\top\right]\\
&&\Leftrightarrow {\bf P}_0={\mathbb E}[{\bf z}_1{\bf z}_1^\top]-{\mathbb E}[{\bf z}_1]{\boldsymbol\mu}_0^\top-{\boldsymbol\mu}_0{\mathbb E}[{\bf z}_1^\top]+{\boldsymbol\mu}_0{\boldsymbol\mu}_0^\top\\
&&\Leftrightarrow {\bf P}_0={\mathbb E}[{\bf z}_1{\bf z}_1^\top]-{\mathbb E}[{\bf z}_1]{\mathbb E}[{\bf z}_1^\top]-{\mathbb E}[{\bf z}_1]{\mathbb E}[{\bf z}_1^\top]+{\mathbb E}[{\bf z}_1]{\mathbb E}[{\bf z}_1^\top]\\
&&\Leftrightarrow {\bf P}_0={\mathbb E}[{\bf z}_1{\bf z}_1^\top]-{\mathbb E}[{\bf z}_1]{\mathbb E}[{\bf z}_1^\top]\tag{3}
\end{eqnarray}

(3) より、式 (13.111) が示せました。

補足

\dfrac{\partial}{\partial{\bf x}}{\bf x}^\top{\bf a}={\bf a},\ \dfrac{\partial}{\partial{\bf x}}{\bf x}^\top{\bf A}{\bf x}=2{\bf A}{\bf x}の証明については、
1次形式と2次形式と双1次形式をご覧ください。

\dfrac{\partial}{\partial{\bf A}}\ln|{\bf A}|=({\bf A}^{-1})^\top,\ \dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\topの証明については、
ベクトルと行列に関する微分の公式導出をご覧ください。

目次へ戻る