機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 13.33(標準)

問題

線形動的システムにおける、{\bf A}\bf\Gamma に対する M ステップの方程式の結果 (13.113)(13.114) を確かめよ。

参照

\begin{eqnarray}
Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})=-\frac{N-1}{2}\ln|{\bf\Gamma}|-{\mathbb E}_{{\bf Z}|{\boldsymbol\theta}^{\rm old}}\left[\frac{1}{2}\sum_{n=2}^N({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top{\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1})\right]+{\rm const}\tag{13.112}
\end{eqnarray}

\begin{eqnarray}
{\bf A}^{\rm new}=\left(\sum_{n=2}^N{\mathbb E}[{\bf z}_n{\bf z}_{n-1}^\top]\right)\left(\sum_{n=2}^N{\mathbb E}[{\bf z}_{n-1}{\bf z}_{n-1}^\top]\right)^{-1}\tag{13.113}
\end{eqnarray}

\begin{eqnarray}
{\bf\Gamma}^{\rm new}&=&\frac{1}{N-1}\sum_{n=2}^N\Bigg({\mathbb E}[{\bf z}_n{\bf z}_n^\top]-{\bf A}^{\rm new}{\mathbb E}[{\bf z}_{n-1}{\bf z}_n^\top]\\
&&-{\mathbb E}[{\bf z}_n{\bf z}_{n-1}^\top]({\bf A}^{\rm new})^\top+{\bf A}^{\rm new}{\mathbb E}[{\bf z}_{n-1}{\bf z}_{n-1}^\top]({\bf A}^{\rm new})^\top\Bigg)\tag{13.114}
\end{eqnarray}

解答

Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old}){\bf A}微分して、={\bf O} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf A}}Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})={\bf O}\\
&&\Leftrightarrow \frac{\partial}{\partial{\bf A}}{\mathbb E}\left[\sum_{n=2}^N({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top{\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1})\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\sum_{n=2}^N\frac{\partial}{\partial{\bf A}}\left({\bf z}_n^\top{\bf\Gamma}^{-1}{\bf z}_n-2{\bf z}_n^\top{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}+{\bf z}_{n-1}^\top{\bf A}^\top{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}\right)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\sum_{n=2}^N\left(-2\frac{\partial}{\partial{\bf A}}{\bf z}_n^\top{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}+\frac{\partial}{\partial{\bf A}}{\bf z}_{n-1}^\top{\bf A}^\top{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}\right)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\sum_{n=2}^N\left(-2\frac{\partial}{\partial{\bf A}}{\rm Tr}\left({\bf z}_n^\top{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}\right)+\frac{\partial}{\partial{\bf A}}{\rm Tr}\left({\bf z}_{n-1}^\top{\bf A}^\top{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}\right)\right)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\Bigg[\sum_{n=2}^N\Bigg(-2\frac{\partial}{\partial{\bf A}}\underbrace{{\rm Tr}\left({\bf A}{\bf z}_{n-1}{\bf z}_n^\top{\bf\Gamma}^{-1}\right)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}+\frac{\partial}{\partial{\bf A}}\underbrace{{\rm Tr}\left({\bf A}{\bf z}_{n-1}{\bf z}_{n-1}^\top{\bf A}^\top{\bf\Gamma}^{-1}\right)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}\Bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\Bigg[\sum_{n=2}^N\bigg(-2\underbrace{({\bf z}_{n-1}{\bf z}_n^\top{\bf\Gamma}^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B})={\bf B}^\top}+\underbrace{({\bf\Gamma}^{-1})^\top{\bf A}({\bf z}_{n-1}{\bf z}_{n-1}^\top)^\top+{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}{\bf z}_{n-1}^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B}{\bf A}^\top{\bf C})={\bf C}^\top{\bf A}{\bf B}^\top+{\bf C}{\bf A}{\bf B}}\bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\Bigg[\sum_{n=2}^N\bigg(-2{\bf\Gamma}^{-1}{\bf z}_n{\bf z}_{n-1}^\top+{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}{\bf z}_{n-1}^\top+{\bf\Gamma}^{-1}{\bf A}{\bf z}_{n-1}{\bf z}_{n-1}^\top\bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow {\bf\Gamma}^{-1}{\mathbb E}\Bigg[\sum_{n=2}^N\bigg(-{\bf z}_n{\bf z}_{n-1}^\top+{\bf A}{\bf z}_{n-1}{\bf z}_{n-1}^\top\bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow -\sum_{n=2}^N{\mathbb E}[{\bf z}_n{\bf z}_{n-1}^\top]+{\bf A}\sum_{n=2}^N{\mathbb E}[{\bf z}_{n-1}{\bf z}_{n-1}^\top]={\bf O}\\
&&\Leftrightarrow {\bf A}\sum_{n=2}^N{\mathbb E}[{\bf z}_{n-1}{\bf z}_{n-1}^\top]=\sum_{n=2}^N{\mathbb E}[{\bf z}_n{\bf z}_{n-1}^\top]\\
&&\Leftrightarrow {\bf A}=\left(\sum_{n=2}^N{\mathbb E}[{\bf z}_n{\bf z}_{n-1}^\top]\right)\left(\sum_{n=2}^N{\mathbb E}[{\bf z}_{n-1}{\bf z}_{n-1}^\top]\right)^{-1}\tag{1}
\end{eqnarray}

(1) より、式 (13.113) が示せました。

Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old}){\bf\Gamma}微分して、={\bf O} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf\Gamma}}Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})={\bf O}\\
&&\Leftrightarrow(N-1)\frac{\partial}{\partial{\bf\Gamma}}\ln|{\bf\Gamma}|+{\mathbb E}\left[\sum_{n=2}^N\frac{\partial}{\partial{\bf\Gamma}}({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top{\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1})\right]={\bf O}\\
&&\Leftrightarrow(N-1)\frac{\partial}{\partial{\bf\Gamma}}\ln|{\bf\Gamma}|+{\mathbb E}\left[\sum_{n=2}^N\frac{\partial}{\partial{\bf\Gamma}}{\rm Tr}( ({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top{\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1}) )\right]={\bf O}\\
&&\Leftrightarrow(N-1)\frac{\partial}{\partial{\bf\Gamma}}\ln|{\bf\Gamma}|+{\mathbb E}\Bigg[\sum_{n=2}^N\frac{\partial}{\partial{\bf\Gamma}}\underbrace{{\rm Tr}({\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1})({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}\Bigg]={\bf O}\\
&&\Leftrightarrow(N-1)\underbrace{({\bf\Gamma}^{-1})^\top}_{\frac{\partial}{\partial{\bf\Gamma}}\ln|{\bf A}|=({\bf A}^{-1})^\top}+{\mathbb E}\Bigg[\sum_{n=2}^N\underbrace{-({\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1})({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top{\bf\Gamma}^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\top}\Bigg]={\bf O}\\
&&\Leftrightarrow(N-1){\bf\Gamma}^{-1}-{\mathbb E}\left[\sum_{n=2}^N{\bf\Gamma}^{-1}({\bf z}_n-{\bf A}{\bf z}_{n-1})({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top{\bf\Gamma}^{-1}\right]={\bf O}\\
&&\Leftrightarrow(N-1){\bf\Gamma}^{-1}={\bf\Gamma}^{-1}{\mathbb E}\left[\sum_{n=2}^N({\bf z}_n-{\bf A}{\bf z}_{n-1})({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top\right]{\bf\Gamma}^{-1}\\
&&\Leftrightarrow(N-1){\bf\Gamma}={\mathbb E}\left[\sum_{n=2}^N({\bf z}_n-{\bf A}{\bf z}_{n-1})({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top\right]\\
&&\Leftrightarrow{\bf\Gamma}=\frac{1}{N-1}{\mathbb E}\left[\sum_{n=2}^N({\bf z}_n-{\bf A}{\bf z}_{n-1})({\bf z}_n-{\bf A}{\bf z}_{n-1})^\top\right]\\
&&\Leftrightarrow{\bf\Gamma}=\frac{1}{N-1}{\mathbb E}\left[\sum_{n=2}^N({\bf z}_n{\bf z}_n^\top-{\bf z}_n{\bf z}_{n-1}^\top{\bf A}^\top-{\bf A}{\bf z}_{n-1}{\bf z}_n^\top+{\bf A}{\bf z}_{n-1}{\bf z}_{n-1}^\top{\bf A}^\top)\right]\\
&&\Leftrightarrow{\bf\Gamma}=\frac{1}{N-1}\sum_{n=2}^N\left({\mathbb E}[{\bf z}_n{\bf z}_n^\top]-{\bf A}{\mathbb E}[{\bf z}_{n-1}{\bf z}_n^\top]-{\mathbb E}[{\bf z}_n{\bf z}_{n-1}^\top]{\bf A}^\top+{\bf A}{\mathbb E}[{\bf z}_{n-1}{\bf z}_{n-1}^\top]{\bf A}^\top\right)\tag{2}
\end{eqnarray}

(2) より、式 (13.114) が示せました。

補足

\dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B})={\bf B}^\top,\ \dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B}{\bf A}^\top{\bf C})={\bf C}^\top{\bf A}{\bf B}^\top+{\bf C}{\bf A}{\bf B},\ \dfrac{\partial}{\partial{\bf A}}\ln|{\bf A}|=({\bf A}^{-1})^\top,\ \dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\topの証明については、
ベクトルと行列に関する微分の公式導出をご覧ください。

目次へ戻る