機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 13.34(標準)

問題

線形動的システムにおける、\bf C\bf\Sigma に対するMステップの方程式の結果 (13.115)(13.116) を確かめよ。

参照

\begin{eqnarray}
{\bf C}^{\rm new}=\left(\sum_{n=1}^N{\bf x}_n{\mathbb E}[{\bf z}_n^\top]\right)\left(\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]\right)^{-1}\tag{13.115}
\end{eqnarray}

\begin{eqnarray}
{\bf\Sigma}^{\rm new}&=&\frac{1}{N}\sum_{n=1}^N\Bigg({\bf x}_n{\bf x}_n^\top-{\bf C}^{\rm new}{\mathbb E}[{\bf z}_n]{\bf x}_n^\top\\
&&-{\bf x}_n{\mathbb E}[{\bf z}_n^\top]({\bf C}^{\rm new})^\top+{\bf C}^{\rm new}{\mathbb E}[{\bf z}_n{\bf z}_n^\top]({\bf C}^{\rm new})^\top\Bigg)\tag{13.116}
\end{eqnarray}

解答

PRML下巻 p362より、以下が成り立ちます。

\begin{eqnarray}
Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})=-\frac{N}{2}\ln|{\bf\Sigma}|-{\mathbb E}_{{\bf Z}|{\boldsymbol\theta}^{\rm old}}\left[\frac{1}{2}\sum_{n=1}^N({\bf x}_n-{\bf C}{\bf z}_n)^\top{\bf\Sigma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n)\right]+{\rm const}\tag{1}
\end{eqnarray}

(1){\bf C}微分して、={\bf O} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf C}}Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})={\bf O}\\
&&\Leftrightarrow \frac{\partial}{\partial{\bf C}}{\mathbb E}\left[\sum_{n=1}^N({\bf x}_n-{\bf C}{\bf z}_n)^\top{\bf\Gamma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\sum_{n=1}^N\frac{\partial}{\partial{\bf C}}\left({\bf x}_n^\top{\bf\Gamma}^{-1}{\bf x}_n-2{\bf x}_n^\top{\bf\Gamma}^{-1}{\bf C}{\bf z}_n+{\bf z}_n^\top{\bf C}^\top{\bf\Gamma}^{-1}{\bf C}{\bf z}_n\right)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\sum_{n=1}^N\left(-2\frac{\partial}{\partial{\bf C}}{\bf x}_n^\top{\bf\Gamma}^{-1}{\bf C}{\bf z}_n+\frac{\partial}{\partial{\bf C}}{\bf z}_n^\top{\bf C}^\top{\bf\Gamma}^{-1}{\bf C}{\bf z}_n\right)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\left[\sum_{n=1}^N\left(-2\frac{\partial}{\partial{\bf C}}{\rm Tr}\left({\bf x}_n^\top{\bf\Gamma}^{-1}{\bf C}{\bf z}_n\right)+\frac{\partial}{\partial{\bf C}}{\rm Tr}\left({\bf z}_n^\top{\bf C}^\top{\bf\Gamma}^{-1}{\bf C}{\bf z}_n\right)\right)\right]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\Bigg[\sum_{n=1}^N\Bigg(-2\frac{\partial}{\partial{\bf C}}\underbrace{{\rm Tr}\left({\bf C}{\bf z}_n{\bf x}_n^\top{\bf\Gamma}^{-1}\right)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}+\frac{\partial}{\partial{\bf C}}\underbrace{{\rm Tr}\left({\bf C}{\bf z}_n{\bf z}_n^\top{\bf C}^\top{\bf\Gamma}^{-1}\right)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}\Bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\Bigg[\sum_{n=1}^N\bigg(-2\underbrace{({\bf z}_n{\bf x}_n^\top{\bf\Gamma}^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B})={\bf B}^\top}+\underbrace{({\bf\Gamma}^{-1})^\top{\bf C}({\bf z}_n{\bf z}_n^\top)^\top+{\bf\Gamma}^{-1}{\bf C}{\bf z}_n{\bf z}_n^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B}{\bf A}^\top{\bf C})={\bf C}^\top{\bf A}{\bf B}^\top+{\bf C}{\bf A}{\bf B}}\bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow {\mathbb E}\Bigg[\sum_{n=1}^N\bigg(-2{\bf\Gamma}^{-1}{\bf x}_n{\bf z}_n^\top+{\bf\Gamma}^{-1}{\bf C}{\bf z}_n{\bf z}_n^\top+{\bf\Gamma}^{-1}{\bf C}{\bf z}_n{\bf z}_n^\top\bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow {\bf\Gamma}^{-1}{\mathbb E}\Bigg[\sum_{n=1}^N\bigg(-{\bf x}_n{\bf z}_n^\top+{\bf C}{\bf z}_n{\bf z}_n^\top\bigg)\Bigg]={\bf O}\\
&&\Leftrightarrow -\sum_{n=1}^N{\bf x}_n{\mathbb E}[{\bf z}_n^\top]+{\bf C}\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]={\bf O}\\
&&\Leftrightarrow {\bf C}\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]=\sum_{n=1}^N{\bf x}_n{\mathbb E}[{\bf z}_n^\top]\\
&&\Leftrightarrow {\bf C}=\left(\sum_{n=1}^N{\bf x}_n{\mathbb E}[{\bf z}_n^\top]\right)\left(\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]\right)^{-1}\tag{2}
\end{eqnarray}

(2) より、式 (13.115) が示せました。

(1){\bf \Sigma}微分して、={\bf O} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf\Sigma}}Q({\boldsymbol\theta},{\boldsymbol\theta}^{\rm old})={\bf O}\\
&&\Leftrightarrow N\frac{\partial}{\partial{\bf\Sigma}}\ln|{\bf\Sigma}|+{\mathbb E}\left[\sum_{n=1}^N\frac{\partial}{\partial{\bf\Sigma}}({\bf x}_n-{\bf C}{\bf z}_n)^\top{\bf\Sigma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n)\right]={\bf O}\\
&&\Leftrightarrow N\frac{\partial}{\partial{\bf\Sigma}}\ln|{\bf\Sigma}|+{\mathbb E}\left[\sum_{n=1}^N\frac{\partial}{\partial{\bf\Sigma}}{\rm Tr}( ({\bf x}_n-{\bf C}{\bf z}_n)^\top{\bf\Sigma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n) )\right]={\bf O}\\
&&\Leftrightarrow N\frac{\partial}{\partial{\bf\Sigma}}\ln|{\bf\Sigma}|+{\mathbb E}\Bigg[\sum_{n=1}^N\frac{\partial}{\partial{\bf\Sigma}}\underbrace{{\rm Tr}({\bf\Sigma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n)({\bf x}_n-{\bf C}{\bf z}_n)^\top)}_{{\rm Tr}({\bf AB})={\rm Tr}({\bf BA})}\Bigg]={\bf O}\\
&&\Leftrightarrow N\underbrace{({\bf\Sigma}^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}\ln|{\bf A}|=({\bf A}^{-1})^\top}+{\mathbb E}\Bigg[\sum_{n=1}^N\underbrace{-({\bf\Sigma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n)({\bf x}_n-{\bf C}{\bf z}_n)^\top{\bf\Sigma}^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\top}\Bigg]={\bf O}\\
&&\Leftrightarrow N{\bf\Sigma}^{-1}-{\mathbb E}\left[\sum_{n=1}^N{\bf\Sigma}^{-1}({\bf x}_n-{\bf C}{\bf z}_n)({\bf x}_n-{\bf C}{\bf z}_n)^\top{\bf\Sigma}^{-1}\right]={\bf O}\\
&&\Leftrightarrow N{\bf\Sigma}^{-1}={\bf\Sigma}^{-1}{\mathbb E}\left[\sum_{n=1}^N({\bf x}_n-{\bf C}{\bf z}_n)({\bf x}_n-{\bf C}{\bf z}_n)^\top\right]{\bf\Sigma}^{-1}\\
&&\Leftrightarrow N{\bf\Sigma}={\mathbb E}\left[\sum_{n=1}^N({\bf x}_n-{\bf C}{\bf z}_n)({\bf x}_n-{\bf C}{\bf z}_n)^\top\right]\\
&&\Leftrightarrow{\bf\Sigma}=\frac{1}{N}{\mathbb E}\left[\sum_{n=1}^N({\bf x}_n-{\bf C}{\bf z}_n)({\bf x}_n-{\bf C}{\bf z}_n)^\top\right]\\
&&\Leftrightarrow{\bf\Sigma}=\frac{1}{N}{\mathbb E}\left[\sum_{n=1}^N({\bf x}_n{\bf x}_n^\top-{\bf x}_n{\bf z}_n^\top{\bf C}^\top-{\bf C}{\bf z}_n{\bf x}_n^\top+{\bf C}{\bf z}_n{\bf z}_n^\top{\bf C}^\top)\right]\\
&&\Leftrightarrow{\bf\Sigma}=\frac{1}{N}\sum_{n=1}^N\left({\bf x}_n{\bf x}_n^\top-{\bf C}{\mathbb E}[{\bf z}_n]{\bf x}_n^\top-{\bf x}_n{\mathbb E}[{\bf z}_n^\top]{\bf C}^\top+{\bf C}{\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf C}^\top\right)\tag{3}
\end{eqnarray}

(3) より、式 (13.116) が示せました。

補足

\dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B})={\bf B}^\top,\ \dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B}{\bf A}^\top{\bf C})={\bf C}^\top{\bf A}{\bf B}^\top+{\bf C}{\bf A}{\bf B},\ \dfrac{\partial}{\partial{\bf A}}\ln|{\bf A}|=({\bf A}^{-1})^\top,\ \dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\topの証明については、
ベクトルと行列に関する微分の公式導出をご覧ください。

目次へ戻る