機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 12.15(標準) www

問題

(12.53) で与えられる完全データの対数尤度関数の期待値を最大化することにより、
確率的主成分分析モデルの M ステップの式 (12.56)(12.57) を導け。

参照

\begin{eqnarray}
{\mathbb E}[\ln p({\bf X},{\bf Z}|{\boldsymbol\mu},{\bf W},\sigma^2)]=-\sum_{n=1}^N\Bigg(
\frac{D}{2}\ln(2\pi\sigma^2)+\frac{1}{2}{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top])+\frac{1}{2\sigma^2}||{\bf x}_n-{\boldsymbol\mu}||^2\\
 -\frac{1}{\sigma^2}{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu})+\frac{1}{2\sigma^2}{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})+\frac{M}{2}\ln(2\pi)
\Bigg)\tag{12.53}
\end{eqnarray}

\begin{eqnarray}
{\bf W}_{\rm new}=\left(\sum_{n=1}^N({\bf x}_n-\bar{\bf x}){\mathbb E}[{\bf z}_n]^\top\right)\left(\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]\right)^{-1}\tag{12.56}
\end{eqnarray}

\begin{eqnarray}
\sigma_{\rm new}^2=\frac{1}{ND}\sum_{n=1}^N\left(||{\bf x}_n-\bar{\bf x}||^2-2{\mathbb E}[{\bf z}_n]^\top{\bf W}_{\rm new}^\top({\bf x}_n-\bar{\bf x})+{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}_{\rm new}^\top{\bf W}_{\rm new})\right)\tag{12.57}
\end{eqnarray}

解答

{\mathbb E}[\ln p({\bf X},{\bf Z}|{\boldsymbol\mu},{\bf W},\sigma^2)]\bf W微分して、={\bf O} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf W}}{\mathbb E}[\ln p({\bf X},{\bf Z}|{\boldsymbol\mu},{\bf W},\sigma^2)]={\bf O}\\
&&\Leftrightarrow-\sum_{n=1}^N\Bigg(
 -\frac{1}{\sigma^2}\frac{\partial}{\partial{\bf W}}{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu})+\frac{1}{2\sigma^2}\frac{\partial}{\partial{\bf W}}{\rm Tr}\left({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W}\right)
\Bigg)={\bf O}\\
&&\Leftrightarrow-\sum_{n=1}^N\Bigg(
 -\frac{1}{\sigma^2}\frac{\partial}{\partial{\bf W}}{\rm Tr}({\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu}))+\frac{1}{2\sigma^2}\frac{\partial}{\partial{\bf W}}{\rm Tr}\left({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W}\right)
\Bigg)={\bf O}\\
&&\Leftrightarrow-\sum_{n=1}^N\Bigg(
 -\frac{1}{\sigma^2}\frac{\partial}{\partial{\bf W}}{\rm Tr}({\bf W}^\top({\bf x}_n-{\boldsymbol\mu}){\mathbb E}[{\bf z}_n]^\top)+\frac{1}{2\sigma^2}\frac{\partial}{\partial{\bf W}}{\rm Tr}\left({\bf W}{\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top\right)
\Bigg)={\bf O}\\
&&\Leftrightarrow-\sum_{n=1}^N\Bigg(
 -\frac{1}{\sigma^2}\underbrace{({\bf x}_n-{\boldsymbol\mu}){\mathbb E}[{\bf z}_n]^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^\top{\bf B})={\bf B}}+\frac{1}{2\sigma^2}\underbrace{{\bf W}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]+{\mathbb E}[{\bf z}_n{\bf z}_n^\top]^\top))}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B}{\bf A}^\top)={\bf A}({\bf B}+{\bf B}^\top)}
\Bigg)={\bf O}\\
&&\Leftrightarrow-\sum_{n=1}^N\Bigg(
 -\frac{1}{\sigma^2}({\bf x}_n-{\boldsymbol\mu}){\mathbb E}[{\bf z}_n]^\top+\frac{1}{2\sigma^2}{\bf W}\cdot 2{\mathbb E}[{\bf z}_n{\bf z}_n^\top]
\Bigg)={\bf O}\\
&&\Leftrightarrow{\bf W}\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]=\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu}){\mathbb E}[{\bf z}_n]^\top\\
&&\Leftrightarrow{\bf W}=\left(\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu}){\mathbb E}[{\bf z}_n]^\top\right)\left(\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]\right)^{-1}\tag{1}
\end{eqnarray}

(1) において、{\boldsymbol\mu}=\bar{\bf x} とします。

\begin{eqnarray}
{\bf W}=\left(\sum_{n=1}^N({\bf x}_n-\bar{\bf x}){\mathbb E}[{\bf z}_n]^\top\right)\left(\sum_{n=1}^N{\mathbb E}[{\bf z}_n{\bf z}_n^\top]\right)^{-1}\tag{2}
\end{eqnarray}

(2) より、式 (12.56) が示せました。

{\mathbb E}[\ln p({\bf X},{\bf Z}|{\boldsymbol\mu},{\bf W},\sigma^2)]\sigma^2微分して、=0 とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\sigma^2}{\mathbb E}[\ln p({\bf X},{\bf Z}|{\boldsymbol\mu},{\bf W},\sigma^2)]=0\\
&&\Leftrightarrow-\sum_{n=1}^N\Bigg(
\frac{D}{2}\frac{\partial}{\partial\sigma^2}\ln(2\pi\sigma^2)+\frac{\partial}{\partial\sigma^2}\frac{1}{2\sigma^2}||{\bf x}_n-{\boldsymbol\mu}||^2
 -\frac{\partial}{\partial\sigma^2}\frac{1}{\sigma^2}{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu})+\frac{\partial}{\partial\sigma^2}\frac{1}{2\sigma^2}{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})
\Bigg)=0\\
&&\Leftrightarrow\sum_{n=1}^N\Bigg(
\frac{D}{2}\frac{2\pi}{2\pi\sigma^2}-\frac{1}{2\sigma^4}||{\bf x}_n-{\boldsymbol\mu}||^2
 +\frac{1}{\sigma^4}{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu})-\frac{1}{2\sigma^4}{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})
\Bigg)=0\\
&&\Leftrightarrow\sum_{n=1}^N\left(D\sigma^2-||{\bf x}_n-{\boldsymbol\mu}||^2+2{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu})-{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})\right)=0\\
&&\Leftrightarrow -ND\sigma^2=\sum_{n=1}^N\left(-||{\bf x}_n-{\boldsymbol\mu}||^2+2{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n-{\boldsymbol\mu})-{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})\right)\\
&&\Leftrightarrow \sigma^2=\frac{1}{ND}\sum_{n=1}^N\left(||{\bf x}_n-{\boldsymbol\mu}||^2-2{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n+{\boldsymbol\mu})-{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})\right)\tag{3}
\end{eqnarray}

(3) において、{\boldsymbol\mu}=\bar{\bf x} とします。

\begin{eqnarray}
\sigma^2=\frac{1}{ND}\sum_{n=1}^N\left(||{\bf x}_n-\bar{\bf x}||^2-2{\mathbb E}[{\bf z}_n]^\top{\bf W}^\top({\bf x}_n+\bar{\bf x})-{\rm Tr}({\mathbb E}[{\bf z}_n{\bf z}_n^\top]{\bf W}^\top{\bf W})\right)\tag{4}
\end{eqnarray}

(4) より、式 (12.57) が示せました。

補足

\dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^\top{\bf B})={\bf B},\ \dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}{\bf B}{\bf A}^\top)={\bf A}({\bf B}+{\bf B}^\top) の証明については、
ベクトルと行列に関する微分の公式導出 をご覧ください。

目次へ戻る