機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 12.10(標準)

問題

確率的主成分分析モデルの対数尤度関数 (12.43) の、パラメータ {\boldsymbol\mu} に対する2次微分を求めることにより、
停留点 {\boldsymbol\mu}_{\rm ML}=\bar{\bf x} が唯一の最大値を与える点となることを示せ。

参照

\begin{eqnarray}
{\bf C}={\bf W}{\bf W}^\top+\sigma^2{\bf I}\tag{12.36}
\end{eqnarray}

\begin{eqnarray}
\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)&=&\sum_{n=1}^N\ln{\mathcal N}({\bf x}_n|{\boldsymbol\mu},{\bf C})\\
&=&-\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln|{\bf C}|-\frac{1}{2}\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu})^\top{\bf C}^{-1}({\bf x}_n-{\boldsymbol\mu})\tag{12.43}
\end{eqnarray}

解答

\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2){\boldsymbol\mu} に関するヘッセ行列 \dfrac{\partial^2}{\partial{\boldsymbol\mu}\partial{\boldsymbol\mu}^\top}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)=\left(\dfrac{\partial}{\partial{\boldsymbol\mu}}\left(\dfrac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)\right)\right)^\topを求めます。

まず、\dfrac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2) を計算します。

\begin{eqnarray}
\frac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)&=&-\frac{1}{2}\sum_{n=1}^N\frac{\partial}{\partial{\boldsymbol\mu}}({\bf x}_n-{\boldsymbol\mu})^\top{\bf C}^{-1}({\bf x}_n-{\boldsymbol\mu})\\
&=&-\frac{1}{2}\sum_{n=1}^N\frac{\partial}{\partial{\boldsymbol\mu}}({\bf x}_n^\top{\bf C}^{-1}{\bf x}_n-2{\boldsymbol\mu}^\top{\bf C}^{-1}{\bf x}_n+{\boldsymbol\mu}^\top{\bf C}^{-1}{\boldsymbol\mu})={\bf 0}\\
&=&-\frac{1}{2}\sum_{n=1}^N\left(-2\frac{\partial}{\partial{\boldsymbol\mu}}{\boldsymbol\mu}^\top{\bf C}^{-1}{\bf x}_n+\frac{\partial}{\partial{\boldsymbol\mu}}{\boldsymbol\mu}^\top{\bf C}^{-1}{\boldsymbol\mu}\right)={\bf 0}\\
&=&-\frac{1}{2}\sum_{n=1}^N\left(-2{\bf C}^{-1}{\bf x}_n+2{\bf C}^{-1}{\boldsymbol\mu}\right)\\
&=&\sum_{n=1}^N\left({\bf C}^{-1}{\bf x}_n-{\bf C}^{-1}{\boldsymbol\mu}\right)\\
&=&\sum_{n=1}^N{\bf C}^{-1}{\bf x}_n-N{\bf C}^{-1}{\boldsymbol\mu}\tag{1}
\end{eqnarray}

次に、\dfrac{\partial}{\partial{\boldsymbol\mu}}\left(\dfrac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)\right) を計算します。

\begin{eqnarray}
\frac{\partial}{\partial{\boldsymbol\mu}}\left(\frac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)\right)&=&\frac{\partial}{\partial{\boldsymbol\mu}}\left(\sum_{n=1}^N{\bf C}^{-1}{\bf x}_n-N{\bf C}^{-1}{\boldsymbol\mu}\right)\\
&=&-N\frac{\partial}{\partial{\boldsymbol\mu}}{\bf C}^{-1}{\boldsymbol\mu}\\
&=&-N{\bf C}^{-1}\tag{2}
\end{eqnarray}

最後に、\left(\dfrac{\partial}{\partial{\boldsymbol\mu}}\left(\dfrac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)\right)\right)^\top を計算します。

\begin{eqnarray}
\left(\frac{\partial}{\partial{\boldsymbol\mu}}\left(\frac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2)\right)\right)^\top&=&-N({\bf C}^{-1})^\top\\
&=&-N{\bf C}^{-1}\tag{3}
\end{eqnarray}

(3) より、\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2){\boldsymbol\mu} に関するヘッセ行列が -N{\bf C}^{-1} であることが分かりました。

{\bf 0} 以外の任意のベクトル \bf a について、{\bf a}^\top{\bf C}{\bf a} を計算します。

\begin{eqnarray}
{\bf a}^\top{\bf C}{\bf a}&=&{\bf a}^\top({\bf W}{\bf W}^\top+\sigma^2{\bf I}){\bf a}\\
&=&{\bf a}^\top{\bf W}{\bf W}^\top{\bf a}+\sigma^2{\bf a}^\top{\bf a}\\
&=&||{\bf a}^\top{\bf W}||^2+\sigma^2||{\bf a}||^2 > 0\ (\therefore\sigma^2 > 0,{\bf a}\not={\bf 0})\tag{4}
\end{eqnarray}

(4) より、\bf C は正定値行列であるので、{\bf C}固有値 \lambda_i はすべて正であり、
{\bf C}^{-1}固有値 1/\lambda_i もすべて正です。
よって、{\bf C}^{-1} は正定値行列です。\cdots(5)

(3),(5) より、\ln p({\bf X}|{\boldsymbol\mu},{\bf W},\sigma^2){\boldsymbol\mu} に関するヘッセ行列は負定値行列なので、狭義凹関数であり、
停留点 {\boldsymbol\mu}_{\rm ML}=\bar{\bf x} が唯一の最大値を与える点となります。

目次へ戻る