機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 12.20(標準)

問題

2導関数を考えることによって、12.2.4 節で説明した因子分析モデルの対数尤度関数の、
パラメータ {\boldsymbol\mu} に対する唯一の停留点が、(12.1) で定義されたサンプル平均で与えられることを示せ。
さらに、この停留点が最大値を与えることを示せ。

参照

\begin{eqnarray}
{\bf C}={\bf W}{\bf W}^\top+{\boldsymbol\Psi}\tag{12.65}
\end{eqnarray}

解答

周辺分布 p({\bf x}) は以下で与えられます。(PRML p302より)

\begin{eqnarray}
p({\bf x})=p({\bf x}|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi})={\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf C})\tag{1}
\end{eqnarray}

(1) より、尤度関数は、以下のようになります。

\begin{eqnarray}
p({\bf X}|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi})=\prod_{i=1}^Np({\bf x}_n|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi})\tag{2}
\end{eqnarray}

(2) より、対数尤度関数は、以下のようになります。

\begin{eqnarray}
\ln p({\bf X}|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi})&=&\ln \prod_{i=1}^Np({\bf x}_n|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi})\\
&=&-\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln|{\bf C}|-\frac{1}{2}\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu})^\top{\bf C}^{-1}({\bf x}_n-{\boldsymbol\mu})\tag{3}
\end{eqnarray}

(3){\boldsymbol\mu}微分して、={\bf 0} とおくと、PRML演習問題 12.9(基本)と同じ式になるので、以下のようになります。

\begin{eqnarray}
{\boldsymbol\mu}_{\rm ML}=\bar{\bf x}\tag{4}
\end{eqnarray}

(4) より、 {\boldsymbol\mu} に対する唯一の停留点が、(12.1) で定義されたサンプル平均で与えられることが示せました。

また、\ln p({\bf X}|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi}){\boldsymbol\mu} に関するヘッセ行列は、PRML演習問題 12.10(標準)より、以下のようになります。

\begin{eqnarray}
\left(\frac{\partial}{\partial{\boldsymbol\mu}}\left(\frac{\partial}{\partial{\boldsymbol\mu}}\ln p({\bf X}|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi})\right)\right)^\top=-N{\bf C}^{-1}\tag{5}
\end{eqnarray}

{\bf 0} 以外の任意のベクトル \bf a について、{\bf a}^\top{\bf C}{\bf a} を計算します。

\begin{eqnarray}
{\bf a}^\top{\bf C}{\bf a}&=&{\bf a}^\top({\bf W}{\bf W}^\top+{\boldsymbol\Psi}){\bf a}\\
&=&{\bf a}^\top{\bf W}{\bf W}^\top{\bf a}+{\bf a}^\top{\boldsymbol\Psi}{\bf a}\\
&=&||{\bf a}^\top{\bf W}||^2+\sum_{i=1}^D(\psi_1a_i)^2>0\tag{6}
\end{eqnarray}

(6){\boldsymbol\Psi}\not={\bf O} と仮定しました。

(6) より、\bf C は正定値行列であるので、{\bf C}^{-1} は正定値行列です。\cdots(7)

(5),(7) より、\ln p({\bf X}|{\boldsymbol\mu},{\bf W},{\boldsymbol\Psi}){\boldsymbol\mu} に関するヘッセ行列は負定値行列なので、狭義凹関数であり、
停留点 {\boldsymbol\mu}_{\rm ML}=\bar{\bf x} が唯一の最大値を与える点となります。

目次へ戻る