機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.34(標準) www

問題

多変量ガウス分布の共分散行列の最尤推定解を求めるには、共分散行列が対称で正定値である制約の下で
{\bf\Sigma} について対数尤度関数 (2.118) を最大化しなくてはならない。
ここでは、こうした制約を無視して、ただ最大化することにする。
付録 \rm C({\rm C}.21),({\rm C}.26)、および ({\rm C}.28) の結果を用いて、対数尤度関数 (2.118) を最大化する共分散行列 \bf\Sigma が、
サンプル共分散 (2.122) となることを示せ。
なお(サンプル共分散が非特異なら)最終結果は対称かつ、正定値である必要がある。

参照

\begin{eqnarray}
\ln p({\bf X}|{\boldsymbol\mu},{\bf\Sigma})=-\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln|{\bf\Sigma}|-\frac{1}{2}\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}_n-{\boldsymbol\mu})\tag{2.118}
\end{eqnarray}

\begin{eqnarray}
{\bf\Sigma}_{\rm ML}=\frac{1}{N}\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu}_{\rm ML})({\bf x}_n-{\boldsymbol\mu}_{\rm ML})^\top\tag{2.122}
\end{eqnarray}

\begin{eqnarray}
\frac{\partial}{\partial x}\ln|{\bf A}|={\rm Tr}\left({\bf A}^{-1}\frac{\partial{\bf A}}{\partial x}\right)\tag{C.21}
\end{eqnarray}

\begin{eqnarray}
\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A})={\bf I}\tag{C.26}
\end{eqnarray}

\begin{eqnarray}
\frac{\partial}{\partial{\bf A}}\ln|{\bf A}|=\left({\bf A}^{-1}\right)^\top\tag{C.28}
\end{eqnarray}

解答

(2.118){\bf \Sigma}微分して、={\bf O} とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf\Sigma}}\ln p({\bf X}|{\boldsymbol\mu},{\bf\Sigma})={\bf O}\\
&&\Leftrightarrow-\frac{N}{2}\frac{\partial}{\partial{\bf\Sigma}}\ln|{\bf\Sigma}|-\frac{1}{2}\frac{\partial}{\partial{\bf\Sigma}}\sum_{n=1}^N({\bf x}_n-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}_n-{\boldsymbol\mu})={\bf O}\\
&&\Leftrightarrow-\frac{N}{2}\underbrace{\left({\bf\Sigma}^{-1}\right)^\top}_{({\rm C}.28)}-\frac{1}{2}\frac{\partial}{\partial{\bf\Sigma}}\sum_{n=1}^N{\rm Tr}\left(({\bf x}_n-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}_n-{\boldsymbol\mu})\right)={\bf O}\\
&&\Leftrightarrow-\frac{N}{2}\left({\bf\Sigma}^{-1}\right)^\top-\frac{1}{2}\frac{\partial}{\partial{\bf\Sigma}}\sum_{n=1}^N\underbrace{{\rm Tr}\left({\bf\Sigma}^{-1}({\bf x}_n-{\boldsymbol\mu})({\bf x}_n-{\boldsymbol\mu})^\top\right)}_{{\rm Tr}({\bf A}{\bf B})={\rm Tr}({\bf B}{\bf A})}={\bf O}\\
&&\Leftrightarrow-\frac{N}{2}\left({\bf\Sigma}^{-1}\right)^\top-\frac{1}{2}\frac{\partial}{\partial{\bf\Sigma}}{\rm Tr}\left(\sum_{n=1}^N{\bf\Sigma}^{-1}({\bf x}_n-{\boldsymbol\mu})({\bf x}_n-{\boldsymbol\mu})^\top\right)={\bf O}\\
&&\Leftrightarrow-\frac{N}{2}\left({\bf\Sigma}^{-1}\right)^\top-\frac{N}{2}\frac{\partial}{\partial{\bf\Sigma}}{\rm Tr}\left({\bf\Sigma}^{-1}{\bf S}\right)={\bf O}\\
&&\Leftrightarrow-\frac{N}{2}\left({\bf\Sigma}^{-1}\right)^\top-\frac{N}{2}(\underbrace{-({\bf\Sigma}^{-1}{\bf S}{\bf\Sigma}^{-1})^\top}_{\frac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\top})={\bf O}\\
&&\Leftrightarrow\left({\bf\Sigma}^{-1}\right)^\top=\left({\bf\Sigma}^{-1}{\bf S}{\bf\Sigma}^{-1}\right)^\top\\
&&\Leftrightarrow{\bf\Sigma}^{-1}={\bf\Sigma}^{-1}{\bf S}{\bf\Sigma}^{-1}\\
&&\Leftrightarrow{\bf\Sigma}={\bf S}\tag{1}
\end{eqnarray}

(1) より、対数尤度関数を最大化する共分散行列 \bf\Sigma が、サンプル共分散 (2.122) となることが示せました。

また、 \bf\Sigma に対する対称性を仮定せずに、最尤解を求めると \bf\Sigma が対象行列になることが分かりました。

補足

\dfrac{\partial}{\partial{\bf A}}{\rm Tr}({\bf A}^{-1}{\bf B})=-({\bf A}^{-1}{\bf B}{\bf A}^{-1})^\top に関する証明は、ベクトルと行列に関する微分の公式導出 を参照ください。

目次へ戻る