機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

周辺ガウス分布

周辺ガウス分布

{\bf\Lambda}\equiv{\bf\Sigma}^{-1}とした、同時ガウス分布\mathcal{N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})があります。
{\bf x},{\boldsymbol\mu},{\bf\Sigma},{\bf\Lambda}は以下のようにブロック化されているとします。

\begin{eqnarray}
{\bf x}=\begin{pmatrix}{\bf x}_a\\{\bf x}_b\end{pmatrix},\ {\boldsymbol\mu}=\begin{pmatrix}{\boldsymbol\mu}_a\\{\boldsymbol\mu}_b\end{pmatrix},\ 
{\bf\Sigma}=\begin{pmatrix}{\bf\Sigma}_{aa}&{\bf\Sigma}_{ab}\\{\bf\Sigma}_{ba}&{\bf\Sigma}_{bb}\end{pmatrix},\
{\bf\Lambda}=\begin{pmatrix}{\bf\Lambda}_{aa}&{\bf\Lambda}_{ab}\\{\bf\Lambda}_{ba}&{\bf\Lambda}_{bb}\end{pmatrix}\tag{1}
\end{eqnarray}

この時、以下の周辺分布の式が成り立ちます。

\begin{eqnarray}
p({\bf x}_a)=\mathcal{N}({\bf x}_a|{\boldsymbol\mu}_a,{\bf\Sigma}_{aa})\tag{2}
\end{eqnarray}

(2)を以下で示します。

p({\bf x}_a,{\bf x}_b){\bf x}_bで周辺化すると、p({\bf x}_a)になります。

\begin{eqnarray}
&&p({\bf x}_a)=\int p({\bf x}_a,{\bf x}_b)d{\bf x}_b\tag{3}\\
\end{eqnarray}

p({\bf x}_a,{\bf x}_b)\expの中身を計算します。

\begin{eqnarray}
&&-\frac{1}{2}({\bf x}-{\boldsymbol\mu})^\top{\bf\Lambda}({\bf x}-{\boldsymbol\mu})\\
&=&-\frac{1}{2}({\bf x}_a-{\boldsymbol\mu}_a)^\top{\bf\Lambda}_{aa}({\bf x}_a-{\boldsymbol\mu}_a)-\frac{1}{2}({\bf x}_a-{\boldsymbol\mu}_a)^\top{\bf\Lambda}_{ab}({\bf x}_b-{\boldsymbol\mu}_b)\\
&&-\frac{1}{2}({\bf x}_b-{\boldsymbol\mu}_b)^\top{\bf\Lambda}_{ba}({\bf x}_a-{\boldsymbol\mu}_a)-\frac{1}{2}({\bf x}_b-{\boldsymbol\mu}_b)^\top{\bf\Lambda}_{bb}({\bf x}_b-{\boldsymbol\mu}_b)\tag{4}\\
\end{eqnarray}

(4){\bf x}_bに関係した項を処理してから、積分を容易にするため平方完成を行います。
(4)から{\bf x}_bを含む項を取り出すと

\begin{eqnarray}
&&-\frac{1}{2}{\bf x}_b^\top{\bf \Lambda}{\bf x}_b+{\bf x}_b^\top{\bf m}=-\frac{1}{2}({\bf x}_b-{\bf \Lambda}_{bb}^{-1}{\bf m})^\top{\bf\Lambda}_{bb}({\bf x}_b-{\bf \Lambda}_{bb}^{-1}{\bf m})
  +\frac{1}{2}{\bf m}^\top{\bf\Lambda}_{bb}^{-1}{\bf m}\tag{5}\\
&&{\bf m}={\bf\Lambda}_{bb}{\boldsymbol\mu}_b-{\bf\Lambda}_{ba}({\bf x}_a-{\boldsymbol\mu}_a)\tag{6}\\
  
\end{eqnarray}

となります。

(5)の右辺の第1項-\frac{1}{2}({\bf x}_b-{\bf \Lambda}_{bb}^{-1}{\bf m})^\top{\bf\Lambda}_{bb}({\bf x}_b-{\bf \Lambda}_{bb}^{-1}{\bf m}){\bf x}_b積分すると、定数になるので、
(5)の左辺-\frac{1}{2}{\bf x}_b^\top{\bf \Lambda}{\bf x}_b+{\bf x}_b^\top{\bf m}{\bf x}_b積分すると、\frac{1}{2}{\bf m}^\top{\bf\Lambda}_{bb}^{-1}{\bf m}が残ります。
よって、(4)の{\bf x}_aに依存する項と\frac{1}{2}{\bf m}^\top{\bf\Lambda}_{bb}^{-1}{\bf m}を合わせると、

\begin{eqnarray}
&&\frac{1}{2}{\bf m}^\top{\bf\Lambda}_{bb}^{-1}{\bf m}-\frac{1}{2}{\bf x}_a^\top{\bf\Lambda}_{aa}{\bf x}_a+{\bf x}_a^\top({\bf\Lambda}_{aa}{\boldsymbol\mu}_a+{\bf\Lambda}_{ab}{\boldsymbol\mu}_b)+const.\\
&=&\frac{1}{2}({\bf\Lambda}_{aa}{\boldsymbol\mu}_b-{\bf\Lambda}_{ba}({\bf x}_a-{\boldsymbol\mu}_a))^\top{\bf\Lambda}_{bb}^{-1}({\bf\Lambda}_{aa}{\boldsymbol\mu}_b-{\bf\Lambda}_{ba}({\bf x}_a-{\boldsymbol\mu}_a))-\frac{1}{2}{\bf x}_a^\top{\bf\Lambda}_{aa}{\bf x}_a+{\bf x}_a^\top({\bf\Lambda}_{aa}{\boldsymbol\mu}_a+{\bf\Lambda}_{ab}{\boldsymbol\mu}_b)+const.\\
&=&-\frac{1}{2}{\bf x}_a^\top({\bf\Lambda}_{aa}-{\bf\Lambda}_{ab}{\bf\Lambda}_{bb}^{-1}{\bf\Lambda}_{ba}){\bf x}_a+{\bf x}_a^\top({\bf\Lambda}_{aa}-{\bf\Lambda}_{ab}{\bf\Lambda}_{bb}^{-1}{\bf\Lambda}_{ba})+const.\tag{7}\\
\end{eqnarray}

となり、{\bf x}_b積分すると、ガウス分布になることが分かります。

一般のガウス分布\mathcal{N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})の指数部分は次のように書けます。

\begin{eqnarray}
 -\frac{1}{2}({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})=-\frac{1}{2}{\bf x}^\top{\bf\Sigma}^{-1}{\bf x}+{\bf x}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}+{\rm const.}\tag{8}\\
\end{eqnarray}

(7)(8)を係数比較すると、周辺分布p({\bf x}_a)の共分散{\bf\Sigma}_a

\begin{eqnarray}
&&{\bf\Sigma}_a=({\bf\Lambda}_{aa}-{\bf\Lambda}_{ab}{\bf\Lambda}_{bb}^{-1}{\bf\Lambda}_{ba})^{-1}\tag{9}\\
\end{eqnarray}

となり、平均は

\begin{eqnarray}
&&{\bf\Sigma}_a({\bf\Lambda}_{aa}-{\bf\Lambda}_{ab}{\bf\Lambda}_{bb}^{-1}{\bf\Lambda}_{ba}){\boldsymbol\mu}_a={\boldsymbol\mu}_a\tag{10}\\
\end{eqnarray}

となります。

{\bf\Sigma}_aをさらに変形するために、分割された行列の逆行列に関する次の公式を利用します。

\begin{eqnarray}
&&\begin{pmatrix}{\bf A}&{\bf B}\\{\bf C}&{\bf D}\end{pmatrix}^{-1}
=\begin{pmatrix}{\bf M}&-{\bf MBD}^{-1}\\-{\bf D}^{-1}{\bf CM}&{\bf D}^{-1}+{\bf D}^{-1}{\bf CMBD}^{-1}\end{pmatrix}\tag{11}\\
&&{\bf M}=({\bf A}-{\bf BD}^{-1}{\bf C})^{-1}\tag{12}\\
\end{eqnarray}

また、定義より

\begin{eqnarray}
&&\begin{pmatrix}{\bf \Sigma}_{aa}&{\bf \Sigma}_{ab}\\{\bf \Sigma}_{ba}&{\bf \Sigma}_{bb}\end{pmatrix}^{-1}
=\begin{pmatrix}{\bf \Lambda}_{aa}&{\bf \Lambda}_{ab}\\{\bf \Lambda}_{ba}&{\bf \Lambda}_{bb}\end{pmatrix}\tag{13}\\
\end{eqnarray}

であるので、公式を適用すると

\begin{eqnarray}
&&{\bf\Sigma}_{aa}=({\bf\Lambda}_{aa}-{\bf\Lambda}_{ab}{\bf\Lambda}_{bb}^{-1}{\bf\Lambda}_{ba})^{-1}\tag{14}
\end{eqnarray}

となります。(9)(14)より、

\begin{eqnarray}
  &&{\bf\Sigma}_{a}={\bf\Sigma}_{aa}\\ 
\end{eqnarray}

です。

よって、p({\bf x}_a)=\mathcal{N}({\bf x}_a|{\boldsymbol\mu}_a,{\bf\Sigma}_{aa})が示せました。

参考文献

パターン認識機械学習 上巻

偉人の名言

f:id:olj611:20210321054153p:plain:w300
夢なき者に成功なし
吉田松陰

動画

目次へ戻る