機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

条件付きガウス分布

条件付きガウス分布

{\bf\Lambda}\equiv{\bf\Sigma}^{-1}とした、同時ガウス分布\mathcal{N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})があります。
{\bf x},{\boldsymbol\mu},{\bf\Sigma},{\bf\Lambda}は以下のようにブロック化されているとします。

\begin{eqnarray}
&&{\bf x}=\begin{pmatrix}{\bf x}_a\\{\bf x}_b\end{pmatrix},\ {\boldsymbol\mu}=\begin{pmatrix}{\boldsymbol\mu}_a\\{\boldsymbol\mu}_b\end{pmatrix},\ 
&&{\bf\Sigma}=\begin{pmatrix}{\bf\Sigma}_{aa}&{\bf\Sigma}_{ab}\\{\bf\Sigma}_{ba}&{\bf\Sigma}_{bb}\end{pmatrix},\
&&{\bf\Lambda}=\begin{pmatrix}{\bf\Lambda}_{aa}&{\bf\Lambda}_{ab}\\{\bf\Lambda}_{ba}&{\bf\Lambda}_{bb}\end{pmatrix}\tag{1}
\end{eqnarray}

この時、以下の条件付き分布の式が成り立ちます。

\begin{eqnarray}
&&p({\bf x}_a|{\bf x}_b)=\mathcal{N}({\bf x}_a|{\boldsymbol\mu}_{a|b},{\bf\Sigma}_{a|b})\tag{2}\\
&&{\boldsymbol\mu}_{a|b}={\boldsymbol\mu}_a+{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}({\bf x}_b-{\boldsymbol\mu}_b)\tag{3}\\
&&{\bf\Sigma}_{a|b}={\bf\Sigma}_{aa}-{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}{\bf\Sigma}_{ba}\tag{4}\\
\end{eqnarray}

(2),(3),(4)を以下で示します。

{\bf\Sigma}_{aa},{\bf\Sigma}_{bb}は対象行列です。また、{\bf\Sigma}_{ba}={\bf\Sigma}_{ab}^\topが成り立ちます。
{\bf\Lambda}_{aa},{\bf\Lambda}_{bb}は対象行列です。また、{\bf\Lambda}_{ba}={\bf\Lambda}_{ab}^\topが成り立ちます。

p({\bf x}_a|{\bf x}_b)を計算すると、

\begin{eqnarray}
&&p({\bf x}_a|{\bf x}_b)=\frac{p({\bf x}_a,{\bf x}_b)}{p({\bf x}_b)}\propto p({\bf x}_a,{\bf x}_b)\tag{5}\\
\end{eqnarray}

となるので、p({\bf x}_a,{\bf x}_b)について考えればよいことが分かります。

p({\bf x}_a,{\bf x}_b)\expの中身を計算します。

\begin{eqnarray}
&&-\frac{1}{2}({\bf x}-{\boldsymbol\mu})^\top{\bf\Lambda}({\bf x}-{\boldsymbol\mu})\\
&=&-\frac{1}{2}({\bf x}_a-{\boldsymbol\mu}_a)^\top{\bf\Lambda}_{aa}({\bf x}_a-{\boldsymbol\mu}_a)-\frac{1}{2}({\bf x}_a-{\boldsymbol\mu}_a)^\top{\bf\Lambda}_{ab}({\bf x}_b-{\boldsymbol\mu}_b)\\
&&-\frac{1}{2}({\bf x}_b-{\boldsymbol\mu}_b)^\top{\bf\Lambda}_{ba}({\bf x}_a-{\boldsymbol\mu}_a)-\frac{1}{2}({\bf x}_b-{\boldsymbol\mu}_b)^\top{\bf\Lambda}_{bb}({\bf x}_b-{\boldsymbol\mu}_b)\tag{6}\\
\end{eqnarray}

この式を{\bf x}_aの関数とみると、2次形式になっているので
対応する条件付き分布 p({\bf x}_a|{\bf x}_b)ガウス分布になっていることが分かります。

一般のガウス分布\mathcal{N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma})の指数部分は次のように書けます。

\begin{eqnarray}
 -\frac{1}{2}({\bf x}-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}-{\boldsymbol\mu})=-\frac{1}{2}{\bf x}^\top{\bf\Sigma}^{-1}{\bf x}+{\bf x}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}+{\rm const.}\tag{7}\\
\end{eqnarray}

(6),(7)を係数比較すれば、条件付ガウス分布のパラメータが求まります。

{\bf x}_aについての2次の項を①式よりすべて取り出すと、-\frac{1}{2}{\bf x}_a^\top{\bf \Lambda}_{aa}{\bf x}_aです。
よって、

\begin{eqnarray}
&&{\bf\Sigma}_{a|b}={\bf\Lambda}_{aa}^{-1}\tag{8}\\
\end{eqnarray}

となります。

次に{\bf x}_aについての線形の項をすべて考えると、{\bf x}_a^\top({\bf\Lambda}_{aa}{\boldsymbol\mu}_a-{\bf\Lambda}_{ab}({\bf x}_b-{\boldsymbol\mu}_b))です。
よって、

\begin{eqnarray}
&&{\bf\Sigma}_{a|b}^{-1}{\boldsymbol\mu}_{a|b}={\bf\Lambda}_{aa}{\boldsymbol\mu}_a-{\bf\Lambda}_{ab}({\bf x}_b-{\boldsymbol\mu}_b)\\
&&\Leftrightarrow{\boldsymbol\mu}_{a|b}={\bf\Sigma}_{a|b}({\bf\Lambda}_{aa}{\boldsymbol\mu}_a-{\bf\Lambda}_{ab}({\bf x}_b-{\boldsymbol\mu}_b))\\
&&\Leftrightarrow{\boldsymbol\mu}_{a|b}={\boldsymbol\mu}_a-{\bf\Lambda}_{aa}^{-1}{\bf\Lambda}_{ab}({\bf x}_b-{\boldsymbol\mu}_b)\tag{9}\\
\end{eqnarray}

{\boldsymbol\mu}_{a|b},{\bf\Sigma}_{a|b}をさらに変形するために、分割された行列の逆行列に関する次の公式を利用します。

\begin{eqnarray}
&&\begin{pmatrix}{\bf A}&{\bf B}\\{\bf C}&{\bf D}\end{pmatrix}^{-1}
=\begin{pmatrix}{\bf M}&-{\bf MBD}^{-1}\\-{\bf D}^{-1}{\bf CM}&{\bf D}^{-1}+{\bf D}^{-1}{\bf CMBD}^{-1}\end{pmatrix}\tag{10}\\
&&{\bf M}=({\bf A}-{\bf BD}^{-1}{\bf C})^{-1}\tag{11}\\
\end{eqnarray}

また、定義より

\begin{eqnarray}
&&\begin{pmatrix}{\bf \Sigma}_{aa}&{\bf \Sigma}_{ab}\\{\bf \Sigma}_{ba}&{\bf \Sigma}_{bb}\end{pmatrix}^{-1}
=\begin{pmatrix}{\bf \Lambda}_{aa}&{\bf \Lambda}_{ab}\\{\bf \Lambda}_{ba}&{\bf \Lambda}_{bb}\end{pmatrix}\tag{12}\\
\end{eqnarray}

であるので、公式を適用すると

\begin{eqnarray}
&&{\bf\Lambda}_{aa}=({\bf\Sigma}_{aa}-{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}{\bf\Sigma}_{ba})^{-1}\tag{13}\\
&&{\bf\Lambda}_{ab}=-({\bf\Sigma}_{aa}-{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}{\bf\Sigma}_{ba})^{-1}{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}\tag{14}\\
\end{eqnarray}

であるので、(13),(14)(8),(9)に代入します。

\begin{eqnarray}
&&{\boldsymbol\mu}_{a|b}={\boldsymbol\mu}_a+{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}({\bf x}_b-{\boldsymbol\mu}_b)\tag{15}\\
&&{\bf\Sigma}_{a|b}={\bf\Sigma}_{aa}-{\bf\Sigma}_{ab}{\bf\Sigma}_{bb}^{-1}{\bf\Sigma}_{ba}\tag{16}\\
\end{eqnarray}

以上で、(2),(3),(4)が示せました。

参考文献

パターン認識機械学習 上巻

偉人の名言

f:id:olj611:20210323082422p:plain:w300
多くのことをなす近道は、一度にひとつのことだけすることだ。
モーツァルト

動画

目次へ戻る