機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.57(基本)

問題

多変量ガウス分布は、指数型分布族の形式 (2.194) に変形できることを示し、
(2.220) - (2.223) と同様に、{\boldsymbol\eta},{\bf u}({\bf x}),h({\bf x}) および g({\boldsymbol\eta}) の式を導出せよ。

参照

\begin{eqnarray}
\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\top} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)\tag{2.43}
\end{eqnarray}

\begin{eqnarray}
p(\mathbf{x}|{\boldsymbol\eta})=h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \left(\boldsymbol{\eta}^{\top} \mathbf{u}(\mathbf{x})\right)\tag{2.194}
\end{eqnarray}

\begin{eqnarray}
\boldsymbol{\eta}=\begin{pmatrix}\mu / \sigma^{2} \\-1 / 2 \sigma^{2}\end{pmatrix}\tag{2.220}
\end{eqnarray}

\begin{eqnarray}
{\bf u}(x)=\begin{pmatrix}x\\ x^2\end{pmatrix}\tag{2.221}
\end{eqnarray}

\begin{eqnarray}
h(x)=(2\pi)^{-1/2}\tag{2.222}
\end{eqnarray}

\begin{eqnarray}
g({\boldsymbol\eta})=(-2\eta_2)^{1/2}\exp\left(\frac{\eta_1^2}{4\eta_2}\right)\tag{2.223}
\end{eqnarray}

解答

(2.43) の指数の中身 -\dfrac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) を変形します。

\begin{eqnarray}
 -\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})&=&-\frac{1}{2}\left({\bf x}^\top{\bf\Sigma}^{-1}{\bf x}-2{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\right)\\
&=&-\frac{1}{2}{\bf x}^\top{\bf\Sigma}^{-1}{\bf x}+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\\
&=&-\frac{1}{2}{\rm Tr}\left({\bf x}^\top{\bf\Sigma}^{-1}{\bf x}\right)+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\\
&=&-\frac{1}{2}{\rm Tr}\left({\bf\Sigma}^{-1}{\bf x}{\bf x}^\top\right)+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\tag{1}
\end{eqnarray}

(1) を式 (2.43) に代入します。

\begin{eqnarray}
\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left(-\frac{1}{2}{\rm Tr}\left({\bf\Sigma}^{-1}{\bf x}{\bf x}^\top\right)+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\right)\tag{2}
\end{eqnarray}

(2)\dfrac{1}{(2 \pi)^{D / 2}} \dfrac{1}{| \boldsymbol{\Sigma} |^{1 / 2}} \exp \left(-\dfrac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\right)を式 (2.194)h({\bf x}),g({\boldsymbol\eta}) に当てはめると、以下のようになります。

\begin{eqnarray}
h({\bf x})=(2\pi)^{-D/2}\tag{3}
\end{eqnarray}

\begin{eqnarray}
g({\boldsymbol\eta})=|{\bf\Sigma}|^{-1/2}\exp\left(-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\right)\tag{4}
\end{eqnarray}

ーーーーーー↓ここから一般論ーーーーーー
{\bf A},{\bf B}\in{\mathbb R}^{m\times n},\ {\bf A}=({\bf a}_1,\cdots,{\bf a}_n), \ {\bf B}=({\bf b}_1,\cdots,{\bf b}_n),\ {\bf a}_i,{\bf b}_i\in{\mathbb R}^m\ (i=1,\ldots,n) の時、
{\rm Tr}({\bf A}{\bf B}) は以下のようになります。

\begin{eqnarray}
{\rm Tr}({\bf A}{\bf B}^\top)&=&{\rm Tr}\left(\begin{pmatrix}{\bf a}_1,\cdots,{\bf a}_n\end{pmatrix}\begin{pmatrix}{\bf b}_1^\top\\ \vdots \\ {\bf b}_n^\top\end{pmatrix}\right)\\
&=&{\rm Tr}\left({\bf a}_1{\bf b}_1^\top+\cdots+{\bf a}_n{\bf b}_n^\top\right)\\
&=&{\rm Tr}\left({\bf a}_1{\bf b}_1^\top\right)+\cdots+{\rm Tr}\left({\bf a}_n{\bf b}_n^\top\right)\\
&=&{\rm Tr}\left({\bf a}_1^\top{\bf b}_1\right)+\cdots+{\rm Tr}\left({\bf a}_n^\top{\bf b}_n\right)\\
&=&{\bf a}_1^\top{\bf b}_1+\cdots+{\bf a}_n^\top{\bf b}_n\\
&=&\begin{pmatrix}{\bf a}_1^\top,\cdots,{\bf a}_n^\top\end{pmatrix}\begin{pmatrix}{\bf b}_1\\ \vdots \\ {\bf b}_n\end{pmatrix}\\
&=&{\rm vec}\left({\bf A}\right)^\top{\rm vec}\left({\bf B}\right)\tag{5}
\end{eqnarray}
(5){\rm vec}(\cdot){\rm vec} 作用素です。下記のリンクで確認してください。
ーーーーーー↑ここまで一般論ーーーーーー

{\rm Tr}\left({\bf\Sigma}^{-1}{\bf x}{\bf x}^\top\right) を変形します。

\begin{eqnarray}
{\rm Tr}\left({\bf\Sigma}^{-1}{\bf x}{\bf x}^\top\right)&=&{\rm Tr}\left({\bf\Sigma}^{-1}\left({\bf x}{\bf x}^\top\right)^\top\right)\\
&=&\underbrace{{\rm vec}\left({\bf\Sigma}^{-1}\right)^\top{\rm vec}\left({\bf x}{\bf x}^\top\right)}_{(5)}\tag{6}
\end{eqnarray}

(2)\exp \left(-\dfrac{1}{2}{\rm Tr}\left({\bf\Sigma}^{-1}{\bf x}{\bf x}^\top\right)+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}\right) を式 (2.194){\boldsymbol\eta},{\bf u}({\bf x}) に当てはめると、以下のようになります。

\begin{eqnarray}
{\boldsymbol\eta}=\begin{pmatrix}{\bf\Sigma}^{-1}{\boldsymbol\mu}\\-\frac{1}{2}{\rm vec}\left({\bf\Sigma}^{-1}\right)\end{pmatrix}\tag{7}
\end{eqnarray}

\begin{eqnarray}
{\bf u}({\bf x})=\begin{pmatrix}{\bf x}\\{\rm vec}({\bf x}{\bf x}^\top)\end{pmatrix}\tag{8}
\end{eqnarray}

(3),(4),(7),(8) より、{\boldsymbol\eta},{\bf u}({\bf x}),h({\bf x}) および g({\boldsymbol\eta}) の式が導出できました。

補足

h({\bf x}),g({\boldsymbol\eta}) は以下のようにも書けます。

\begin{eqnarray}
h({\bf x})=1\tag{9}
\end{eqnarray}

\begin{eqnarray}
g({\boldsymbol\eta})=(2\pi)^{-D/2}|{\bf\Sigma}|^{-1/2}\exp\left(-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}\right)\tag{10}
\end{eqnarray}

参考リンク

vec作用素 -Wikipedia

目次へ戻る