機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

1次元ガウス分布の平均の事後分布

本記事では分散  \sigma^2 の代わりにその逆数である精度パラメータ \lambda=\frac{1}{\sigma^2} を用います。

1次元ガウス分布

1次元ガウス分布は以下のように表されるのでした。

\begin{eqnarray}
{\mathcal N}(x|\mu,\sigma^{2})=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\tag{1}
\end{eqnarray}

 x\in\mathbb{R},\ \mu\in\mathbb{R},\ \sigma^2\in\mathbb{R}^+ です。
(1)を精度パラメータ \lambda\in\mathbb{R}^{+} を用いて表すと以下のようになります。

\begin{eqnarray}
{\mathcal N}(x|\mu,\lambda^{-1})=\frac{\sqrt{\lambda}}{\sqrt{2\pi}}\exp\left(-\frac{\lambda}{2}(x-\mu)^2\right)\tag{2}
\end{eqnarray}

対数を取ってみます。

\begin{eqnarray}
\ln{\mathcal N}(x|\mu,\lambda^{-1})=-\frac{1}{2}(\lambda(x-\mu)^2-\ln\lambda+\ln2\pi)\tag{3}
\end{eqnarray}

事後分布

ガウス分布に従うN 個の1次元の連続値データ {\bf X}=\{x_1,\ldots,x_N\} が与えられた時の平均 \mu\in{\mathbb{R}} の事後分布を求めてみます。精度 \lambda\in\mathbb{R}^+ は固定であるとします。

f:id:olj611:20210224033544p:plain

\mu の事前分布にはガウス分布の平均の共役事前分布であるガウス分布を用います。

\begin{eqnarray}
p(\mu)=\mathcal{N}(\mu|m,\lambda^{-1}_{\mu})\tag{4}
\end{eqnarray}

m\in\mathbb{R},\ \lambda_{\mu}\in\mathbb{R}^+は固定されたハイパーパラメータです。

事後分布は以下のようになります。ベイズの定理を用います。

\begin{eqnarray}
p(\mu|{\bf X})&\propto&p({\bf X}|\mu)p(\mu)\\
&=&\left(\prod_{n=1}^Np(x_n|\mu)\right)p(\mu)\\
&=&\left(\prod_{n=1}^N\mathcal{N}(x_n|\mu,\lambda^{-1})\right)\mathcal{N}(\mu|m,\lambda_{\mu}^{-1})\tag{5}\\
\end{eqnarray}

対数を取って \muについてまとめます。

\begin{eqnarray}
\ln p(\mu|{\bf X})&=&\sum_{n=1}^N\ln\mathcal{N}(x_n|\mu,\lambda^{-1})+\ln \mathcal{N}(\mu|m,\lambda_{\mu}^{-1})+{\rm const.}\\
&=&-\frac{1}{2}\lambda\sum_{n=1}^N(x_n-\mu)^2-\frac{1}{2}\lambda_{\mu}(\mu-m)^2+{\rm const.}\\
&=&-\frac{1}{2}\lambda\sum_{n=1}^N(x_n^2-2x_n\mu+\mu^2)-\frac{1}{2}\lambda_{\mu}(\mu^2-2\mu m+m^2)+{\rm const.}\\
&=&-\frac{1}{2}\lambda\sum_{n=1}^N(-2x_n\mu+\mu^2)-\frac{1}{2}\lambda_{\mu}(\mu^2-2\mu m)+{\rm const.}\\
&=&-\frac{1}{2}\left((N\lambda + \lambda_{\mu})\mu^2-2(\sum_{n=1}^Nx_n\lambda+m\lambda_{\mu})\mu\right)+{\rm const.}\tag{6}\\
\end{eqnarray}

(6)より事後分布が1次元ガウス分布になっていることが分かります。
事後分布の平均と精度を \hat{m},\hat{\lambda}_{\mu} とおくと

\begin{eqnarray}
p(\mu|{\bf X})=\mathcal{N}(\mu|\hat{m},\hat{\lambda}^{-1}_{\mu})\tag{7}
\end{eqnarray}

対数を取って \mu についてまとめます。

\begin{eqnarray}
\ln p(\mu|{\bf X})=-\frac{1}{2}(\hat{\lambda_{\mu}}\mu^2-2\hat{m}\hat{\lambda}_{\mu}\mu)+{\rm const.}\tag{8}
\end{eqnarray}

(6)と(8)の係数を比較します。

\begin{eqnarray}
\hat{\lambda}_{\mu}&=&N\lambda+\lambda_{\mu} \tag{9}\\
\hat{m}&=&\frac{\lambda\sum_{n=1}^Nx_n+\lambda_{\mu}m}{\hat{\lambda}_{\mu}}\tag{10}\\
\end{eqnarray}

以上で、事後分布が1次元ガウス分布で得られることが分かりました。

偉人の名言

f:id:olj611:20210220172134p:plain
悪賢い人は勉強を軽蔑し、単純な人は勉強を称賛し、賢い人は勉強を利用する。
フランシス・ベーコン

参考文献

ベイズ推論による機械学習入門

動画

目次へ戻る