機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.7(標準)

問題

\mu の事前分布がベータ分布 (2.13) である二項分布 (2.9) に従う確率変数 x を考える。
ここで、x=1 の事象が m 回、x=0l 回生じたとする。
このとき、\mu の事後平均が、事前平均と \mu最尤推定量の間の値になることを示せ。
これには、事前平均の \lambda 倍と、最尤推定量の (1-\lambda) 倍の和で、事後平均が書けることを示せばよい。
ただし、0\leqslant\lambda\leqslant 1 である。
よって、事後分布が、事前分布と最尤推定解との間のものになることが分かる。

参照

\begin{eqnarray}
\mu_{\rm ML}=\frac{m}{N}\tag{2.8}
\end{eqnarray}

\begin{eqnarray}
{\rm Bin}(m|N,\mu)=\begin{pmatrix}N\\m\end{pmatrix}\mu^m(1-\mu)^{N-m}\tag{2.9}
\end{eqnarray}

\begin{eqnarray}
\operatorname{Beta}(\mu | a, b)=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1}\tag{2.13} 
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}[\mu]=\frac{a}{a+b}\tag{2.15}
\end{eqnarray}

\begin{eqnarray}
p(\mu|m,l,a,b)=\frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}\tag{2.18}
\end{eqnarray}

解答

事前分布 p(\mu|a,b)

\begin{eqnarray}
p(\mu|a,b)=\operatorname{Beta}(\mu | a, b)\tag{1}
\end{eqnarray}

とします。
事前平均 {\mathbb E}_{p(\mu|a,b)}[\mu] は以下のようになります。

\begin{eqnarray}
{\mathbb E}_{p(\mu|a,b)}[\mu]=\underbrace{\frac{a}{a+b}}_{(2.15)}\tag{2}
\end{eqnarray}

x=1 の事象が m 回、x=0l 回生じたときの事後分布 p(\mu|m,l,a,b) は、式 (2.18) となります。

\begin{eqnarray}
p(\mu|m,l,a,b)=\underbrace{\frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}}_{(2.18)}\tag{3}
\end{eqnarray}

事後平均 {\mathbb E}_{p(\mu|m,l,a,b)}[\mu] は以下のようになります。

\begin{eqnarray}
{\mathbb E}_{p(\mu|m,l,a,b)}[\mu]=\underbrace{\frac{m+a}{m+a+l+b}}_{(2.15)}\tag{4}
\end{eqnarray}

x=1 の事象が m 回、x=0l 回生じたときの最尤推定\mu_{\rm ML} は、以下のようになります。

\begin{eqnarray}
\mu_{\rm ML}=\underbrace{\frac{m}{m+l}}_{(2.8)}\tag{5}
\end{eqnarray}

事前平均の \lambda 倍と、最尤推定量の (1-\lambda) 倍の和で、事後平均を表すと以下のようになります。

\begin{eqnarray}
&&\lambda{\mathbb E}_{p(\mu|a,b)}[\mu]+(1-\lambda)\mu_{\rm ML}={\mathbb E}_{p(\mu|m,l,a,b)}[\mu]\\
&&\Leftrightarrow\lambda\frac{a}{a+b}+(1-\lambda)\frac{m}{m+l}=\frac{m+a}{m+a+l+b}\tag{6}
\end{eqnarray}

(6)\lambda について解きます。

\begin{eqnarray}
&&\lambda\frac{a}{a+b}+(1-\lambda)\frac{m}{m+l}=\frac{m+a}{m+a+l+b}\\
&&\Leftrightarrow\lambda\frac{a}{a+b}-\lambda\frac{m}{m+l}=\frac{m+a}{m+a+l+b}-\frac{m}{m+l}\\
&&\Leftrightarrow\lambda\left(\frac{a}{a+b}-\frac{m}{m+l}\right)=\frac{m+a}{m+a+l+b}-\frac{m}{m+l}\\
&&\Leftrightarrow\lambda\frac{a(m+l)-m(a+b)}{(a+b)(m+l)}=\frac{(m+a)(m+l)-m(m+a+l+b)}{(m+a+l+b)(m+l)}\\
&&\Leftrightarrow\lambda\frac{al-bm}{a+b}=\frac{al-bm}{m+a+l+b}\tag{7}
\end{eqnarray}

al-bm=0 の時、式 (7) は任意の \lambda について成り立ちます。
al-bm\not=0 の時、式 (7) は以下のようになります。

\begin{eqnarray}
\lambda=\frac{a+b}{m+a+l+b}\tag{8}
\end{eqnarray}

a > 0,\ b> 0,\ m\geqslant 0,\ l\geqslant 0 より、

\begin{eqnarray}
&&0\leqslant \frac{a+b}{m+a+l+b} \leqslant 1\\
&&\Leftrightarrow 0\leqslant \lambda \leqslant 1\tag{8}
\end{eqnarray}

となります。

以上より、\mu の事後平均が、事前平均と \mu最尤推定量の間の値になることが示せました。

目次へ戻る