機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

ベイズ線形回帰 - MAP推定

以前、MAP推定とリッジ回帰という記事では、事前分布の平均を0、共分散行列は等方的な分布\alpha^{-1}{\bf I}としましたが、
今回の記事ではそのような仮定は設けません。

MAP推定

尤度が多次元ガウス分布なので、共役事前分布として多次元ガウス分布とします。
平均を{\bf m}_0、共分散を{\bf S}_0とします。

\begin{eqnarray}
&&p({\bf w})=\mathcal{N}({\bf w}|{\bf m}_0,{\bf S}_0)\tag{1}\\
\end{eqnarray}

尤度は以下の式でした。\betaは精度で固定とします。

\begin{eqnarray}
p({\bf t}|{\bf w})=\prod_{n=1}^N\mathcal{N}(t_n|{\bf w}^\top{\boldsymbol\phi}({\bf x}_n),\beta^{-1})\tag{2}\\
\end{eqnarray}

事後分布を求めます。

\begin{eqnarray}
p({\bf w}|{\bf t})&\propto&p({\bf t}|{\bf w})p({\bf w})\\
&=&\left(\prod_{n=1}^N\mathcal{N}(t_n|{\bf w}^\top{\boldsymbol\phi}({\bf x}_n),\beta^{-1})\right)\mathcal{N}({\bf w}|{\bf m}_0,{\bf S}_0)\tag{3}\\
\end{eqnarray}

対数を取って、\bf wについてまとめます。

\begin{eqnarray}
\ln p({\bf w}|{\bf t})&=&\sum_{n=1}^N\ln\mathcal{N}(t_n|{\bf w}^\top{\boldsymbol\phi}({\bf x}_n),\beta^{-1})+\ln\mathcal{N}({\bf w}|{\bf m}_0,{\bf S}_0)+{\rm const.}\\
&=&-\frac{N}{2}\ln2\pi+\frac{N}{2}\ln\beta-\frac{\beta}{2}\sum_{n=1}^N(t_n-{\bf w}^\top{\boldsymbol\phi}({\bf x}_n))^2-\frac{D}{2}\ln2\pi-\frac{D}{2}\ln|{\bf S}_0|-\frac{1}{2}({\bf w}-{\bf m}_0)^\top{\bf S}_0^{-1}({\bf w}-{\bf m}_0)+{\rm const.}\\
&=&-\frac{\beta}{2}\sum_{n=1}^N(t_n-{\bf w}^\top{\boldsymbol\phi}({\bf x}_n))^2-\frac{1}{2}({\bf w}-{\bf m}_0)^\top{\bf S}_0^{-1}({\bf w}-{\bf m}_0)+{\rm const.}\\
&=&-\frac{\beta}{2}||{\bf t}-{\boldsymbol\Phi}{\bf w}||^2-\frac{1}{2}({\bf w}-{\bf m}_0)^\top{\bf S}_0^{-1}({\bf w}-{\bf m}_0)+{\rm const.}\\
&=&-\frac{\beta}{2}({\bf w}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf w}-2{\bf w}^\top{\boldsymbol\Phi}^\top{\bf t})-\frac{1}{2}({\bf w}^\top{\bf S}_0^{-1}{\bf w}-2{\bf w}{\bf S}_0^{-1}{\bf m}_0)+{\rm const.}\\
&=&-\frac{1}{2}({\bf w}^\top({\boldsymbol\Phi}^\top\beta{\boldsymbol\Phi}+{\bf S}_0^{-1}){\bf w}-2{\bf w}^\top(\beta{\boldsymbol\Phi}^\top{\bf t}-2{\bf S}_0^{-1}{\bf m}_0))+{\rm const.}\tag{4}\\
\end{eqnarray}

p({\bf w}|{\bf t})は多次元ガウス分布なので、平均を{\bf m}_N、共分散を{\bf S}_Nとおき、\bf wについてまとめます。

\begin{eqnarray}
\ln p({\bf w}|{\bf t})&=&\ln \mathcal{N}({\bf w}|{\bf m}_N,{\bf S}_N)\\
&=&-\frac{1}{2}({\bf w}^\top{\bf S}_N^{-1}{\bf w}-2{\bf w}^\top{\bf S}_N^{-1}{\bf m}_N)+{\rm const.}\tag{5}\\
\end{eqnarray}

(4)と(5)を係数比較します。

\begin{eqnarray}
&&{\bf m}_N={\bf S}_N({\bf S}_0^{-1}{\bf m}_0+\beta{\boldsymbol\Phi}^\top{\bf t})\tag{6}\\
&&{\bf S}_N^{-1}={\bf S}_0^{-1}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\tag{7}\\
\end{eqnarray}

MAP推定は事後分布を最大にするようなパラメータ\bf wを点推定することであり、
多次元ガウス分布は平均が最大値をとるので、その値を{\bf w}_{\rm MAP}と書くと、

\newcommand{\argmax}{\mathop{\rm arg~max}\limits}\begin{eqnarray}
{\bf w}_{\rm MAP}&=&\argmax_{\bf w}\ln \mathcal{N}({\bf w}|{\bf m}_N,{\bf S}_N)\\\
&=&{\bf m}_N\\
&=&{\bf S}_N({\bf S}_0^{-1}{\bf m}_0+\beta{\boldsymbol\Phi}^\top{\bf t})\tag{8}\\
\end{eqnarray}

偉人の名言

f:id:olj611:20210314084758p:plain:h300
昨日から学び、今日のために生き、明日に対して希望を持とう。
大切なことは、疑問を持つのをやめないことだ。
アルベルト・アインシュタイン

参考文献

パターン認識機械学習 上巻

動画

目次へ戻る