機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 7.16(基本)

問題

超パラメータ \alpha_i に対して、RVM回帰モデルの周辺化対数尤度 (7.97)2微分を取ることで、
(7.101) で与えられる停留点が周辺尤度の極大値であることを示せ。

参照

\begin{eqnarray}
\lambda(\alpha_i)=\frac{1}{2}\left(\ln\alpha_i-\ln(\alpha_i+s_i)+\frac{q_i^2}{\alpha_i+s_i}\right)\tag{7.97}
\end{eqnarray}

\begin{eqnarray}
\frac{{\rm d}\lambda(\alpha_i)}{{\rm d}\alpha_i}=\frac{\alpha_i^{-1}s_i^2-(q_i^2-s_i)}{2(\alpha_i+s_i)^2}\tag{7.100}
\end{eqnarray}

\begin{eqnarray}
\alpha_i=\frac{s_i^2}{q_i^2-s_i}\tag{7.101}
\end{eqnarray}

解答

(7.97)\alpha_i微分します。

\begin{eqnarray}
\frac{{\rm d}}{{\rm d}\alpha_i}\lambda(\alpha_i)&=&\frac{1}{2}\left(\frac{1}{\alpha_i}-\frac{1}{\alpha_i+s_i}-\frac{q_i^2}{(\alpha_i+s_i)^2}\right)\tag{1}
\end{eqnarray}

(1)\alpha_i微分します。

\begin{eqnarray}
\frac{{\rm d}^2}{{\rm d}\alpha_i^2}\lambda(\alpha_i)&=&\frac{1}{2}\left(\frac{-1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2}+\frac{2q_i^2}{(\alpha_i+s_i)^3}\right)\tag{2}
\end{eqnarray}

念のため、式 (7.101) が停留点であることを確認します。

\begin{eqnarray}
\left.\frac{{\rm d}}{{\rm d}\alpha_i}\lambda(\alpha_i)\right|_{\alpha_i=\frac{s_i^2}{q_i^2-s_i}}&=&\frac{1}{2}\left(\frac{1}{\frac{s_i^2}{q_i^2-s_i}}-\frac{1}{\frac{s_i^2}{q_i^2-s_i}+s_i}-\frac{q_i^2}{\left(\frac{s_i^2}{q_i^2-s_i}+s_i\right)^2}\right)\\
&=&\frac{1}{2}\left(\frac{q_i^2-s_i}{s_i^2}-\frac{q_i^2-s_i}{q_i^2s_i}-\frac{(q_i^2-s_i)^2}{q_i^2s_i^2}\right)\\
&=&\frac{1}{2q_i^2s_i^2}\left(q_i^2(q_i^2-s_i)-s_i(q_i^2-s_i)-(q_i^2-s_i)^2\right)\\
&=&\frac{1}{2q_i^2s_i^2}\left(q_i^4-q_i^2s_i-q_i^2s_i+s_i^2-q_i^4+2q_i^2s_i-s_i^2)\right)\\
&=&0\tag{3}
\end{eqnarray}

(3) より、式 (7.101) が停留点であることが確認できました。

\left.\dfrac{{\rm d}^2}{{\rm d}\alpha_i^2}\lambda(\alpha_i)\right|_{\alpha_i=\frac{s_i^2}{q_i^2-s_i}} を計算します。

\begin{eqnarray}
\left.\frac{{\rm d}^2}{{\rm d}\alpha_i^2}\lambda(\alpha_i)\right|_{\alpha_i=\frac{s_i^2}{q_i^2-s_i}}&=&\frac{1}{2}\left(\frac{-1}{\left(\frac{s_i^2}{q_i^2-s_i}\right)^2}+\frac{1}{\left(\frac{s_i^2}{q_i^2-s_i}+s_i\right)^2}+\frac{2q_i^2}{\left(\frac{s_i^2}{q_i^2-s_i}+s_i\right)^3}\right)\\
&=&\frac{1}{2}\left(\frac{-(q_i^2-s_i)^2}{s_i^4}+\frac{(q_i^2-s_i)^2}{q_i^4s_i^2}+\frac{2(q_i^2-s_i)^3}{q_i^4s_i^3}\right)\\
&=&\frac{(q_i^2-s_i)^2}{2q_i^4s_i^4}\left(-q_i^4+s_i^2+2s_i(q_i^2-s_i)\right)\\
&=&-\frac{(q_i^2-s_i)^2}{2q_i^4s_i^4}\left(q_i^4-2q_i^2s_i+s_i^2\right)\\
&=&-\frac{(q_i^2-s_i)^2}{2q_i^4s_i^4}\left(q_i^2-s_i\right)^2\\
&=&-\frac{(q_i^2-s_i)^4}{2q_i^4s_i^4}<0\tag{4}
\end{eqnarray}

(4) より、(7.101) で与えられる停留点が周辺尤度の極大値であることが示せました。

目次へ戻る