機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 7.12(標準) www

問題

RVM回帰モデルについて周辺化対数尤度 (7.85) を直接最大化すると、
更新式 (7.87) および (7.88) が得られることを示せ。
ただし、\gamma_i(7.89) で与えられるものとする。

参照

\begin{eqnarray}
p({\bf w}|{\bf t},{\bf X},{\boldsymbol\alpha},\beta)={\mathcal N}({\bf w}|{\bf m},{\bf\Sigma})\tag{7.81}
\end{eqnarray}

\begin{eqnarray}
{\bf m}=\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}\tag{7.82}
\end{eqnarray}

\begin{eqnarray}
{\bf\Sigma}=\left({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\right)^{-1}\tag{7.83}
\end{eqnarray}

\begin{eqnarray}
\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&\ln {\mathcal N}({\bf t}|{\bf 0},{\bf C})\\
&=&-\frac{1}{2}\left(N\ln(2\pi)+\ln|{\bf C}|+{\bf t}^\top{\bf C}^{-1}{\bf t}\right)\tag{7.85}
\end{eqnarray}

\begin{eqnarray}
{\bf C}=\beta^{-1}{\bf I}+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top\tag{7.86}
\end{eqnarray}

\begin{eqnarray}
\alpha_i^{\rm new}=\frac{\gamma_i}{m_i^2}\tag{7.87}
\end{eqnarray}

\begin{eqnarray}
(\beta^{\rm new})^{-1}=\frac{||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2}{N-\sum_i\gamma_i}\tag{7.88}
\end{eqnarray}

\begin{eqnarray}
\gamma_i=1-\alpha_i\Sigma_{ii}\tag{7.89}
\end{eqnarray}

\begin{eqnarray}
({\bf A}+{\bf B}{\bf D}^{-1}{\bf C})^{-1}={\bf A}^{-1}-{\bf A}^{-1}{\bf B}({\bf D}+{\bf C}{\bf A}^{-1}{\bf B})^{-1}{\bf C}{\bf A}^{-1}\tag{C.7}
\end{eqnarray}

解答

本解答は、長くなるので流れを記します。
1. 対数周辺尤度を {\bf m},{\bf\Sigma} で表す。
2. 対数周辺尤度を \alpha_i微分して、=0 とおいて \alpha_i の更新式を求める。
3. 対数周辺尤度を \beta微分して、=0 とおいて \beta の更新式を求める。

1. 対数周辺尤度を {\bf m},{\bf\Sigma} で表す
まず、|{\bf C}| を式 (7.82),(7.83){\bf m},{\bf\Sigma} で表します。
{\bf B}=\beta{\bf I}_N とおきます。

\begin{eqnarray}
 |{\bf C}|&=&|\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top|\\
&=&|{\bf B}^{-1}+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top|\\
&=&\underbrace{|{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf B}||{\bf B}^{-1}|}_{|{\bf A}{\bf B}|=|{\bf A}||{\bf B}|}\\
&=&\underbrace{|{\bf I}_M+({\boldsymbol\Phi}{\bf A}^{-1})^\top({\boldsymbol\Phi}^\top{\bf B})^\top|}_{|{\bf I}_N+{\bf A}{\bf B}^\top|=|{\bf I}_M+{\bf A}^\top{\bf B}|}|{\bf B}^{-1}|\\
&=&|{\bf I}_M+{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf B}{\boldsymbol\Phi}||{\bf B}^{-1}|\\
&=&\underbrace{|{\bf A}^{-1}||{\bf A}+{\boldsymbol\Phi}^\top{\bf B}{\boldsymbol\Phi}|}_{|{\bf A}{\bf B}|=|{\bf A}||{\bf B}|}|{\bf B}^{-1}|\\
&=&|{\bf A}^{-1}||{\bf\Sigma}^{-1}||{\bf B}^{-1}|\tag{1}\\
\end{eqnarray}

次に、{\bf t}^\top{\bf C}^{-1}{\bf t} を式 (7.82),(7.83){\bf m},{\bf\Sigma} で表します。

\begin{eqnarray}
{\bf t}^\top{\bf C}^{-1}{\bf t}&=&{\bf t}^\top(\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top)^{-1}{\bf t}\\
   &=&{\bf t}^\top(\underbrace{\beta{\bf I}_N-\beta{\bf I}_N{\boldsymbol\Phi}({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})^{-1}{\boldsymbol\Phi}^\top\beta{\bf I}_N}_{({\rm C}.7)}){\bf t}\\
   &=&{\bf t}^\top(\beta{\bf I}_N-\beta^2{\boldsymbol\Phi}({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})^{-1}{\boldsymbol\Phi}^\top){\bf t}\\
   &=&{\bf t}^\top({\bf B}-{\bf B}{\boldsymbol\Phi}({\bf A}+{\boldsymbol\Phi}^\top{\bf B}{\boldsymbol\Phi})^{-1}{\boldsymbol\Phi}^\top{\bf B}){\bf t}\\
   &=&{\bf t}^\top({\bf B}-{\bf B}{\boldsymbol\Phi}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf B}){\bf t}\\
   &=&{\bf t}^\top{\bf B}{\bf t}-{\bf t}^\top{\bf B}{\boldsymbol\Phi}{\bf\Sigma}{\bf\Sigma}^{-1}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf B}{\bf t}\\
   &=&{\bf t}^\top{\bf B}{\bf t}-{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}\tag{2}
\end{eqnarray}

(1),(2) を式 (7.85) に代入します。

\begin{eqnarray}
\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)=-\frac{1}{2}\left(N\ln(2\pi)+\ln|{\bf A}^{-1}|+\ln|{\bf\Sigma}^{-1}|+\ln|{\bf B}^{-1}|+{\bf t}^\top{\bf B}{\bf t}-{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}\right)\tag{3}
\end{eqnarray}

2. 対数周辺尤度を \alpha_i微分して、=0 とおいて \alpha_i の更新式を求める。

\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)\alpha_i\ (i=1,\ldots,M)微分します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)=-\frac{1}{2}\left(\frac{\partial}{\partial\alpha_i}\ln|{\bf A}^{-1}|+\frac{\partial}{\partial\alpha_i}\ln|{\bf\Sigma}^{-1}|-\frac{\partial}{\partial\alpha_i}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}\right)\tag{4}
\end{eqnarray}

(4) の右辺を項毎に計算します。

(4) の右辺の第 1\dfrac{\partial}{\partial\alpha_i}\ln|{\bf A}^{-1}| を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}\ln|{\bf A}^{-1}|&=&\frac{\partial}{\partial\alpha_i}\ln\left(\prod_{j=1}^M\alpha_j^{-1}\right)\\
&=&-\frac{\partial}{\partial\alpha_i}\ln\alpha_i\\
&=&-\frac{1}{\alpha_i}\tag{5}
\end{eqnarray}

(5)1 行目で {\bf A}^{-1}固有値\alpha^{-1} であることと、公式 |{\bf A}|=\displaystyle\prod_{i=1}^M\lambda_i を用いました。

(4) の右辺の第 2\dfrac{\partial}{\partial\alpha_i}\ln|{\bf\Sigma}^{-1}| を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}\ln|{\bf\Sigma}^{-1}|&=&\underbrace{{\rm Tr}\left({\bf\Sigma}\frac{\partial}{\partial\alpha_i}{\bf\Sigma}^{-1}\right)}_{\frac{\partial}{\partial x}\ln|{\bf A}|={\rm Tr}\left({\bf A}^{-1}\frac{\partial}{{\partial} x}{\bf A}\right)}\\
  &=&{\rm Tr}\left({\bf\Sigma}\frac{\partial}{\partial\alpha_i}({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})\right)\\
  &=&{\rm Tr}\left({\bf\Sigma}\frac{\partial}{\partial\alpha_i}{\bf A}\right)\\
  &=&{\rm Tr}\left({\bf\Sigma}{\bf J}_{ii}\right)\\
  &=&\Sigma_{ii}\tag{6}
\end{eqnarray}

(6){\bf J}_{ii}単一エントリ行列です。
(6)\Sigma_{ii}{\bf \Sigma}ii 列成分(i 番目の対角成分)です。

(4) の右辺の第 3\dfrac{\partial}{\partial\alpha_i}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m} を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}&=&\underbrace{\frac{\partial{\bf m}^\top}{\partial\alpha_i}{\bf\Sigma}^{-1}{\bf m}+{\bf m}^\top\frac{\partial{\bf\Sigma}^{-1}}{\partial\alpha_i}{\bf m}+{\bf m}^\top{\bf\Sigma}^{-1}\frac{\partial{\bf m}}{\partial\alpha_i}}_{\frac{\partial}{\partial x}({\bf A}{\bf B})=\frac{\partial{\bf A}}{\partial x}{\bf B}+{\bf A}\frac{\partial{\bf B}}{\partial x}}\\
  &=&\frac{\partial{\bf m}^\top}{\partial\alpha_i}{\bf\Sigma}^{-1}{\bf m}+{\bf m}^\top{\bf J}_{ii}{\bf m}+{\bf m}^\top{\bf\Sigma}^{-1}\frac{\partial{\bf m}}{\partial\alpha_i}\tag{7}\\
\end{eqnarray}

(7)\dfrac{\partial{\bf m}^\top}{\partial\alpha_i} を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}{\bf m}^\top&=&\frac{\partial}{\partial\alpha_i}(\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t})^\top\\
  &=&\frac{\partial}{\partial\alpha_i}(\beta{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}^\top)\\
  &=&\beta\frac{\partial}{\partial\alpha_i}({\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma})\\
  &=&\beta{\bf t}^\top{\boldsymbol\Phi}\left(\frac{\partial}{\partial\alpha_i}{\bf\Sigma}\right)\\
  &=&\beta{\bf t}^\top{\boldsymbol\Phi}\left(-{\bf\Sigma}\left(\frac{\partial}{\partial\alpha_i}{\bf\Sigma}^{-1}\right){\bf\Sigma}\right)\\
  &=&-\beta{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}{\bf J}_{ii}{\bf\Sigma}\tag{8}
\end{eqnarray}

(7)\dfrac{\partial{\bf m}}{\partial\alpha_i} を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}{\bf m}^\top&=&\frac{\partial}{\partial\alpha_i}(\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t})\\
  &=&\beta\left(\frac{\partial}{\partial\alpha_i}{\bf\Sigma}\right){\boldsymbol\Phi}^\top{\bf t}\\
  &=&\beta\left(-{\bf\Sigma}\left(\frac{\partial}{\partial\alpha_i}{\bf\Sigma}^{-1}\right){\bf\Sigma}\right){\boldsymbol\Phi}^\top{\bf t}\\
  &=&-\beta{\bf\Sigma}{\bf J}_{ii}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}\tag{9}
\end{eqnarray}

(8),(9)(7) に代入します。

\begin{eqnarray}
\frac{\partial}{\partial\alpha_i}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}&=&-\beta{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}{\bf J}_{ii}{\bf\Sigma}{\bf\Sigma}^{-1}{\bf m}+{\bf m}^\top{\bf J}_{ii}{\bf m}-{\bf m}^\top{\bf\Sigma}^{-1}\beta{\bf\Sigma}{\bf J}_{ii}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}\\
  &=&-\beta{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}{\bf J}_{ii}{\bf m}+{\bf m}^\top{\bf J}_{ii}{\bf m}-\beta{\bf m}^\top{\bf J}_{ii}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}\\
  &=&-{\bf m}^\top{\bf J}_{ii}{\bf m}+{\bf m}^\top{\bf J}_{ii}{\bf m}-{\bf m}^\top{\bf J}_{ii}{\bf m}\\
  &=&-{\bf m}^\top{\bf J}_{ii}{\bf m}\\
  &=&-m_i^2\tag{10}
\end{eqnarray}

(5),(6),(10) を式 (4)に代入して、=0とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\alpha_i}\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)=0\\
  &&\Leftrightarrow-\frac{1}{2}\left(-\frac{1}{\alpha_i}+\Sigma_{ii}+m_i^2\right)=0\\
  &&\Leftrightarrow-\frac{1}{\alpha_i}+\Sigma_{ii}+m_i^2=0\\
  &&\Leftrightarrow-1+\alpha_i\Sigma_{ii}+\alpha_i m_i^2=0\\
  &&\Leftrightarrow\alpha_i=\frac{1-\alpha_i\Sigma_{ii}}{m_i^2}\\
  &&\Leftrightarrow\alpha_i=\frac{\overbrace{\gamma_i}^{(7.89)}}{m_i^2}\tag{11}
\end{eqnarray}

(11) の右辺の \gamma_i\alpha_i を含むので、式 (11)\alpha_i に関する陰関数になっていることに注意してください。

(11) より、式 (7.87) が示せました。

3. 対数周辺尤度を \beta微分して、=0 とおいて \beta の更新式を求める。

\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)\beta微分します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&-\frac{1}{2}\left(\frac{\partial}{\partial\beta}\ln|{\bf\Sigma}^{-1}|+\frac{\partial}{\partial\beta}\ln|{\bf B}^{-1}|+\frac{\partial}{\partial\beta}{\bf t}^\top{\bf B}{\bf t}-\frac{\partial}{\partial\beta}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}\right)\tag{12}
\end{eqnarray}

(12) の右辺を項毎に計算します。

(12) の右辺の第 1\dfrac{\partial}{\partial\beta}\ln|{\bf\Sigma}^{-1}| を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}\ln|{\bf\Sigma}^{-1}|&=&{\rm Tr}\left({\bf\Sigma}\frac{\partial}{\partial\beta}{\bf\Sigma}^{-1}\right)\\
  &=&{\rm Tr}\left({\bf\Sigma}\frac{\partial}{\partial\beta}({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})\right)\\
  &=&{\rm Tr}\left({\bf\Sigma}{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\right)\\
  &=&{\rm Tr}\left({\bf\Sigma}\frac{1}{\beta}\left({\bf\Sigma}^{-1}-{\bf A}\right)\right)\\
  &=&\frac{1}{\beta}{\rm Tr}\left({\bf\Sigma}\left({\bf\Sigma}^{-1}-{\bf A}\right)\right)\\
  &=&\frac{1}{\beta}{\rm Tr}\left({\bf I}_M-{\bf\Sigma}{\bf A}\right)\\
&=&\frac{1}{\beta}\left(M-\sum_{i=1}^M\alpha_i\Sigma_{ii}\right)\tag{13}
\end{eqnarray}

(12) の右辺の第 2\dfrac{\partial}{\partial\beta}\ln|{\bf B}^{-1}| を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}\ln|{\bf B}^{-1}|&=&\frac{\partial}{\partial\beta}\prod_{i=1}^N\beta^{-1}\\
  &=&\frac{\partial}{\partial\beta}\ln\beta^{-N}\\
  &=&\frac{\partial}{\partial\beta}(-N\ln\beta)\\
  &=&-\frac{N}{\beta}\tag{14}
\end{eqnarray}

(12) の右辺の 第 3\dfrac{\partial}{\partial\beta}{\bf t}^\top{\bf B}{\bf t} を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}{\bf t}^\top{\bf B}{\bf t}&=&\frac{\partial}{\partial\beta}\beta{\bf t}^\top{\bf t}\\
  &=&{\bf t}^\top{\bf t}\tag{15}
\end{eqnarray}

(12) の右辺の第 4\dfrac{\partial}{\partial\beta}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m} を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}&=&\frac{\partial{\bf m}^\top}{\partial\beta}{\bf\Sigma}^{-1}{\bf m}+{\bf m}^\top\frac{\partial{\bf\Sigma}^{-1}}{\partial\beta}{\bf m}+{\bf m}^\top{\bf\Sigma}^{-1}\frac{\partial{\bf m}}{\partial\beta}\\
  &=&\frac{\partial{\bf m}^\top}{\partial\beta}{\bf\Sigma}^{-1}{\bf m}+{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}+{\bf m}^\top{\bf\Sigma}^{-1}\frac{\partial{\bf m}}{\partial\beta}\tag{16}
\end{eqnarray}

(16)\dfrac{\partial{\bf m}^\top}{\partial\beta} を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}{\bf m}^\top&=&\frac{\partial}{\partial\beta}(\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t})^\top\\
  &=&\frac{\partial}{\partial\beta}(\beta{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma})\\
  &=&\frac{\partial\beta}{\partial\beta}{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}+\beta{\bf t}^\top{\boldsymbol\Phi}\frac{\partial{\bf\Sigma}}{\partial\beta}\\
  &=&{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}+\beta{\bf t}^\top{\boldsymbol\Phi}\left(-{\bf\Sigma}\frac{\partial}{\partial\beta}({\bf\Sigma}^{-1}){\bf\Sigma}\right)\\
  &=&{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}-\beta{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}\\
  &=&{\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}-{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}\tag{17}
\end{eqnarray}

(16)\dfrac{\partial{\bf m}}{\partial\beta}を計算します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}{\bf m}&=&\frac{\partial}{\partial\beta}(\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t})\\
  &=&\frac{\partial\beta}{\partial\beta}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}+\beta\frac{\partial{\bf\Sigma}}{\partial\beta}{\boldsymbol\Phi}^\top{\bf t}\\
  &=&{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}+\beta\left(-{\bf\Sigma}\frac{\partial}{\partial\beta}({\bf\Sigma}^{-1}){\bf\Sigma}\right){\boldsymbol\Phi}^\top{\bf t}\\
  &=&{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}-\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}\\
  &=&{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}-{\bf\Sigma}{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}\tag{18}
\end{eqnarray}

(17),(18) を 式 (16) に代入します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}{\bf m}^\top{\bf\Sigma}^{-1}{\bf m}&=&({\bf t}^\top{\boldsymbol\Phi}{\bf\Sigma}-{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}){\bf\Sigma}^{-1}{\bf m}+{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}+{\bf m}^\top{\bf\Sigma}^{-1}({\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}-{\bf\Sigma}{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m})\\
  &=&{\bf t}^\top{\boldsymbol\Phi}{\bf m}-{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}+{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}+{\bf m}^\top{\boldsymbol\Phi}^\top{\bf t}-{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}\\
  &=&{\bf t}^\top{\boldsymbol\Phi}{\bf m}+{\bf m}^\top{\boldsymbol\Phi}^\top{\bf t}-{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}\tag{19}
\end{eqnarray}

(13),(14),(15),(19) を式 (12) に代入します。

\begin{eqnarray}
\frac{\partial}{\partial\beta}\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&-\frac{1}{2}\left(\frac{1}{\beta}\left(M-\sum_{i=1}^M\alpha_i\Sigma_{ii}\right)-\frac{N}{\beta}+{\bf t}^\top{\bf t}-{\bf t}^\top{\boldsymbol\Phi}{\bf m}-{\bf m}^\top{\boldsymbol\Phi}^\top{\bf t}+{\bf m}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf m}\right)\\
  &=&-\frac{1}{2}\left(\frac{1}{\beta}\left(-N+M-\sum_{i=1}^M\alpha_i\Sigma_{ii}\right)+({\bf t}-{\boldsymbol\Phi}{\bf m})^\top({\bf t}-{\boldsymbol\Phi}{\bf m})\right)\\
  &=&-\frac{1}{2}\left(\frac{1}{\beta}\left(-N+\sum_{i=1}^M(1-\alpha_i\Sigma_{ii})\right)+||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2\right)\tag{20}
\end{eqnarray}

(20)=0 とおきます。

\begin{eqnarray}
&&-\frac{1}{2}\left(\frac{1}{\beta}\left(-N+\sum_{i=1}^M(1-\alpha_i\Sigma_{ii})\right)+||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2\right)=0\\
  &&\Leftrightarrow\frac{1}{\beta}\left(-N+\sum_{i=1}^M(1-\alpha_i\Sigma_{ii})\right)+||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2=0\\
  &&\Leftrightarrow\beta^{-1}=\frac{||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2}{N-\displaystyle\sum_{i=1}^M(1-\alpha_i\Sigma_{ii})}\\
  &&\Leftrightarrow\beta^{-1}=\frac{||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2}{N-\displaystyle\sum_{i=1}^M\gamma_i}\tag{21}
\end{eqnarray}

(21) の右辺の {\bf m}\beta を含むので、式 (21)\beta に関する陰関数になっていることに注意してください。

(21) より、式 (7.88) が示せました。

目次へ戻る