機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 1.26(基本)

問題

(1.151)2 乗を展開し、(1.90) に類似の結果を導き目標変数ベクトル \bf t の場合に
期待二乗損失を最小にする関数 {\bf y}({\bf x}) がやはり \bf t の条件付き期待値で与えられることを示せ。

参照

\begin{eqnarray}
{\mathbb E}[L]=\int(y({\bf x})-{\mathbb E}[t|{\bf x}])^2p({\bf x}){\rm d}{\bf x}+\int{\rm var}[t|{\bf x}]p({\bf x}){\rm d}{\bf x}\tag{1.90}
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}[L({\bf t},{\bf y}({\bf x}))]=\iint||{\bf y}({\bf x})-{\bf t}||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}\tag{1.151}
\end{eqnarray}

解答

(1.151)||{\bf y}({\bf x})-{\bf t}||^2 を計算します。

\begin{eqnarray}
 ||{\bf y}({\bf x})-{\bf t}||^2&=& ||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]+{\mathbb E}[{\bf t}|{\bf x}]-{\bf t}||^2\\
&=&||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]||^2+2({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})+||{\mathbb E}[{\bf t}|{\bf x}]-{\bf t}||^2\tag{1}
\end{eqnarray}

(1) を式 (1.151) に代入します。

\begin{eqnarray}
{\mathbb E}[L({\bf t},{\bf y}({\bf x}))]&=&\iint\left(||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]||^2+2({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})+||{\mathbb E}[{\bf t}|{\bf x}]-{\bf t}||^2\right)p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}\\
&=&\iint||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}+2\underbrace{\iint({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}}_{:=A}\\
&&+\iint||{\mathbb E}[{\bf t}|{\bf x}]-{\bf t}||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}\tag{2}
\end{eqnarray}

A:=\displaystyle\iint({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t} を計算します。

\begin{eqnarray}
&&\iint({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}\\
&=&\int({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top\left(\int({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})p({\bf x},{\bf t}){\rm d}{\bf t}\right){\rm d}{\bf x}\\
&=&\int({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top\left(\int({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})p({\bf t}|{\bf x})p({\bf x}){\rm d}{\bf t}\right){\rm d}{\bf x}\\
&=&\int({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top\left(p({\bf x})\int({\mathbb E}[{\bf t}|{\bf x}]-{\bf t})p({\bf t}|{\bf x}){\rm d}{\bf t}\right){\rm d}{\bf x}\\
&=&\int({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top\Bigg(p({\bf x})\Big(\int{\mathbb E}[{\bf t}|{\bf x}]p({\bf t}|{\bf x}){\rm d}{\bf t}-\int{\bf t}p({\bf t}|{\bf x}){\rm d}{\bf t}\Big)\Bigg){\rm d}{\bf x}\\
&=&\int({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top\Bigg(p({\bf x})\Big({\mathbb E}[{\bf t}|{\bf x}]\underbrace{\int p({\bf t}|{\bf x}){\rm d}{\bf t}}_{=1}-\underbrace{\int{\bf t}p({\bf t}|{\bf x}){\rm d}{\bf t}}_{{\mathbb E}[{\bf t}|{\bf x}]}\Big)\Bigg){\rm d}{\bf x}\\
&=&\int({\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}])^\top\Bigg(p({\bf x})\Big({\mathbb E}[{\bf t}|{\bf x}]-{\mathbb E}[{\bf t}|{\bf x}]\Big)\Bigg){\rm d}{\bf x}\\
&=&0\tag{3}
\end{eqnarray}

(3) を式 (2) に代入します。

\begin{eqnarray}
{\mathbb E}[L({\bf t},{\bf y}({\bf x}))]&=&\iint||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}+2\cdot 0+\iint||{\mathbb E}[{\bf t}|{\bf x}]-{\bf t}||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}\\
&=&\iint||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}+\int\left(\int||{\mathbb E}[{\bf t}|{\bf x}]-{\bf t}||^2p({\bf t}|{\bf x}){\rm d}{\bf t}\right)p({\bf x}){\rm d}{\bf x}\\
&=&\iint||{\bf y}({\bf x})-{\mathbb E}[{\bf t}|{\bf x}]||^2p({\bf x},{\bf t}){\rm d}{\bf x}{\rm d}{\bf t}+\int{\rm var}[{\bf t}|{\bf x}]p({\bf x}){\rm d}{\bf x}\tag{4}
\end{eqnarray}

(4) より、{\bf y}({\bf x}){\mathbb E}[{\bf t}|{\bf x}] と等しい時最小となります。
よって、式 (1.151) で表される期待二乗損失を最小にする関数 {\bf y}({\bf x})\bf t の条件付き期待値で与えられることが示せました。

目次へ戻る