「第三章」の編集履歴(バックアップ)一覧はこちら

第三章」(2011/04/07 (木) 20:00:28) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

*第三章 線形モデルによる回帰問題 -教師あり学習による回帰分析の目的は、$$D$$次元入力ベクトル$${\bf x}$$の値から連続な目標変数$$t$$を予測すること。 -非線形な基底関数(&italic(){basis function})の線形結合を用いることも可。 ***3.1節 線形基底関数モデル -線形回帰    $$y({\bf x},{\bf w}) = w_0 + w_1 x_1 + ... + w_D x_D\hspace{3em}\left({\bf x} = (x_1,...,x_D)^T\right)$$  これは$${\bf w}$$についての線形関数であると同時に、$${\bf x}$$についても線形であり、このことがこのモデルに重大な制約を課す結果となっている。そこで以下のように非線形な$${\bf x}$$の基底関数を利用できるように拡張する。    $$y({\bf x},{\bf w}) = w_0 + \sum_{j=1}^{M-1}w_j\phi_j({\bf x})$$  ここで$$\phi_j({\bf x})$$が基底関数。$$w_0$$は固定されたオフセットとして利用され、バイアスパラメータ(&italic(){bias parameter})と呼ばれる(統計学のバイアスとは無関係)。このように拡張されたモデルは、$${\bf x}$$については非線形となるが、$${\bf w}$$については依然として線形。 -第一章で考察した曲線近似の問題は、多項式基底関数の一例$$\left(\phi_j(x) = x^j\right)$$。このモデルの欠点は、基底関数がが$${\bf x}$$のすべての領域にわたって定義されているため、入力空間の一部における変更がすべての領域に対して影響を与えてしまうこと。この点を改善したものがスプライン関数(&italic(){spline function})。 -基底関数が正規分布の例    $$\phi_j(x) = \exp\left\{-\frac{(x - \mu_j)^2}{2s^2}\right\}$$  $$\mu_j$$は位置を、$$s$$は幅を定める。 -基底関数がシグモイド関数の例    $$\phi_j(x) = \sigma\left(\frac{x - \mu_j}{s}\right)\hspace{3em}\left(\sigma(a) = \frac{1}{a + \exp\left(-a\right)}\right)$$  あるいは双曲正接関数(tanh)。ほかにフーリエ基底関数も利用され、その周期は個別で範囲は無限定。 -ウェーブレット(&italic(){wavelets})関数は、周期も範囲も個別化され、それぞれが互いに直交するように定義される。これは時系列における連続時点や画像のピクセルのように、入力値が規則的格子に沿っている場合に最も有効とされる。 -最大尤度と最小二乗法 目標変数$$t$$が以下の式で決定されるものとする。    $$t = y({\bf x},{\bf w}) + \epsilon$$ ここで$$\epsilon$$は平均0の正規分布に従う確率変数であり、その精度(分散の逆数)は$$\beta$$。よって    $$p(t|{\bf x},{\bf w},\beta) = {\cal N}\left(t|y({\bf x},{\bf w}),\beta^{-1}\right)$$ と書ける。平方損失関数を最小化することによって得られる新たな$${\bf x}$$に対する最適な予測は、    $${\mathbb E}\left[t|{\bf x}\right] = \int{tp(t|{\bf x}){\rm d}t = y({\bf x},{\bf w})}$$ ノイズが単純な正規分布に従うと仮定すると、上の条件付確立も単峰的であることになるがこれは多くの場合不適切。 -データセット$${\bf X} = \left\{{\rm x}_1,...,{\rm x}_N\right\}$$に対応する目標変数によって構成される列ベクトルを$${\bf t}$$とすると、尤度関数は    $$p({\bf t}|{\bf X},{\bf w},\beta) = \prod_{n=1}^{N}{\cal N}\left(t_n|{\bf w}^T\phi({\bf x}_n),\beta^{-1}\right)$$  教師付き学習の回帰ないし判別問題では、入力変数の分布をモデル化することが目的ではないため、$${\bf x}$$をパラメータから除外してよい。対数尤度関数は    $$\ln p({\bf t}|{\bf w},\beta) = \sum_{n=1}^{N}\ln{\cal N}\left(t_n|{\bf w}^T\phi({\bf x}_n),\beta^{-1}\right) = \frac{N}{2}\ln\beta - \frac{N}{2}\ln(2\pi) - \beta E_D({\bf w})\hspace{1em}\left(E_D({\bf w}) = \frac{1}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}^2\right)$$  この尤度関数からまず$${\bf w}$$を決定するため、$${\bf w}$$について上の式を最大化することを考える。求める$${\bf w}$$において上式は停留点をとるから、    $$\nabla\ln p({\bf t}|{\bf w},\beta) = \beta\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}\phi({\bf x}_n)^T = \sum_{n=1}^{N}t_n\phi({\bf x}_n)^T - {\bf w}^T\left(\sum_{n=1}^{N}\phi({\bf x}_n)\phi({\bf x}_n)^T\right) = 0$$  これを$${\bf w}$$について解くと、最小二乗法の正規方程式(&italic(){normal equation})    $${\bf w}_{ML} = \left(\Phi^T\Phi\right)^{-1}\Phi^T{\bf t}$$ が得られる。ここで$$\Phi$$はデザイン行列(&italic(){design matrix})で、その要素は$$\Phi_{nj} = \phi_j({\bf x}_n)$$。    $$\Phi^+ \equiv \left(\Phi^T\Phi\right)^{-1}\Phi^T$$ は$$\Phi$$のムーア・ペンローズ型一般逆行列(&italic(){Moore-Penrose pseudo-inverse})。 -バイアスパラメータ$$w_0$$は学習データの目標変数の平均値と重み付けされた基底関数の値の平均との間の差を補うものと見ることができる。 -次に$$\beta$$について同じ尤度関数を最大化することによって、    $$\beta_{ML} = \frac{1}{N}\sum_{n=1}^{N}\left\{t_n - {\bf w}_{ML}^T\phi({\bf x}_n)\right\}^2$$ を得る。 -最小二乗解とは、基底関数に対応するベクトル集合によって張られる線形部分空間上への$${\bf t}$$の直交射影と解釈できる。$$\Phi^T\Phi$$が特異に近い場合には正規方程式を直接求めることは計算上困難だが、これは特異値分解(&italic(){singular value decomposition,SVD})によって解決できる。正規化項を追加することで常に行列が非特異になるようにすることが可能。 -データ集合が巨大な場合は逐次学習(&italic(){sequential learning})またはオンライン学習(&italic(){on-line learning})が適切。逐次学習のアルゴリズムは確率的勾配降下法(&italic(){stochastic gradient descent})を適用することによって得られる。    $${\bf w}^{(\tau-1)} = {\bf w}^{(\tau)} - \eta\nabla{\rm E}_n$$ $$\tau$$は反復回数を表し、$$\eta$$は学習レートパラメータ。二乗和誤差関数の場合は    $${\bf w}^{(\tau-1)} = {\bf w}^{(\tau)} + \eta\nabla\frac{1}{2}\left\{t_n - {\bf w}^{(\tau)T}\phi_n\right\}^2 = {\bf w}^{(\tau)} + \eta(t_n - {\bf w}^{(\tau)T}\phi_n)\phi_n\hspace{3em}\left(\phi_n = \phi({\bf x}_n)\right)$$  これは最小平均二乗アルゴリズム(&italic(){least-mean-square(LMS) algorithm})として知られている。$$\eta$$の値はアルゴリズムが収束するように選ばれる必要がある。 -正則化された最小二乗  曲線近似のオーバーフィッティング対策として利用された正則化項をこの場合も適用できる。    $${\rm E}_D({\rm W}) + \lambda{\rm E}_W({\bf w})$$  二乗和誤差関数に重みベクトルの二乗和を加えるシンプルなケースでは、誤差関数全体は次のようになる(リッジ回帰)。    $$\frac{1}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}^2 + \frac{\lambda}{2}{\bf w}^T{\bf w} \hspace{2em}(3.27)$$   機械学習の文脈においてはこのような正則化項の選択は重みベクトルの値を0に向かって減衰させるため、重み減衰(&italic(){weight decay})という。統計学においてはこれはパラメータ縮小法の一例。この手法の利点は、誤差関数を$${\bf w}$$の二次式に保つことができるためその最小化解が容易に求められる点にある。上の式の$${\bf w}$$についての導関数を0と等値して$${\bf w}$$について解くと、    $${\bf w} = (\lambda {\rm I} + \Phi^T\Phi)^{-1}\Phi^T{\bf t}$$ と簡単になる。 -より一般的な正則化項を用いた誤差関数は次のようになる。    $$\frac{1}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}^2 + \frac{1}{2}\sum_{j=1}^{M}|w_j|^q$$ ここで$$q=2$$とすればリッジ回帰となり、$$q=1$$とした場合を投げ縄(&italic(){lasso})という。これは十分に大きな$$\lambda$$について係数$$w_j$$のうちの幾つかが0になり、対応する基底関数が何の影響も持たなくなるスパースモデル(&italic(){sparse model})に導かれるという特徴を有している。 //   $$p({\bf t}|{\bf x},{\rm W},\beta) = {\cal N}\left(t|{\rm W}^T\phi({\bf x}),\beta^{-1}{\rm I}\right)$$   ***3.2節 バイアス・バリアンス分解 -期待二乗損失    $${\mathbb E}[L] = \int\left\{y({\bf x}) - h({\bf x})\right\}^2p({\bf x}){\rm d}{\bf x} + \int\!\!\!\int\left\{h({\bf x}) - t\right\}^2p({\bf x},t){\rm d}{\bf x}{\rm d}t\hspace{3em}(3.37)$$  第二項は$$y({\bf x})$$とは独立でデータに内在するノイズから生じるものだからこの際無視できる。特定のデータセット$${\cal D}$$に対する第一項の被積分関数を    $$\left\{y({\bf x};{\cal D}) - h({\bf x})\right\}^2$$ と書き直し、その平均を取ると、    $$\mathbb E}_{\cal D}\left[\left\{y({\bf x};{\cal D}) - h({\bf x})\right\}^2\right] = \left\{\mathbb E}_{\cal D}\left[y({\bf x};{\cal D})\right] - h({\bf x})\right\}^2 + \mathbb E}_{\cal D}\left[\left\{y({\bf x};{\cal D}) - \mathbb E}_{\cal D}\left[y({\bf x};{\cal D})\right]\right\}^2\right]\right\}\right]$$ 第一項がバイアスの二乗ですべてのデータセットについての予測の平均が理想の回帰関数とどれだけ食い違っているかを表し、第二項は分散、すなわち個々のデータセットに対する解がそれらの平均からどれだけ乖離しているか、つまり$$y({\bf x};{\cal D})$$が特定のデータセットによってどれだけ影響されるかの程度を表している。つまり(3.37)は    期待損失 = $$($$バイアス$$)^2$$ + 分散 + ノイズ バイアスと分散との間にはトレードオフの関係があり、非常に柔軟なモデルは低いバイアスと高い分散を伴い、比較的硬直したモデルは高いバイアスと低い分散を伴う。ただし実際には限られたデータセットを複数のセットに分割することは無駄なのでこれらの洞察は実用性には繋がりにくい。 ***3.3節 ベイズ線形回帰 -線形回帰モデルのパラメータを決定する最尤法においては、基底関数の個数によって支配される最適なモデル複雑性はデータセットの個数に左右されることを見た。むろん対数尤度関数に正則化項を加えることによって、モデル複雑性は正則化係数によっても制御されうることになるものの、その場合にも依然として基底関数の個数と形式を選択することはモデル全体の振る舞いを決定するのに重要。ある問題に最適なモデルを決定することは尤度関数を最大化することによっては達成できない。なぜならそれは常に過剰に複雑なモデルを選択することすなわち過学習につながるから。既述のように、モデル複雑性を決定するのに別個のデータを使用することも出来るがそれは計算量の増加を招き、またデータの無駄でもある。 -線形回帰問題に対するベイジアン的手法には、このような尤度関数による過学習を避け、学習パターンのみによってモデル複雑性を決定できるという利点がある。 ***パラメータ確率分布 -ベイズ線形回帰は、モデルパラメータ$${\bf w}$$についての事前確率分布を導入することから始まる。精度パラメータ$$\beta$$はここでは既知の定数とする。尤度関数    $$p\left({\bf t}|{\bf X},{\bf w},\beta\right) = \prod_{n=1}^{N}{\cal N}\left(t_n|{\bf w}^{\rm T}{\bf \phi}({\bf x}_n),\beta^{-1}\right)$$ は$${\bf w}$$の二次関数の指数関数によって定義されるから、対応する共役事前分布は正規分布    $$p({\bf w}) = {\cal N}\left({\bf w}|{\bf m}_0,{\bf S}_0 \right)$$ これから事後分布(ベイズの定理により事前分布と尤度の積に比例する)を平方完成により求めると以下の正規分布となる。    $$p({\bf w}|{\bf t}) = {\cal N}\left({\bf w}|{\bf m}_N,{\bf S}_N \right) \hspace{2em} \left({\bf m}_N = {\bf S}_N\left({\bf S}_0^{-1}{\bf m}_0 + \beta{\bf \Phi}^{\rm T}{\bf t}\right), \hspace{1em} {\bf S}_N^{-1} = {\bf S}_0^{-1} + \beta{\bf \Phi}^{\rm T}{\bf \Phi}\right) \hspace{2em} (3.52),(3.53),(3.54)$$ これは$$N=0$$のとき事前分布に一致する。事後分布は正規分布で最頻値が平均に一致するから、MAP重みは$${\bf w}_{MAP} = {\bf m}_N$$で与えられる。ここで​$${\bf S}_0 = \alpha^{-1}{\bf I} \hspace{1em} \left(\alpha \rightarrow 0\right)$$とすれば、事後分布の平均$${\bf m}_N$$は$${\bf w}_{ML} = \left({\bf \Phi}^{\rm T}{\bf \Phi}\right)^{-1}{\bf \Phi}^{\rm T}{\bf t}$$に一致する。なお、例によって$$N = 0$$のとき事後分布は事前分布に一致する。 -いま単純化するために平均が0の等方的な正規分布    $$p({\bf w}|\alpha) = {\cal N}\left({\bf w}|{\bf 0}, \alpha^{-1}{\bf I}\right) \hspace{2em} \left({\bf m}_N = \beta{\bf S}_N{\bf \Phi}^{\rm T}{\bf t}, \hspace{1em} {\bf S}_N^{-1} = \alpha{\bf I} + \beta{\bf \Phi}^{\rm T}{\bf \Phi}\right)$$ を考えると、事後分布の対数は対数尤度と事前分布の対数との和で与えられ、以下の$${\bf w}$$の関数となる。    $$\ln p\left({\bf w}|{\bf t}\right) = -\frac{\beta}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^{\rm T}{\bf \phi}({\bf x}_n)\right\}^2 - \frac{\alpha}{2}{\bf w}^{\rm T}{\bf w} + {\rm const}$$ これを$${\bf w}$$について最大化することは(3.27の正則化係数が$$\lambda = \alpha /\beta$$の)二次形式正則化項つき二乗和誤差関数を最小化することと等価。 ***予測分布 -パラメータ$${\bf w}$$自体よりも新たな入力$${\bf x}$$に対する予測$$t$$を知りたいということが実際には多いため、予測分布(&italic(){predictive distribution})    $$p\left(t|{\bf t},\alpha,\beta\right) = \int p\left(t|{\bf w},\beta\right)p\left({\bf w}|{\bf t},\alpha,\beta\right){\rm d}{\bf w}$$ ($${\bf t}$$は学習パターンの目標値ベクトルで、それに対応する入力ベクトルは省略されている)これは書き換えると    $$p\left({\bf x},{\bf t},\alpha,\beta\right) = {\cal N}\left(t|{\bf m}_N^{\rm T}{\bf \phi}({\bf x}), \sigma^2_N({\bf x})\right) \hspace{2em} \left(\sigma^2_N({\bf x}) = \frac{1}{\beta} + {\bf \phi}({\bf x})^{\rm T}{\bf S}_N{\bf \phi}({\bf x})\right)$$ となり、分散$$\sigma^2_N({\bf x})$$の第一項はデータのノイズを表し、第二項はパラメータ$${\bf w}$$についての不確かさを表している。 -データが観測される毎に予測分散が小さくなり($$\sigma^2_{N+1}({\bf x}) \leq\sigma^2_N({\bf x})$$)、$$N\rightarrow \infty$$のとき第二項は限りなく0に近付き、予測分散は$$\beta$$のみによって支配されるようになる。正規分布のような基底関数を使用する場合、基底関数の中心から離れれば離れるほど予測分散の第二項の影響が小さくなり、$$\beta$$のみによって支配されるようになるため、基底関数が占める領域外の外挿を行った場合の方が信頼性が高くなるという望ましくない結果となる。この点を改善するのがガウス過程(&italic(){Gaussian process})。 -$${\bf w}$$および$$\beta$$の両方が未知とした場合には共役事前分布はガウス-ガンマ分布で与えられ、予測分布はt分布となる。 ***等価カーネル -(3.53)の平均0等方正規分布の事後分布平均を使うと、予測分布の平均は    $$y\left({\bf x},{\bf m}_N\right) = \sum_{n=1}^{N}\beta {\bf \phi}({\bf x})^{\rm T}{\bf S}_N{\bf \phi}({\bf x}_n)t_n$$ と書くことができる。ここで$$k\left({\bf x},{\bf x}'\right) = \beta{\bf \phi}({\bf x})^{\rm T}{\bf S}_N{\bf \phi}({\bf x}')$$とおくと、    $$y\left({\bf x},{\bf m}_N\right) = \sum_{n=1}^{N}k\left({\bf x},{\bf x}_n\right)t_n$$ というカーネル表現となり、点$${\bf x}$$における事前分布の平均は学習データ目標値の線形結合によって表せることが分かる。この場合のカーネル$$k$$を平滑化行列(&italic(){smoother matrix})あるいは等価カーネル(&italic(){equivalent kernel})という。このように学習パターン目標値の線形結合によって予測を行う回帰関数を線形平滑器(&italic(){linear smoother})という。 -等価カーネルは学習データに含まれる入力値$${\bf x}_n$$に依存する。ある$${\bf x}$$における予測分布の平均は、各学習データ点に対してその距離に応じて$${\bf x}$$に近いほど大きく重み付けが施された目標値の線形結合によって得られる。すなわち、近くのエビデンスを遠くのエビデンスよりも大きく重み付けする。このような局所性は、局所化された正規基底関数に限定される特性ではなく、局所化されない多項式あるいはシグモイド基底関数の場合にも観察できる。 -また、$$y({\bf x})$$と$$y({\bf x}')$$の共分散は等価カーネルの定数倍となるため、互いに近接した点における予測平均同士には高い相関があり、逆に離れた点同士の場合には低い相関しかない。 -等価カーネルを明示的に定義する基底関数の集合を導入する代わりに、局所化されたカーネルを直接定義して予測を行うことが考えられる。第六章のガウスプロセスを参照。 -等価カーネルは学習データ目標値に対して与えられる重みを定義するものなので    $$\sum_{n=1}^{N}k\left({\bf x},{\bf x}_n\right) = 1$$ を満たす。もし基底関数が線形独立で(すなわち基底関数よりもデータ点のほうが数が多い)基底関数の一つが定数関数である(これはバイアスパラメータに相当する)ならば、学習データに完全に一致して予測平均は1となり、上と同じ結果になる。ただし重みの和が1であっても個々のカーネル関数は負であることもありうるので、必ずしもその結合は凸結合となるとは限らない。 -等価カーネルは当然のことながら、以下のカーネル関数の一般的要件を満たす。    $$k(x,x') = {\bf \psi}({\bf x})^{\rm T}{\bf \psi}({\bf x}') \hspace{2em}\left({\bf \psi}({\bf x}) = \beta^{\frac{1}{2}}{\bf S}_N^{\frac{1}{2}}{\bf \phi}({\bf x})\right)$$    ***3.4節 ベイズモデル比較 -最尤法における過学習の問題は、ベイズ的手法においてはモデルのパラメータの値を点推定する代わりにそれらを周辺化することによって回避することが出来る。この場合、評価のためのデータは不要なため利用可能なデータの全てを学習のために利用することができる。また、複数の複雑性パラメータを学習過程において同時に決定することができる。例えば第七章の関連ベクトルマシンは、各学習データごとに一つの複雑性パラメータを持つベイズモデル。 -ベイズ的手法によるモデル選択においては、確率についての和および積の法則の一貫した適用によってモデル選択についての不確かさを確率によって表現する。例えば$$L$$個のモデル$$\left\{{\cal M}_i\right\}\left(i=1,...,L\right)$$を比較したい場合には、あるモデルによって生成されたデータ$${\cal D}$$を観測した場合のモデル選択に関する事後確率分布は    $$p\left({\cal M}_i|{\cal D}\right) \propto p\left({\cal M}_i\right)p\left({\cal D}|{\cal M}_i\right)$$ で表される。ここで事前分布$$p\left({\cal M}_i\right)$$はもともとのモデル選択の不確かさを表し、ここでは全てのモデルが均等な確率を持つものと仮定する。$$p\left({\cal D}|{\cal M}_i\right)$$をモデルエビデンス(&italic(){model evidence})または周辺尤度(&italic(){marginal likelihood})といい、二つのモデルエビデンス間の比$$p\left({\cal D}|{\cal M}_i\right)/p\left({\cal D}|{\cal M}_j\right)$$をベイズ因子(&italic(){Bayes factor})という。モデルエビデンスはデータが当該モデルによってどの程度よく説明されうるかの程度を表す。 -事後分布が分かれば、予測分布は    $$p\left(t|{\bf x},{\cal D}\right) = \sum_{n=1}^{L}p\left(t|{\bf x},{\cal M}_i,{\cal D}\right)p\left({\cal M}_i|{\cal D}\right)$$ となる。これはモデル毎予測分布のそれぞれの事後確率による重み付け和と見ることができ、混合分布(&italic(){mixture distribution})の一例。例えば、同様に確からしい2つのモデルがあり、その一つは$$t=a$$の周辺で尖り、もう一つは$$t=b$$の周辺で尖っているとすると、全体としての予測分布はこれら二点の周辺で尖っている双峰的分布となる($$t=(a+b)/2$$で尖る単峰的分布になるのではない)。 -モデル平均化のための単純な近似法の一つとして、予測を行うのに最も確からしい単一のモデルのみを使用する方法があり、これをモデル選択(&italic(){model selection})という。例えばパラメータ$${\bf w}$$に依存するモデルの場合、モデルエビデンスは尤度関数を$${\bf w}$$について積分したものすなわち    $$p\left({\cal D}|{\cal M}_i\right) = \int p\left({\cal D}|{\bf w},{\cal M}_i\right) p\left({\bf w}|{\cal M}_i\right){\rm d}{\bf w}$$ サンプリングの観点からこれを見ると、周辺尤度はそのパラメータが事前か分布からランダムにサンプリングされたモデルがデータ集合$${\cal D}$$を生成する確率として捉えることが出来る。また、エビデンスはベイズの定理の右辺の分母すなわち正規化定数に一致することにも留意すべき。  (つまり、上の式はベイズの定理    $$p\left({\bf w}|{\cal D},{\cal M}_i\right) = \frac{p\left({\cal D}|{\bf w},{\cal M}_i\right)p\left({\bf w}|{\cal M}_i\right)}{p\left({\cal D}|{\cal M}_i\right)}$$ の両辺にエビデンス(右辺の分母)を掛け、両辺を$${\bf w}$$について積分したもの。) -想定しているモデル集合の中に真のモデルが含まれているとの前提の下では、平均的にはモデルエビデンスを最大化することで最適なモデル選択が可能。 -ベイズ的アプローチは他の多くのパターン認識の手法同様、モデルの形状についての仮定に大きく左右される。特に事前分布が変則である場合にはエビデンスによる最適化は困難になる。したがって実際上は評価用データを別途用意したほうが無難。 ***3.5節 エビデンス近似 -ベイズ的線形基底関数モデルにおいては、ハイパーパラメータの事前分布を導入し、$${\bf w}$$についてと同様にそれらについての周辺化によって予測を行う。しかし、個々のパラメータについてはともかく、これら全てのパラメータについて積分を行うことは解析的に不可能。そこでパラメータ$${\bf w}$$について積分することによって得られる周辺尤度関数(&italic(){marginal likelihood function})を最大化することによってハイパーパラメータの値を決定する近似法を考える。この手法は統計学においては経験ベイズ(&italic(){empirical Bayes})などと呼ばれ、機械学習の分野においてはエビデンス近似(&italic(){evidence approximation})と呼ばれる。    $$p\left(t|{\bf t}\right) = \int\!\!\!\int\!\!\!\int p\left(t|{\bf w},\beta\right)p\left({\bf w}|{\bf t},\alpha,\beta\right)p\left(\alpha,\beta|{\bf t}\right){\rm d}{\bf w}{\rm d}\alpha{\rm d}\beta$$ ($${\bf x}$$に対する依存は簡明のため省略してある) 事後分布$$p\left(\alpha,\beta|{\bf t}\right)$$が$$\hat{\alpha}$$および$$\hat{\beta}$$において鋭く尖っているなら、上式のように$$\alpha$$および$$\beta$$について積分する代わりに、$$\alpha$$および$$\beta$$をそれぞれ$$\hat{\alpha}$$および$$\hat{\beta}$$に固定することによって以下の近似が得られる。    $$p\left(t|{\bf t}\right) \simeq p(t|{\bf t},\hat{\alpha},\hat{\beta}) = \int p(t|{\bf w},\hat{\beta})p({\bf w}|{\bf t},\hat{\alpha},\hat{\beta}) {\rm d}{\bf w}$$  ベイズの定理により    $$p\left(\alpha,\beta|{\bf t}\right) \propto p\left({\bf t}|\alpha,\beta\right)p\left(\alpha,\beta\right)$$ だから、もし事前分布が比較的平らならば、事後分布$$p\left(\alpha,\beta|{\bf t}\right)$$の極大値$$\alpha,\beta$$は周辺尤度関数$$p\left({\bf t}|\alpha,\beta\right)$$を最大化することによって得られる。これによってクロス評価法によることなく学習データのみによってこれらのハイパーパラメータの値を決定することができる。 -対数エビデンスを最大化する方法としては、エビデンス関数を微分して0と等置することで得られる$$\alpha$$および$$\beta$$についての方程式を解く方法と、期待最大化(&italic(){expectation maximization(EM)})と呼ばれる手法を用いる方法とがあり、両方とも同じ解に収束する。 ***エビデンス関数の評価 -周辺尤度関数$$p\left({\bf t}|\alpha,\beta\right)$$は$${\bf w}$$についての積分    $$p\left({\bf t}|\alpha,\beta\right) = \intp\left({\bf t}|{\bf w},\beta\right)p\left({\bf w}|\alpha\right){\rm d}{\bf w}$$ によって得られるところ、その対数は    $$\ln p\left({\bf t}|\alpha,\beta\right) = \frac{M}{2}\ln\alpha + \frac{N}{2}\ln\beta - E\left({\bf m}_N\right) - \frac{1}{2}\ln |{\bf A}| - \frac{N}{2}\ln(2\pi) \hspace{1em} \left({\bf A} = \alpha{\bf I} + {\bf \Phi}^{\rm T}{\bf \Phi} = \nabla\nabla E({\bf w})\right) \hspace{2em} (3.86)$$ となる(計算略)。対数エビデンスはデータに対する当てはまりの良さを反映しかつ単純なモデルを指向する性質を持つ。 ***エビデンス関数の最大化 -(3.86)を最大化する$$\alpha,\beta$$を求める。$${\bf A} = \alpha{\bf I} + {\bf \Phi}^{\rm T}{\bf \Phi}$$だから固有ベクトル方程式    $$(\beta{\bf \Phi}^{\rm T}{\bf \Phi}){\bf u}_i = \lambda_i{\bf u}_i$$ $${\bf A}$$は固有値$$\alpha + \lambda_i$$を持つ。対称行列の行列式はその固有値の積に等しいから、    $$\frac{d}{d\alpha}\ln|{\bf A}| = \frac{d}{d\alpha}\ln\prod_i\left(\lambda_i + \alpha\right) = \frac{d}{d\alpha}\sum_{i}\ln\left(\lambda_i + \alpha\right) = \sum_{i}\frac{1}{\lambda_i + \alpha}$$ 従って    $$ 0 = \frac{M}{2\alpha} - \frac{1}{2}{\bf m}_N^T{\bf m}_N - \frac{1}{2}\sum_{i}\frac{1}{\lambda_i + \alpha}$$    $$\alpha = \frac{\gamma}{{\bf m}_N^T{\bf m}_N} \hspace{1em} \left(\gamma = \sum_{i}\frac{\lambda_i}{\alpha + \lambda_i}\right) \hspace{1em}(3.92)$$ $$\gamma$$および$${\bf m}_N$$は両方とも$$\alpha$$に依存し$$\alpha$$の陰形式解だからこれを定めるのに§3.3.1の反復法を用いる。この際、行列$${\bf \Phi}^{\rm T}{\bf \Phi}$$は一定なのでその固有値は最初に一度だけ計算すればよく、後はステップごとに$$\beta$$倍すれば足りることに注意。 -再度強調すると、この方法では$$\alpha$$を決定するのに学習データしか必要ではなく、最尤法の場合のようにモデル複雑性を決定するために別途評価用のデータを用意する必要がない。 -$$\beta$$についても上と同様に対数周辺尤度関数(3.86)を最大化することによって($$\alpha$$の場合同様、反復的手法が必要)これを定めることができ、    $$\frac{1}{\beta} = \frac{1}{N-\gamma}\sum_{n=1}^{N}\left\{t_n - {\bf m}_N^T{\bf \phi}({\bf x}_n)\right\}^2$$ となる。 $$\alpha,\beta$$の値が決まれば$$\gamma$$についても同様。 ***有効パラメータ数 -$$\beta{\bf \Phi}^{\rm T}{\bf \Phi}$$は正定値行列でその固有値$$\lambda_i$$は正だから、$$0 \leq \gamma \leq M$$。$$\lambda_i \gg \alpha$$な場合には$$\lambda_i(\lambda_i + \alpha)$$は1に近く対応する$$w_i$$はML解の成分に近い。このような場合、そのパラメータはデータによって有効に決定される(&italic(){well determined})という。逆にそうでない場合、尤度関数は当該パラメータの値の変化に対してあまり反応しないので、その事前分布における初期値は小さく設定される。従って$$\gamma$$はデータによって有効に決定されるパラメータの個数を表していることになる。 -最尤推定による正規分布の分散は    $$\sigma^2_{ML} = \frac{1}{N}\sum_{n=1}^{N}\left(x_n - \mu_{ML}\right)^2$$ であるのに対し、ベイズ推定による場合は    $$\sigma^2_{MAP} = \frac{1}{N-1}\sum_{n=1}^{N}\left(x_n - \mu_{ML}\right)^2$$ となり、後者は不偏である点が前者と異なっていた。同様のことが線形回帰モデルの場合にも言える。最尤推定による場合の$$N$$に代えてベイズ線形回帰の場合には$$N - \gamma$$となり、これによって前者に含まれるバイアスを修正していることになる。    ***3.6節 固定基底関数の限界  非線形基底関数の線形結合から成るモデルは、最小二乗問題についての閉形式解の存在やベイズ的扱いの容易さなどの利点があるものの重大な限界を有している。問題はデータが観測される以前に基底関数が固定されてしまっていることにあり、その結果として入力空間の次元に対してしばしば指数オーダで基底関数の必要数が増加してしまう(次元の呪い)。  しかしながら二つの点が救いとなる。一つは、データベクトルは入力変数間の強い相関によってそれ自身の次元は入力空間のそれよりも小さい非線形多様体の近くに存在することが多い。もう一つは、目標変数はデータ多様体の可能な方向のうちの少しにしか強い依存をしていないこと。ニューラルネットワークは基底関数が反応する入力空間内の方向を選択することでこの性質を利用することができる。 // //
*第三章 線形モデルによる回帰問題 -教師あり学習による回帰分析の目的は、$$D$$次元入力ベクトル$${\bf x}$$の値から連続な目標変数$$t$$を予測すること。 -非線形な基底関数(&italic(){basis function})の線形結合を用いることも可。 ***3.1節 線形基底関数モデル -線形回帰    $$y({\bf x},{\bf w}) = w_0 + w_1 x_1 + ... + w_D x_D\hspace{3em}\left({\bf x} = (x_1,...,x_D)^T\right)$$  これは$${\bf w}$$についての線形関数であると同時に、$${\bf x}$$についても線形であり、このことがこのモデルに重大な制約を課す結果となっている。そこで以下のように非線形な$${\bf x}$$の基底関数を利用できるように拡張する。    $$y({\bf x},{\bf w}) = w_0 + \sum_{j=1}^{M-1}w_j\phi_j({\bf x})$$  ここで$$\phi_j({\bf x})$$が基底関数。$$w_0$$は固定されたオフセットとして利用され、バイアスパラメータ(&italic(){bias parameter})と呼ばれる(統計学のバイアスとは無関係)。このように拡張されたモデルは、$${\bf x}$$については非線形となるが、$${\bf w}$$については依然として線形。 -第一章で考察した曲線近似の問題は、多項式基底関数の一例$$\left(\phi_j(x) = x^j\right)$$。このモデルの欠点は、基底関数がが$${\bf x}$$のすべての領域にわたって定義されているため、入力空間の一部における変更がすべての領域に対して影響を与えてしまうこと。この点を改善したものがスプライン関数(&italic(){spline function})。 -基底関数が正規分布の例    $$\phi_j(x) = \exp\left\{-\frac{(x - \mu_j)^2}{2s^2}\right\}$$  $$\mu_j$$は位置を、$$s$$は幅を定める。 -基底関数がシグモイド関数の例    $$\phi_j(x) = \sigma\left(\frac{x - \mu_j}{s}\right)\hspace{3em}\left(\sigma(a) = \frac{1}{a + \exp\left(-a\right)}\right)$$  あるいは双曲正接関数(tanh)。ほかにフーリエ基底関数も利用され、その周期は個別で範囲は無限定。 -ウェーブレット(&italic(){wavelets})関数は、周期も範囲も個別化され、それぞれが互いに直交するように定義される。これは時系列における連続時点や画像のピクセルのように、入力値が規則的格子に沿っている場合に最も有効とされる。 -最大尤度と最小二乗法 目標変数$$t$$が以下の式で決定されるものとする。    $$t = y({\bf x},{\bf w}) + \epsilon$$ ここで$$\epsilon$$は平均0の正規分布に従う確率変数であり、その精度(分散の逆数)は$$\beta$$。よって    $$p(t|{\bf x},{\bf w},\beta) = {\cal N}\left(t|y({\bf x},{\bf w}),\beta^{-1}\right)$$ と書ける。平方損失関数を最小化することによって得られる新たな$${\bf x}$$に対する最適な予測は、    $${\mathbb E}\left[t|{\bf x}\right] = \int{tp(t|{\bf x}){\rm d}t = y({\bf x},{\bf w})}$$ ノイズが単純な正規分布に従うと仮定すると、上の条件付確立も単峰的であることになるがこれは多くの場合不適切。 -データセット$${\bf X} = \left\{{\rm x}_1,...,{\rm x}_N\right\}$$に対応する目標変数によって構成される列ベクトルを$${\bf t}$$とすると、尤度関数は    $$p({\bf t}|{\bf X},{\bf w},\beta) = \prod_{n=1}^{N}{\cal N}\left(t_n|{\bf w}^T\phi({\bf x}_n),\beta^{-1}\right)$$  教師付き学習の回帰ないし判別問題では、入力変数の分布をモデル化することが目的ではないため、$${\bf x}$$をパラメータから除外してよい。対数尤度関数は    $$\ln p({\bf t}|{\bf w},\beta) = \sum_{n=1}^{N}\ln{\cal N}\left(t_n|{\bf w}^T\phi({\bf x}_n),\beta^{-1}\right) = \frac{N}{2}\ln\beta - \frac{N}{2}\ln(2\pi) - \beta E_D({\bf w})\hspace{1em}\left(E_D({\bf w}) = \frac{1}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}^2\right)$$  この尤度関数からまず$${\bf w}$$を決定するため、$${\bf w}$$について上の式を最大化することを考える。求める$${\bf w}$$において上式は停留点をとるから、    $$\nabla\ln p({\bf t}|{\bf w},\beta) = \beta\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}\phi({\bf x}_n)^T = \sum_{n=1}^{N}t_n\phi({\bf x}_n)^T - {\bf w}^T\left(\sum_{n=1}^{N}\phi({\bf x}_n)\phi({\bf x}_n)^T\right) = 0$$  これを$${\bf w}$$について解くと、最小二乗法の正規方程式(&italic(){normal equation})    $${\bf w}_{ML} = \left(\Phi^T\Phi\right)^{-1}\Phi^T{\bf t}$$ が得られる。ここで$$\Phi$$はデザイン行列(&italic(){design matrix})で、その要素は$$\Phi_{nj} = \phi_j({\bf x}_n)$$。    $$\Phi^+ \equiv \left(\Phi^T\Phi\right)^{-1}\Phi^T$$ は$$\Phi$$のムーア・ペンローズ型一般逆行列(&italic(){Moore-Penrose pseudo-inverse})。 -バイアスパラメータ$$w_0$$は学習データの目標変数の平均値と重み付けされた基底関数の値の平均との間の差を補うものと見ることができる。 -次に$$\beta$$について同じ尤度関数を最大化することによって、    $$\beta_{ML} = \frac{1}{N}\sum_{n=1}^{N}\left\{t_n - {\bf w}_{ML}^T\phi({\bf x}_n)\right\}^2$$ を得る。 -最小二乗解とは、基底関数に対応するベクトル集合によって張られる線形部分空間上への$${\bf t}$$の直交射影と解釈できる。$$\Phi^T\Phi$$が特異に近い場合には正規方程式を直接求めることは計算上困難だが、これは特異値分解(&italic(){singular value decomposition,SVD})によって解決できる。正規化項を追加することで常に行列が非特異になるようにすることが可能。 -データ集合が巨大な場合は逐次学習(&italic(){sequential learning})またはオンライン学習(&italic(){on-line learning})が適切。逐次学習のアルゴリズムは確率的勾配降下法(&italic(){stochastic gradient descent})を適用することによって得られる。    $${\bf w}^{(\tau-1)} = {\bf w}^{(\tau)} - \eta\nabla{\rm E}_n$$ $$\tau$$は反復回数を表し、$$\eta$$は学習レートパラメータ。二乗和誤差関数の場合は    $${\bf w}^{(\tau-1)} = {\bf w}^{(\tau)} + \eta\nabla\frac{1}{2}\left\{t_n - {\bf w}^{(\tau)T}\phi_n\right\}^2 = {\bf w}^{(\tau)} + \eta(t_n - {\bf w}^{(\tau)T}\phi_n)\phi_n\hspace{3em}\left(\phi_n = \phi({\bf x}_n)\right)$$  これは最小平均二乗アルゴリズム(&italic(){least-mean-square(LMS) algorithm})として知られている。$$\eta$$の値はアルゴリズムが収束するように選ばれる必要がある。 -正則化された最小二乗  曲線近似のオーバーフィッティング対策として利用された正則化項をこの場合も適用できる。    $${\rm E}_D({\rm W}) + \lambda{\rm E}_W({\bf w})$$  二乗和誤差関数に重みベクトルの二乗和を加えるシンプルなケースでは、誤差関数全体は次のようになる(リッジ回帰)。    $$\frac{1}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}^2 + \frac{\lambda}{2}{\bf w}^T{\bf w} \hspace{2em}(3.27)$$   機械学習の文脈においてはこのような正則化項の選択は重みベクトルの値を0に向かって減衰させるため、重み減衰(&italic(){weight decay})という。統計学においてはこれはパラメータ縮小法の一例。この手法の利点は、誤差関数を$${\bf w}$$の二次式に保つことができるためその最小化解が容易に求められる点にある。上の式の$${\bf w}$$についての導関数を0と等値して$${\bf w}$$について解くと、    $${\bf w} = (\lambda {\rm I} + \Phi^T\Phi)^{-1}\Phi^T{\bf t}$$ と簡単になる。 -より一般的な正則化項を用いた誤差関数は次のようになる。    $$\frac{1}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^T\phi({\bf x}_n)\right\}^2 + \frac{1}{2}\sum_{j=1}^{M}|w_j|^q$$ ここで$$q=2$$とすればリッジ回帰となり、$$q=1$$とした場合を投げ縄(&italic(){lasso})という。これは十分に大きな$$\lambda$$について係数$$w_j$$のうちの幾つかが0になり、対応する基底関数が何の影響も持たなくなるスパースモデル(&italic(){sparse model})に導かれるという特徴を有している。 //   $$p({\bf t}|{\bf x},{\rm W},\beta) = {\cal N}\left(t|{\rm W}^T\phi({\bf x}),\beta^{-1}{\rm I}\right)$$   ***3.2節 バイアス・バリアンス分解 -期待二乗損失    $${\mathbb E}[L] = \int\left\{y({\bf x}) - h({\bf x})\right\}^2p({\bf x}){\rm d}{\bf x} + \int\!\!\!\int\left\{h({\bf x}) - t\right\}^2p({\bf x},t){\rm d}{\bf x}{\rm d}t\hspace{3em}(3.37)$$  第二項は$$y({\bf x})$$とは独立でデータに内在するノイズから生じるものだからこの際無視できる。特定のデータセット$${\cal D}$$に対する第一項の被積分関数を    $$\left\{y({\bf x};{\cal D}) - h({\bf x})\right\}^2$$ と書き直し、その平均を取ると、    $$\mathbb E}_{\cal D}\left[\left\{y({\bf x};{\cal D}) - h({\bf x})\right\}^2\right] = \left\{\mathbb E}_{\cal D}\left[y({\bf x};{\cal D})\right] - h({\bf x})\right\}^2 + \mathbb E}_{\cal D}\left[\left\{y({\bf x};{\cal D}) - \mathbb E}_{\cal D}\left[y({\bf x};{\cal D})\right]\right\}^2\right]\right\}\right]$$ 第一項がバイアスの二乗ですべてのデータセットについての予測の平均が理想の回帰関数とどれだけ食い違っているかを表し、第二項は分散、すなわち個々のデータセットに対する解がそれらの平均からどれだけ乖離しているか、つまり$$y({\bf x};{\cal D})$$が特定のデータセットによってどれだけ影響されるかの程度を表している。つまり(3.37)は    期待損失 = $$($$バイアス$$)^2$$ + 分散 + ノイズ バイアスと分散との間にはトレードオフの関係があり、非常に柔軟なモデルは低いバイアスと高い分散を伴い、比較的硬直したモデルは高いバイアスと低い分散を伴う。ただし実際には限られたデータセットを複数のセットに分割することは無駄なのでこれらの洞察は実用性には繋がりにくい。 ***3.3節 ベイズ線形回帰 -線形回帰モデルのパラメータを決定する最尤法においては、基底関数の個数によって支配される最適なモデル複雑性はデータセットの個数に左右されることを見た。むろん対数尤度関数に正則化項を加えることによって、モデル複雑性は正則化係数によっても制御されうることになるものの、その場合にも依然として基底関数の個数と形式を選択することはモデル全体の振る舞いを決定するのに重要。ある問題に最適なモデルを決定することは尤度関数を最大化することによっては達成できない。なぜならそれは常に過剰に複雑なモデルを選択することすなわち過学習につながるから。既述のように、モデル複雑性を決定するのに別個のデータを使用することも出来るがそれは計算量の増加を招き、またデータの無駄でもある。 -線形回帰問題に対するベイジアン的手法には、このような尤度関数による過学習を避け、学習パターンのみによってモデル複雑性を決定できるという利点がある。 ***パラメータ確率分布 -ベイズ線形回帰は、モデルパラメータ$${\bf w}$$についての事前確率分布を導入することから始まる。精度パラメータ$$\beta$$はここでは既知の定数とする。尤度関数    $$p\left({\bf t}|{\bf X},{\bf w},\beta\right) = \prod_{n=1}^{N}{\cal N}\left(t_n|{\bf w}^{\rm T}{\bf \phi}({\bf x}_n),\beta^{-1}\right)$$ は$${\bf w}$$の二次関数の指数関数によって定義されるから、対応する共役事前分布は正規分布    $$p({\bf w}) = {\cal N}\left({\bf w}|{\bf m}_0,{\bf S}_0 \right)$$ これから事後分布(ベイズの定理により事前分布と尤度の積に比例する)を平方完成により求めると以下の正規分布となる。    $$p({\bf w}|{\bf t}) = {\cal N}\left({\bf w}|{\bf m}_N,{\bf S}_N \right) \hspace{2em} \left({\bf m}_N = {\bf S}_N\left({\bf S}_0^{-1}{\bf m}_0 + \beta{\bf \Phi}^{\rm T}{\bf t}\right), \hspace{1em} {\bf S}_N^{-1} = {\bf S}_0^{-1} + \beta{\bf \Phi}^{\rm T}{\bf \Phi}\right) \hspace{2em} (3.52),(3.53),(3.54)$$ これは$$N=0$$のとき事前分布に一致する。事後分布は正規分布で最頻値が平均に一致するから、MAP重みは$${\bf w}_{MAP} = {\bf m}_N$$で与えられる。ここで​$${\bf S}_0 = \alpha^{-1}{\bf I} \hspace{1em} \left(\alpha \rightarrow 0\right)$$とすれば、事後分布の平均$${\bf m}_N$$は$${\bf w}_{ML} = \left({\bf \Phi}^{\rm T}{\bf \Phi}\right)^{-1}{\bf \Phi}^{\rm T}{\bf t}$$に一致する。なお、例によって$$N = 0$$のとき事後分布は事前分布に一致する。 -いま単純化するために平均が0の等方的な正規分布    $$p({\bf w}|\alpha) = {\cal N}\left({\bf w}|{\bf 0}, \alpha^{-1}{\bf I}\right) \hspace{2em} \left({\bf m}_N = \beta{\bf S}_N{\bf \Phi}^{\rm T}{\bf t}, \hspace{1em} {\bf S}_N^{-1} = \alpha{\bf I} + \beta{\bf \Phi}^{\rm T}{\bf \Phi}\right)$$ を考えると、事後分布の対数は対数尤度と事前分布の対数との和で与えられ、以下の$${\bf w}$$の関数となる。    $$\ln p\left({\bf w}|{\bf t}\right) = -\frac{\beta}{2}\sum_{n=1}^{N}\left\{t_n - {\bf w}^{\rm T}{\bf \phi}({\bf x}_n)\right\}^2 - \frac{\alpha}{2}{\bf w}^{\rm T}{\bf w} + {\rm const}$$ これを$${\bf w}$$について最大化することは(3.27の正則化係数が$$\lambda = \alpha /\beta$$の)二次形式正則化項つき二乗和誤差関数を最小化することと等価。 ***予測分布 -パラメータ$${\bf w}$$自体よりも新たな入力$${\bf x}$$に対する予測$$t$$を知りたいということが実際には多いため、予測分布(&italic(){predictive distribution})    $$p\left(t|{\bf t},\alpha,\beta\right) = \int p\left(t|{\bf w},\beta\right)p\left({\bf w}|{\bf t},\alpha,\beta\right){\rm d}{\bf w}$$ ($${\bf t}$$は学習パターンの目標値ベクトルで、それに対応する入力ベクトルは省略されている)これは書き換えると    $$p\left({\bf x},{\bf t},\alpha,\beta\right) = {\cal N}\left(t|{\bf m}_N^{\rm T}{\bf \phi}({\bf x}), \sigma^2_N({\bf x})\right) \hspace{2em} \left(\sigma^2_N({\bf x}) = \frac{1}{\beta} + {\bf \phi}({\bf x})^{\rm T}{\bf S}_N{\bf \phi}({\bf x})\right)$$ となり、分散$$\sigma^2_N({\bf x})$$の第一項はデータのノイズを表し、第二項はパラメータ$${\bf w}$$についての不確かさを表している。 -データが観測される毎に予測分散が小さくなり($$\sigma^2_{N+1}({\bf x}) \leq\sigma^2_N({\bf x})$$)、$$N\rightarrow \infty$$のとき第二項は限りなく0に近付き、予測分散は$$\beta$$のみによって支配されるようになる。正規分布のような基底関数を使用する場合、基底関数の中心から離れれば離れるほど予測分散の第二項の影響が小さくなり、$$\beta$$のみによって支配されるようになるため、基底関数が占める領域外の外挿を行った場合の方が信頼性が高くなるという望ましくない結果となる。この点を改善するのがガウス過程(&italic(){Gaussian process})。 -$${\bf w}$$および$$\beta$$の両方が未知とした場合には共役事前分布はガウス-ガンマ分布で与えられ、予測分布はt分布となる。 ***等価カーネル -(3.53)の平均0等方正規分布の事後分布平均を使うと、予測分布の平均は    $$y\left({\bf x},{\bf m}_N\right) = \sum_{n=1}^{N}\beta {\bf \phi}({\bf x})^{\rm T}{\bf S}_N{\bf \phi}({\bf x}_n)t_n$$ と書くことができる。ここで$$k\left({\bf x},{\bf x}'\right) = \beta{\bf \phi}({\bf x})^{\rm T}{\bf S}_N{\bf \phi}({\bf x}')$$とおくと、    $$y\left({\bf x},{\bf m}_N\right) = \sum_{n=1}^{N}k\left({\bf x},{\bf x}_n\right)t_n$$ というカーネル表現となり、点$${\bf x}$$における事前分布の平均は学習データ目標値の線形結合によって表せることが分かる。この場合のカーネル$$k$$を平滑化行列(&italic(){smoother matrix})あるいは等価カーネル(&italic(){equivalent kernel})という。このように学習パターン目標値の線形結合によって予測を行う回帰関数を線形平滑器(&italic(){linear smoother})という。 -等価カーネルは学習データに含まれる入力値$${\bf x}_n$$に依存する。ある$${\bf x}$$における予測分布の平均は、各学習データ点に対してその距離に応じて$${\bf x}$$に近いほど大きく重み付けが施された目標値の線形結合によって得られる。すなわち、近くのエビデンスを遠くのエビデンスよりも大きく重み付けする。このような局所性は、局所化された正規基底関数に限定される特性ではなく、局所化されない多項式あるいはシグモイド基底関数の場合にも観察できる。 -また、$$y({\bf x})$$と$$y({\bf x}')$$の共分散は等価カーネルの定数倍となるため、互いに近接した点における予測平均同士には高い相関があり、逆に離れた点同士の場合には低い相関しかない。 -等価カーネルを明示的に定義する基底関数の集合を導入する代わりに、局所化されたカーネルを直接定義して予測を行うことが考えられる。第六章のガウス過程を参照。 -等価カーネルは学習データ目標値に対して与えられる重みを定義するものなので    $$\sum_{n=1}^{N}k\left({\bf x},{\bf x}_n\right) = 1$$ を満たす。もし基底関数が線形独立で(すなわち基底関数よりもデータ点のほうが数が多い)基底関数の一つが定数関数である(これはバイアスパラメータに相当する)ならば、学習データに完全に一致して予測平均は1となり、上と同じ結果になる。ただし重みの和が1であっても個々のカーネル関数は負であることもありうるので、必ずしもその結合は凸結合となるとは限らない。 -等価カーネルは当然のことながら、以下のカーネル関数の一般的要件を満たす。    $$k(x,x') = {\bf \psi}({\bf x})^{\rm T}{\bf \psi}({\bf x}') \hspace{2em}\left({\bf \psi}({\bf x}) = \beta^{\frac{1}{2}}{\bf S}_N^{\frac{1}{2}}{\bf \phi}({\bf x})\right)$$    ***3.4節 ベイズモデル比較 -最尤法における過学習の問題は、ベイズ的手法においてはモデルのパラメータの値を点推定する代わりにそれらを周辺化することによって回避することが出来る。この場合、評価のためのデータは不要なため利用可能なデータの全てを学習のために利用することができる。また、複数の複雑性パラメータを学習過程において同時に決定することができる。例えば第七章の関連ベクトルマシンは、各学習データごとに一つの複雑性パラメータを持つベイズモデル。 -ベイズ的手法によるモデル選択においては、確率についての和および積の法則の一貫した適用によってモデル選択についての不確かさを確率によって表現する。例えば$$L$$個のモデル$$\left\{{\cal M}_i\right\}\left(i=1,...,L\right)$$を比較したい場合には、あるモデルによって生成されたデータ$${\cal D}$$を観測した場合のモデル選択に関する事後確率分布は    $$p\left({\cal M}_i|{\cal D}\right) \propto p\left({\cal M}_i\right)p\left({\cal D}|{\cal M}_i\right)$$ で表される。ここで事前分布$$p\left({\cal M}_i\right)$$はもともとのモデル選択の不確かさを表し、ここでは全てのモデルが均等な確率を持つものと仮定する。$$p\left({\cal D}|{\cal M}_i\right)$$をモデルエビデンス(&italic(){model evidence})または周辺尤度(&italic(){marginal likelihood})といい、二つのモデルエビデンス間の比$$p\left({\cal D}|{\cal M}_i\right)/p\left({\cal D}|{\cal M}_j\right)$$をベイズ因子(&italic(){Bayes factor})という。モデルエビデンスはデータが当該モデルによってどの程度よく説明されうるかの程度を表す。 -事後分布が分かれば、予測分布は    $$p\left(t|{\bf x},{\cal D}\right) = \sum_{n=1}^{L}p\left(t|{\bf x},{\cal M}_i,{\cal D}\right)p\left({\cal M}_i|{\cal D}\right)$$ となる。これはモデル毎予測分布のそれぞれの事後確率による重み付け和と見ることができ、混合分布(&italic(){mixture distribution})の一例。例えば、同様に確からしい2つのモデルがあり、その一つは$$t=a$$の周辺で尖り、もう一つは$$t=b$$の周辺で尖っているとすると、全体としての予測分布はこれら二点の周辺で尖っている双峰的分布となる($$t=(a+b)/2$$で尖る単峰的分布になるのではない)。 -モデル平均化のための単純な近似法の一つとして、予測を行うのに最も確からしい単一のモデルのみを使用する方法があり、これをモデル選択(&italic(){model selection})という。例えばパラメータ$${\bf w}$$に依存するモデルの場合、モデルエビデンスは尤度関数を$${\bf w}$$について積分したものすなわち    $$p\left({\cal D}|{\cal M}_i\right) = \int p\left({\cal D}|{\bf w},{\cal M}_i\right) p\left({\bf w}|{\cal M}_i\right){\rm d}{\bf w}$$ サンプリングの観点からこれを見ると、周辺尤度はそのパラメータが事前か分布からランダムにサンプリングされたモデルがデータ集合$${\cal D}$$を生成する確率として捉えることが出来る。また、エビデンスはベイズの定理の右辺の分母すなわち正規化定数に一致することにも留意すべき。  (つまり、上の式はベイズの定理    $$p\left({\bf w}|{\cal D},{\cal M}_i\right) = \frac{p\left({\cal D}|{\bf w},{\cal M}_i\right)p\left({\bf w}|{\cal M}_i\right)}{p\left({\cal D}|{\cal M}_i\right)}$$ の両辺にエビデンス(右辺の分母)を掛け、両辺を$${\bf w}$$について積分したもの。) -想定しているモデル集合の中に真のモデルが含まれているとの前提の下では、平均的にはモデルエビデンスを最大化することで最適なモデル選択が可能。 -ベイズ的アプローチは他の多くのパターン認識の手法同様、モデルの形状についての仮定に大きく左右される。特に事前分布が変則である場合にはエビデンスによる最適化は困難になる。したがって実際上は評価用データを別途用意したほうが無難。 ***3.5節 エビデンス近似 -ベイズ的線形基底関数モデルにおいては、ハイパーパラメータの事前分布を導入し、$${\bf w}$$についてと同様にそれらについての周辺化によって予測を行う。しかし、個々のパラメータについてはともかく、これら全てのパラメータについて積分を行うことは解析的に不可能。そこでパラメータ$${\bf w}$$について積分することによって得られる周辺尤度関数(&italic(){marginal likelihood function})を最大化することによってハイパーパラメータの値を決定する近似法を考える。この手法は統計学においては経験ベイズ(&italic(){empirical Bayes})などと呼ばれ、機械学習の分野においてはエビデンス近似(&italic(){evidence approximation})と呼ばれる。    $$p\left(t|{\bf t}\right) = \int\!\!\!\int\!\!\!\int p\left(t|{\bf w},\beta\right)p\left({\bf w}|{\bf t},\alpha,\beta\right)p\left(\alpha,\beta|{\bf t}\right){\rm d}{\bf w}{\rm d}\alpha{\rm d}\beta$$ ($${\bf x}$$に対する依存は簡明のため省略してある) 事後分布$$p\left(\alpha,\beta|{\bf t}\right)$$が$$\hat{\alpha}$$および$$\hat{\beta}$$において鋭く尖っているなら、上式のように$$\alpha$$および$$\beta$$について積分する代わりに、$$\alpha$$および$$\beta$$をそれぞれ$$\hat{\alpha}$$および$$\hat{\beta}$$に固定することによって以下の近似が得られる。    $$p\left(t|{\bf t}\right) \simeq p(t|{\bf t},\hat{\alpha},\hat{\beta}) = \int p(t|{\bf w},\hat{\beta})p({\bf w}|{\bf t},\hat{\alpha},\hat{\beta}) {\rm d}{\bf w}$$  ベイズの定理により    $$p\left(\alpha,\beta|{\bf t}\right) \propto p\left({\bf t}|\alpha,\beta\right)p\left(\alpha,\beta\right)$$ だから、もし事前分布が比較的平らならば、事後分布$$p\left(\alpha,\beta|{\bf t}\right)$$の極大値$$\alpha,\beta$$は周辺尤度関数$$p\left({\bf t}|\alpha,\beta\right)$$を最大化することによって得られる。これによってクロス評価法によることなく学習データのみによってこれらのハイパーパラメータの値を決定することができる。 -対数エビデンスを最大化する方法としては、エビデンス関数を微分して0と等置することで得られる$$\alpha$$および$$\beta$$についての方程式を解く方法と、期待最大化(&italic(){expectation maximization(EM)})と呼ばれる手法を用いる方法とがあり、両方とも同じ解に収束する。 ***エビデンス関数の評価 -周辺尤度関数$$p\left({\bf t}|\alpha,\beta\right)$$は$${\bf w}$$についての積分    $$p\left({\bf t}|\alpha,\beta\right) = \intp\left({\bf t}|{\bf w},\beta\right)p\left({\bf w}|\alpha\right){\rm d}{\bf w}$$ によって得られるところ、その対数は    $$\ln p\left({\bf t}|\alpha,\beta\right) = \frac{M}{2}\ln\alpha + \frac{N}{2}\ln\beta - E\left({\bf m}_N\right) - \frac{1}{2}\ln |{\bf A}| - \frac{N}{2}\ln(2\pi) \hspace{1em} \left({\bf A} = \alpha{\bf I} + {\bf \Phi}^{\rm T}{\bf \Phi} = \nabla\nabla E({\bf w})\right) \hspace{2em} (3.86)$$ となる(計算略)。対数エビデンスはデータに対する当てはまりの良さを反映しかつ単純なモデルを指向する性質を持つ。 ***エビデンス関数の最大化 -(3.86)を最大化する$$\alpha,\beta$$を求める。$${\bf A} = \alpha{\bf I} + {\bf \Phi}^{\rm T}{\bf \Phi}$$だから固有ベクトル方程式    $$(\beta{\bf \Phi}^{\rm T}{\bf \Phi}){\bf u}_i = \lambda_i{\bf u}_i$$ $${\bf A}$$は固有値$$\alpha + \lambda_i$$を持つ。対称行列の行列式はその固有値の積に等しいから、    $$\frac{d}{d\alpha}\ln|{\bf A}| = \frac{d}{d\alpha}\ln\prod_i\left(\lambda_i + \alpha\right) = \frac{d}{d\alpha}\sum_{i}\ln\left(\lambda_i + \alpha\right) = \sum_{i}\frac{1}{\lambda_i + \alpha}$$ 従って    $$ 0 = \frac{M}{2\alpha} - \frac{1}{2}{\bf m}_N^T{\bf m}_N - \frac{1}{2}\sum_{i}\frac{1}{\lambda_i + \alpha}$$    $$\alpha = \frac{\gamma}{{\bf m}_N^T{\bf m}_N} \hspace{1em} \left(\gamma = \sum_{i}\frac{\lambda_i}{\alpha + \lambda_i}\right) \hspace{1em}(3.92)$$ $$\gamma$$および$${\bf m}_N$$は両方とも$$\alpha$$に依存し$$\alpha$$の陰形式解だからこれを定めるのに§3.3.1の反復法を用いる。この際、行列$${\bf \Phi}^{\rm T}{\bf \Phi}$$は一定なのでその固有値は最初に一度だけ計算すればよく、後はステップごとに$$\beta$$倍すれば足りることに注意。 -再度強調すると、この方法では$$\alpha$$を決定するのに学習データしか必要ではなく、最尤法の場合のようにモデル複雑性を決定するために別途評価用のデータを用意する必要がない。 -$$\beta$$についても上と同様に対数周辺尤度関数(3.86)を最大化することによって($$\alpha$$の場合同様、反復的手法が必要)これを定めることができ、    $$\frac{1}{\beta} = \frac{1}{N-\gamma}\sum_{n=1}^{N}\left\{t_n - {\bf m}_N^T{\bf \phi}({\bf x}_n)\right\}^2$$ となる。 $$\alpha,\beta$$の値が決まれば$$\gamma$$についても同様。 ***有効パラメータ数 -$$\beta{\bf \Phi}^{\rm T}{\bf \Phi}$$は正定値行列でその固有値$$\lambda_i$$は正だから、$$0 \leq \gamma \leq M$$。$$\lambda_i \gg \alpha$$な場合には$$\lambda_i(\lambda_i + \alpha)$$は1に近く対応する$$w_i$$はML解の成分に近い。このような場合、そのパラメータはデータによって有効に決定される(&italic(){well determined})という。逆にそうでない場合、尤度関数は当該パラメータの値の変化に対してあまり反応しないので、その事前分布における初期値は小さく設定される。従って$$\gamma$$はデータによって有効に決定されるパラメータの個数を表していることになる。 -最尤推定による正規分布の分散は    $$\sigma^2_{ML} = \frac{1}{N}\sum_{n=1}^{N}\left(x_n - \mu_{ML}\right)^2$$ であるのに対し、ベイズ推定による場合は    $$\sigma^2_{MAP} = \frac{1}{N-1}\sum_{n=1}^{N}\left(x_n - \mu_{ML}\right)^2$$ となり、後者は不偏である点が前者と異なっていた。同様のことが線形回帰モデルの場合にも言える。最尤推定による場合の$$N$$に代えてベイズ線形回帰の場合には$$N - \gamma$$となり、これによって前者に含まれるバイアスを修正していることになる。    ***3.6節 固定基底関数の限界  非線形基底関数の線形結合から成るモデルは、最小二乗問題についての閉形式解の存在やベイズ的扱いの容易さなどの利点があるものの重大な限界を有している。問題はデータが観測される以前に基底関数が固定されてしまっていることにあり、その結果として入力空間の次元に対してしばしば指数オーダで基底関数の必要数が増加してしまう(次元の呪い)。  しかしながら二つの点が救いとなる。一つは、データベクトルは入力変数間の強い相関によってそれ自身の次元は入力空間のそれよりも小さい非線形多様体の近くに存在することが多い。もう一つは、目標変数はデータ多様体の可能な方向のうちの少しにしか強い依存をしていないこと。ニューラルネットワークは基底関数が反応する入力空間内の方向を選択することでこの性質を利用することができる。 // //

表示オプション

横に並べて表示:
変化行の前後のみ表示:
目安箱バナー