※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

第二章 確率分布

2.1節 ベルヌーイ分布

  • コインの表と裏のようなバイナリな事象の確率分布
   {\rm Bern}(x|\mu) = \mu^x(1-\mu)^{1-x}
平均・分散
   {\mathbb E}[x] = \mu
   {\rm var}[x] = \mu(1-\mu)
i.i.d仮定の下での尤度関数は
   p({\mathcal D}|\mu) = \prod_{n=1}^{N}p(x_n|\mu) = \prod_{n=1}^{N}\mu^{x_n}(1-\mu)^{1-x_n}
頻度論者は尤度関数の最大化問題を解くことによってパラメータ\muを推定する。
   \ln p({\cal D}|\mu) = \sum_{n=1}^{N}\ln p(x_n|\mu) = \sum_{n=1}^{N}\{x_n\ln \mu + (1-x_n)\ln(1-\mu)\}
この対数尤度関数は観測データに対してその和を通じてのみ依存しており、この和は十分統計量(sufficient statistic)の一例となっている。
最尤推定量(すなわち標本平均(sample mean))は
   \mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n
  • 二項分布(binomial distribution)
   {\rm Bin}(m|N,\mu) = {}_N C_m\mu^m(1-\mu)^{N-m}
   {\mathbb E}[m] = N\mu
   {\rm var}[m] = N\mu(1-\mu)
  • 二項分布の共役事前分布(conjugate prior distribution)はベータ分布
   {\rm Beta}(\mu|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\hspace{3em}\left(\Gamma(x) \equiv \int_0^\infty u^{x-1}e^{-u}{\rm d}u\right)
ベータ分布の平均・分散
   {\mathbb E}[\mu]   = \frac{a}{a+b}
   {\rm var}[\mu] = \frac{ab}{(a+b)^2(a+b+1)}
  • 以上より、x=1のデータ数mx=0のデータ数lとした場合、\muの事後分布はベータ分布の事前分布と二項分布の尤度関数との積に比例する、すなわち
   p(\mu|m,l,a,b) \propto \mu^{m+a-1}(1-\mu)^{l+b-1}
これは事前分布と同様のベータ分布となっており、事前分布を二項分布の尤度関数と共役な性質を持つように選択したことの結果である。正規化定数も含めると上の式は
   p(\mu|m,l,a,b) = \frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}
  • ベイズ更新による学習によれば、データを一個ないし少数のかたまりに分割して処理することができる利点がある。(連続的(sequential)アプローチ)
  • データセット{\cal D}を観測した直後にx=1となる予測分布は   
   p(x=1|{\cal D}) = \int_0^1p(x=1|\mu)p(\mu|{\cal D}){\rm d}\mu = \int_0^1\mu p(\mu|{\cal D}){\rm d}\mu = {\mathbb E}[\mu|{\cal D}] = \frac{m+a}{m+a+l+b}
   [この本の欠点の一つは、予測分布を定義する前に2回もこれを使っていること。]
 m\to \inftyとするとこの結果は最尤推定量\mu_{ML}に近づく。
  • ベイズ学習を重ねるごとに事後分布の分散は平均としては小さくなっていく。

2.2節 多項分布

  • k通りのうちの一つが実現する場合の分布
   p({\bf x}|{\bf \mu}) = \prod_{k=1}^{K}{\bf \mu}_k^{x_k}
   {\mathbb E}[{\bf x}|{\bf \mu}] = {\bf \mu}
   p({\cal D}|{\bf \mu}) = \prod_{k=1}^{K}{\bf \mu}_k^{m_k} \hspace{1em} \left(m_k = \sum_{n}x_{nk}\right)
   ()内は{\bf \mu}についての十分統計量。上の式の対数をとってラグランジュの未定乗数法により
   \sum_{k=1}^{K}m_k\ln \mu_k + \lambda\left(\sum_{k=1}^{K}\mu_k-1\right)
   これを\mu_kについて偏微分して0とおいて解くと、最尤解
   \mu_k^{ML} = \frac{m_k}{N}
  • 多項分布(multinomial distribution)
   {\rm Mult}(m_1,...,m_k|{\bf \mu},N) = {}_{N}C_{m_{1}m_{2}...m_{K}}\prod_{k=1}^{K}\mu_k^{m_k}
 多項分布のパラメータ\mu_kについての共役事前分布がディリクレ分布(Dirichlet distribution)
   {\rm Dir}({\bf \mu}|{\bf \alpha}) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)...\Gamma(\alpha_K)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1} \hspace{1em} \left(\alpha_0=\sum_{k=1}^{K}\alpha_k\right)
 多項分布の事後分布を事前分布をディリクレ分布として得る
   p({\bf \mu}|{\cal D},{\bf \alpha}) \propto p({\cal D}|{\bf \mu})p({\bf \mu}|{\bf \alpha}) \propto \prod_{k=1}^{K}\mu_k^{\alpha_k+m_k-1}

2.3節 正規分布(Gaussian Distribution)

  • 連続エントロピーを最大化する確率分布は正規分布
  • 中央極限定理(central limit theorem): 一定の緩やかな条件の下では、複数の確率変数の和は項数が増えるにつれて正規分布に近付く。したがって二項分布の試行回数を増やしていくと正規分布に近付く。
  • 以下、多次元の正規分布
{\cal N}({\bf x}|{\bf \mu},{\bf \Sigma}) = \frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}({\bf x}-{\bf \mu})^T\Sigma^{-1}({\bf x}-{\bf \mu})\}
についてみる。
{\bf \mu}{\bf x}とのマハラノビス距離(Mahalanobis distance)の二乗は
   \Delta^2 = ({\bf x}-{\bf \mu})^T\Sigma^{-1}({\bf x}-{\bf \mu})
正規分布はこの二次形式が{\bf x}空間における平面について一定であるような平面上で一定となる。
\Sigmaが単位行列の場合はユークリッド距離となる。なお、\Sigmaは対称行列としてよい。\Sigmaの固有値\lambda_i,...,\lambda_D、互いに直交する固有ベクトル{\bf u}_i,...,{\bf u}_Dを使って書くと
   \Delta^2 = \sum_{i=1}^{D}\frac{y_i^2}{\lambda_i} \hspace{1em} \left(y_i = {\bf u}_i^T\left({\bf x}-{\bf \mu}\right)\right)
ここで\{y_i\}は、元のx_i座標について平行移動および回転された直交ベクトル{\bf u}_iによって定義される新たな座標系と見ることができる。
   {\bf y} = {\rm U}({\bf x}-{\bf \mu})
とすると、{\rm U}は直交行列。
  • \Sigmaのすべての固有値が正であるとき、この二次形式はその平面は中心が{\bf \mu}、その軸がu_iに平行で、各軸についてのスケールが\sqrt{\lambda_i}な楕円を描く。
  • すべての固有値が正となる行列を正定値(positive definite)行列、非負の場合を半正定値(positive semidefinite)行列という。正規分布の場合、その共分散行列の固有値がすべて正でないときは正しく正規化されない。固有値のうちの一つまたはそれ以上が0である場合にはその分布は特異分布となり、より低次元の空間に限定されることになる。
  • y_iで定められる新たな座標系への変換のためのヤコビアンはこの場合1となる。また、\Sigmaは対称行列だから、その行列式は固有値の積に等しい。以上よりy_iによる正規分布は以下のようにD個の独立した一変数正規分布の積の形になる。
   p({\bf y}) = p({\bf x})|{\bf J}| = \prod_{j=1}^{D}\frac{1}{(2\pi\lambda_j)^{1/2}}\exp\biggl\{-\frac{y_j^2}{2\lambda_j}\biggr\}
  • 多変数正規分布の平均
   {\mathbb E}[{\bf x}] = {\bf \mu}
 二次モーメント
   {\mathbb E}[{\bf x}{\bf x}^T] = {\bf \mu}{\bf \mu}^T + \Sigma
 共分散 
   {\rm cov}[{\bf x}] = \Sigma
  • 共分散行列は計算量軽減のために対角行列{\rm diag}(\sigma_i^2)に、さらに等方的な\sigma^2{\rm I}に代替させることができるが、その代償にモデルの自由度を低下させる。
  • 正規分布の単峰性は柔軟性に欠けるが、潜在変数(latent variables)を導入することによってこれを改良しうる。離散潜在変数の導入により複数の正規分布の混合が可能になり、連続潜在変数の導入によりデータセットの次元{\cal D}と独立に自由パラメータ数を制御することが可能となる。マルコフランダム場(Marcov random field)、線形力学系(linear dynamical system)など。

  • 条件付正規分布(conditional Gaussian distribution)と周辺正規分布(marginal Gaussian distribution)
 多変数の同時確率分布が正規分布なら、条件付確率分布も正規分布となる。このとき、それぞれの変数についての周辺確率分布も正規分布となる。
  • 分割された正規分布(データセットを二分割した)
 正規分布{\cal N}({\bf x}|{\bf \mu},\Sigma)\Lambda\equiv\Sigma^{-1}とし、\Sigmaおよび\Lambdaを以下のように分割する。
   {\bf x} = \left( \begin{array}{cc} {\bf x}_a\\ {\bf x}_b\\ \end{array} \right), {\bf \mu} = \left( \begin{array}{cc} {\bf \mu}_a\\ {\bf \mu}_b\\ \end{array} \right)
 共分散行列
   \Sigma = \left( \begin{array}{cc} \Sigma_{aa}\hspace{1em}\Sigma_{ab}\\ \Sigma_{ba}\hspace{1em}\Sigma_{bb}\\ \end{array} \right)
 精度行列
   \Lambda = \left( \begin{array}{cc} \Lambda_{aa}\hspace{1em}\Lambda_{ab}\\ \Lambda_{ba}\hspace{1em}\Lambda_{bb}\\ \end{array} \right)
 この場合、条件付確率分布は
   p({\bf x}_a|{\bf x}_b) = {\cal N}({\bf x}|{\bf \mu}_{a|b},\Lambda^{-1}_{aa})
   {\bf \mu}_{a|b} = {\bf \mu}_a - \Lambda^{-1}_{aa}\Lambda_{ab}({\bf x}_b-{\bf \mu}_b)
   (これは{\bf x}_bの線形関数)
 周辺確率分布は
   p({\bf x}_a) = {\cal N}({\bf x}_a|{\bf \mu}_a,\Sigma_{aa})
  • 正規線形モデル(linear Gaussian model)
{\bf x}{\bf y}の二変数で{\bf x}の周辺確率分布、{\bf x}が所与の場合の{\bf y}の条件付確率分布をそれぞれ
   p({\bf x}) = {\cal N}({\bf x}|{\bf \mu},\Lambda^{-1})
   p({\bf y}|{\bf x}) = {\cal N}({\bf y}|{\rm A}{\bf x}+{\bf b},{\rm L}^{-1})
とすると、{\bf y}の周辺確率分布および{\bf y}が所与の場合の{\bf x}の条件付確率分布はそれぞれ
   p({\bf y}) = {\cal N}({\bf y}|{\rm A}{\bf \mu}+{\bf b},{\rm L}^{-1} + {\rm A}\Lambda^{-1}{\rm A}^T)
   p({\bf x}|{\bf y}) = {\cal N}\left({\bf x}|\Sigma\{{\rm A}^T{\rm L}\left({\bf y}-{\bf b}\right) + \Lambda{\bf \mu}\},\Sigma\right)\hspace{3em}\left(\Sigma = \left(\Lambda + {\rm A}^T{\rm L}{\rm A}\right)^{-1}\right)
  • 逐次推定(sequential estimation)
 同時確率p(z,\theta)に支配される二つの確立変数zおよび\thetaを考える。\thetaが与えられたときのzの条件付期待値(回帰関数(regression function))
   f(\theta) \equiv {\mathbb E}[z|\theta] = \int{zp(z|\theta)}{\rm d}z
 ロビンス・モンローのアルゴリズム(Robbins-Monro algorithm)によってf(\theta^*)=0となるような\theta^*を逐次的に求める。
   \theta^{(N)} = \theta^{(N-1)} - a_{N-1}z(\theta^{(N-1)})
 係数\{a_N\}が次の三条件を満たすとき、上の推定量は確率1で根に収束する。
   \lim_{N \to \infty} a_N = 0
   \sum_{N=1}^{\infty} a_N = \infty
   \sum_{N=1}^{\infty} a_N^2 < \infty
  • 正規分布におけるベイズ推定
 分散\sigma^2が既知として平均を推定する。尤度関数は
   {p(x|\mu) = \prod_{n=1}^{N}p(x_n|\mu) = \frac{1}{(2\pi\sigma^2)^{\frac{N}{2}}}{\bf \exp}\left\{-\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n - \mu)^2\right\}
 これは\muについての二次形式の指数関数だから、共役事前分布は正規分布とするのが適切。事前分布を
   p(\mu) = {\cal N}(\mu|\mu_0,\sigma^2_0)
 とすると、事後分布は
   p(\mu|{\bf x}) = {\cal N}(\mu|\mu_N,\sigma^2_N)
 ただし
   \mu_N = \frac{\sigma^2}{N\sigma^2_0 + \sigma^2}\mu_0 + \frac{N\sigma^2_0}{N\sigma^2_0 + \sigma^2}\mu_{ML}\hspace{3em}(2.141)
   \frac{1}{\sigma^2_N} = \frac{1}{\sigma^2_0} + \frac{N}{\sigma^2}\hspace{3em}(2.142)
 (2.141)から、事後分布における平均は事前平均\mu_0と最尤解\mu_MLとの合成であることが分かる。観測データ数Nが0なら、(2.141)は事前平均に等しくなり、N\to\inftyなら事後分布平均は最尤解\mu_MLによって与えられる。
 (2.142)から、事後分布における分散の逆数(すなわち精度)は事前精度に観測された各データの精度を加えたものであることが分かる。データ数Nが増えるとそれにつれて精度は大きくなり、分散は小さくなってゆく。事後分散\sigma^2_Nは、N=0なら事前分散に等しくなり、N\to\inftyなら0に近づき、事後分布は最尤解の周辺で無限に極大となる。
  • 逐次推定の観点から書き直された事後分布
   p(\mu|{\bf x}) \propto \left[ p(\mu)\prod_{n=1}^{N-1}p(x_n|\mu) \right]p(x_N|\mu)
  • 平均が既知として分散を推定する。\lambda \equiv 1/\sigma^2とすると\lambdaについての尤度関数は以下のような形になる。
   p({\bf x}|\lambda) = \prod_{n=1}^{N}{\cal N}(x_n|\mu,\lambda^{-1}) \propto \lambda^{\frac{N}{2}}\exp\left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_n - \mu)^2\right\}
 これに対応する共役事前分布は、\lambdaの乗数と\lambdaの線形関数の指数関数でなければならないから、ガンマ分布が適切となる。
  • ガンマ分布
   {\rm Gam}(\lambda|a,b) = \frac{1}{\Gamma(a)}b^a\lambda^{a-1}\exp(-b\lambda)\hspace{2em}\left(\Gamma(x) \equiv \int_{0}^{\infty}u^{x-1}e^{-u}{\rm d}u\right)\hspace{3em}(2.146)
 ここで\Gamma(a)は(2.146)が正しく正規化されることを保証する。ガンマ分布はa>0の場合に有限な積分を持ち、a \geq 1のとき分布じたいが上に有界となる。
 ガンマ分布の平均・分散
   {\mathbb E}[\lambda] = \frac{a}{b}
   {\rm var}[\lambda] = \frac{a}{b^2}
  • いま事前分布をガンマ分布{\rm Gam}(\lambda|a_0,b_0)とすると事後分布は以下に比例する。
   p(\lambda|{\bf x}) \propto \lambda^{a_0-1}\lambda^{N/2}\exp\left\{-b_0\lambda-\frac{2}{\lambda}\sum_{n=1}^{N}(x_n - \mu)^2\right\}
 ただし
   a_N = a_0 + \frac{N}{2}\hspace{3em}(2.150)
   b_N = b_0 + \frac{1}{2}\sum_{n=1}^{N}(x_n - \mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^2\hspace{3em}(2.151)
 (2.150)によればN個のデータを観測するとパラメータa\frac{N}{2}ずつ増加することが分かる。すなわち、事前分布におけるパラメータa_02a_0個の有効なデータを既に観測した状態に等しいものと考えることができる。同様に(2.151)から、N個のデータを観測するとパラメータbN\sigma_{ML}^2/2ずつ増加することが分かる。すなわち、事前分布におけるパラメータb_02b_0/(2a_0) = b_0/a_0の分散を持つ2a_0個の有効なデータを既に観測した状態に等しいものと考えることができる。
 このように指数分布族に属する確率分布についてその共役事前分布のパラメータを仮想の有効なデータ観測の効果に置き換えて見る考え方は一般的なもの。
  • 精度で考える代わりに分散のままで考えた場合、共役事前分布は逆ガンマ分布(inverse gammma distibution)と呼ばれる。
  • 平均および分散の両方が未知であるとする。
 尤度関数は
   p({\bf x}|\mu,\lambda) = \prod_{n=1}^{N}\left(\frac{\lambda}{2\pi}\right)^{1/2}\exp\left\{-\frac{\lambda}{2}(x_n - \mu)^2\right\}\hspace{1em}\propto\hspace{1em}  \left[\lambda^{1/2}\exp\left(-\frac{\lambda\mu^2}{2}\right)\right]^N \exp\left\{\lambda\mu\sum_{n=1}^{N}x_n - \frac{\lambda}{2}\sum_{n=1}^{N}x^2_n\right\}
 共役事前分布は以下のような形をとらなければならず、
   p(\mu,\lambda) \propto \left[\lambda^{1/2}\exp\left(-\frac{\lambda\mu^2}{2}\right)\right]^\beta\exp\left\{c\lambda\mu - d\lambda\right\} = \exp\left\{-\frac{\beta\lambda}{2}(\mu - c/\beta)^2\right\}\lambda^{\beta/2}\exp\left\{-\left(d - \frac{c^2}{2\beta}\right)\lambda\right\}
 したがって正規化された事前分布は次のようなものになる(正規-ガンマ分布)。
   p(\mu,\lambda) = p(\mu|\lambda)p(\lambda) = {\cal N}\left(\mu|\mu_0,(\beta\lambda)^{-1}\right){\rm Gam}(\lambda|a,b)\hspace{3em}\left(\mu_0 = c/\beta, a = 1 + \beta/2, b = d-c^2/2\beta\right)
  • 多変数の場合
 精度が既知の場合の共役事前分布は正規分布となる
 平均が既知の場合の共役事前分布はウィシャート分布(Wishart distribution)となる
   {\cal W}(\Lambda|{\rm W},\nu) = {\rm B}|\Lambda|^{(\nu-D-1)/2}\exp\left(\frac{1}{2}{\rm Tr}(W^{-1}\Lambda)\right)
 \nuを分布の自由度(degree of freedom)という。
 1変数の場合同様、精度行列の代わりに共分散行列について共役事前分布を定義することもでき、その場合には逆ウィシャート分布となる。
 平均および精度の両方が未知の場合には共役事前分布は次のような正規-ウィシャート分布となる。
   p({\bf \mu},\Lambda|\mu_0,\beta,{\rm W},\nu) = {\cal N}({\bf \mu}|{\bf \mu}_0,(\beta\Lambda)^{-1}{\cal W}(\Lambda|{\rm W},\nu)
  • スチューデントのt分布(student's t-distribution)
 {\rm St}(x|\mu,\lambda,\nu) = \frac{\Gamma(\nu/2 + 1/2)}{\Gamma(\nu/2)}\left(\frac{\lambda}{\pi\nu}\right)^{1/2}\left[1 + \frac{\lambda(x - \mu)^2}{\nu}\right]^{-\nu/2-1/2} 
 \nuは自由度と呼ばれ、\nu = 1のときスチューデントのt分布はコーシー分布に帰着し、\nu \to \inftyのとき平均\mu、精度\lambdaの正規分布となる。
  • スチューデントのt分布は同じ平均と異なる精度を持つ無限個の正規分布を加算することで得られるため、一般に正規分布よりも長い尾を持つ。これがスチューデントのt分布に頑健性(robustness)、すなわち異常値が存在してもそれらにあまり影響されない性質を与えている。頑健性は回帰問題においても重要で、例えば最小二乗法は条件付正規分布の最尤法と同等なため、このような頑健性を持たない。回帰モデルをt分布のようなより尾の長い分布に基づかせることによってより頑健なモデルを得ることができる。
  • 多変数のスチューデントのt分布
   {\rm St}({\bf x}|{\bf \mu},\Lambda,\nu) = \frac{\Gamma(D/2 + \nu/2)}{\Gamma(\nu/2)}\frac{|\Lambda|^{1/2}}{(\pi\nu)^{D/2}}\left[1 + \frac{\Delta^2}{\nu}\right]^{-D/2-\nu/2}\hspace{2em}\left(\Delta^2 = ({\bf x} - {\bf \mu})^T\Lambda({\bf x} - {\bf \mu})\right)
   {\mathbb E}[{\bf x}] = {\bf \mu}
   {\rm cov}[{\bf x}] = \frac{\nu}{(\nu-2)}\Lambda^{-1}
   {\rm mode} = {\bf \mu}
  • 周期的変数(periodic variables)を扱う場合、原点をどこに取るかが問題となるが、このような場合には極座標を用いる。正規分布を極座標に一般化したものをフォン・ミーゼス分布(von Mises distribution)という。
   p(\theta|\theta_0,m) = \frac{1}{2\piI_0(m)}\exp\left\{m{\rm cos}(\theta - \theta_0)\right\}
   (mは集中パラメータ(正規分布の精度と同様)、I_ii次第一種ベッセル関数)
  • 周期的変数に対処する他の方法として、極座標を固定幅で分割したヒストグラムを使用することも考えられる。この手法は簡単で柔軟だが、ヒストグラムに内在する限界によって制限を受ける。ほかには、単位円内に制限するフォン・ミーゼス分布とは異なり単位円上に周縁化を行う方法もあるが、分布が複雑になる。座標を対応させる方法もあるが、これも分布が複雑になる。フォン・ミーゼス分布の短所としては、単峰的であることが挙げられるが混合によってそれを補うことも可能。
  • 正規分布の混合
 混合分布(mixture distribution)とは複雑な分布をより単純ないくつかの分布の線形結合に還元して構成する。これにより、複雑な分布に対して任意の精度での近似を与えることが可能になる。
  • 正規分布の混合
   p({\bf x}) = \sum_{n=1}^{N}\pi_k{\cal N}({\bf x}|{\bf \mu}_k,\Sigma_k)
 個々の正規分布{\cal N}({\bf x}|{\bf \mu}_k,\Sigma_k)は混合の構成要素(component)と呼ばれ、\pi_kは混合係数(mixing coefficients)という。

2.4節 指数分布族

  • 指数分布族(exponential family)
   p({\bf x}|{\bf \eta}) = h({\bf x})g({\bf \eta})\exp\left\{{\bf \eta}^T{\bf u}({\bf x})\right\}\hspace{3em}(2.194)
 ここで{\bf \eta}は分布の自然パラメータ(natural parameter)と呼ばれる。{\bf u}({\bf x}){\bf x}の関数。
  • ベルヌーイ分布を指数分布族の一般形に変形すると、
   {\rm Bern}(x|\mu) = \mu^x(1 - \mu)^{1-x} = \exp\left\{x\ln\mu + (1 - x)\ln(1 - \mu)\right\} = (1 - \mu)\exp\left\{\ln\left(\frac{\mu}{1 - \mu}\right)x\right\}
 したがって、
   \eta = \ln\left(\frac{\mu}{1 - \mu}\right)
 これを\muについて解くと
   \sigma(\eta) = \frac{1}{1 + \exp(-\eta)}
 ロジスティック・シグモイド関数(logistic sigmoid function)となる。これを用いてベルヌーイ分布を書き直すと、
   p(x|\eta) = \sigma(-\eta)\exp(\eta x)
 すなわち(2.194)において
   u(x) = x
   h(x) = 1
   g(\eta) = \sigma(-\eta)
 の場合がベルヌーイ分布。
  • 多項分布
   p({\bf x}|{\bf \mu}) = \prod_{k=1}^{M}\mu_k^{x_k} = \exp\left\{\sum_{k=1}^{M}x_k\ln\mu_k\right\}
 指数分布族の標準形に書き直すと
   p({\bf x}|{\bf \eta}) = \exp\left({\bf \eta}^T{\bf x}\right)
 すなわち(2.194)において
   u({\bf x}) = {\bf x}
   h({\bf x}) = 1
   g(\eta) = 1
 の場合が多項分布。
  • 単変数正規分布は
   {\bf \eta} = \left( \begin{array}{cc} \mu/\sigma^2\\ -1/2\sigma^2\\ \end{array} \right)
   u(x) = \left( \begin{array}{cc} x\\x^2 \\ \end{array} \right)
   h(x) = (2\pi)^{-1/2}
   g(\eta) = (-2\eta_2)^{1/2}\exp\left(\frac{\eta_1^2}{4\eta_2}\right)
  • 指数分布族の分布を正規化できれば簡単な微分によってモーメントを得ることが出来る。
   -\nabla\ln g({\bf \eta}) = {\mathbb E}\left[{\bf u}({\bf x})\right]
   -\nabla\nabla\ln g({\bf \eta}) = {\rm cov}\left[{\bf u}({\bf x})\right] など
  • (2.194)の指数分布族においてベクトル{\bf \eta}を最尤法を用いて推定することを考える。i.i.d.なデータ{\bf X} = \left\{{\bf x}_1,...,{\bf x}_N\right\}について尤度関数
   p({\bf X}|{\bf \eta}) = \left(\prod_{n=1}^{N}h({\bf x}_n)\right)g({\bf \eta})^N\exp\left\{{\bf \eta}^T\sum_{n=1}^{N}{\bf u}({\bf x}_n)\right\}
はその最尤解{\bf \eta}_{ML}において停留点。よって
   -\nabla\ln({\bf \eta}_{ML}) = \frac{1}{N}\sum_{n=1}^{N}{\bf u}({\bf x}_n)
これを見ると、最尤推定量{\bf \eta}_{ML}\sum_{n=1}^{N}{\bf u}({\bf x}_n)という量のみを通じてデータに依存していることが分かる(十分統計量(sufficient statistic))。
  • 事前分布による事後分布に対する拘束を最小限にとどめるために無情報事前分布(noninformative prior)を利用することがある。
 p(x|\lambda)はパラメータ\lambdaによって制御されている場合、事前分布としてp(\lambda) = {\rm const}としたい。
 \lambdaK個の状態を有する離散変数の場合は、各状態の確率が等しく1/Kとなるように設定するだけだが、\lambdaが連続の場合には二つの問題が生ずる。一つは、\lambdaの定義域が有界でないときにはその積分は発散するため、インプロパー(improper)と呼ばれる。実際上、インプロパーな事前分布は対応する事後分布がプロパー(proper)(すなわち正しく正規化されうる)であることを条件に使用される。もう一つは非線形な変数変換による確率密度関数の変化(ヤコビアン)。
  • たとえば
   p(x|\mu) = f(x - \mu)
 は並進不変性(translation invariance)を持つ(\muを位置パラメータ(location parameter)という。正規分布の平均\muは位置パラメータの例)。また、
   p(x|\sigma) = \frac{1}{\sigma}f\left(\frac{x}{\sigma}\right)
 はスケール不変性(scale invariance)を持つ(\sigmaをスケールパラメータ(scale parameter)という。正規分布の分散\sigma^2はスケールパラメータの例)。

2.5節 ノンパラメトリックな手法

  • ノンパラメトリックな手法(nonparametric methods)とは、確率分布のパラメータを決定することなく観測データからxに対応する確率密度を推定する手法。
  • ヒストグラム法は、定義域を固定幅のビンに分割しそこに落ちるデータ数をグラフで表したもの。データを簡易に視覚化でき、いったんヒストグラムを構築した後はデータを捨てることが出来るので巨大データセットや連続するデータセットを扱うのには利点があるものの、多くの場合密度推定には不向き。連続変数がビンによって不連続にされるうえ、多変数の場合にはビンの数が爆発し、次元の呪いにより有意義な推定を行うことが非常に困難になる欠点がある。
 密度推定にはある種の近傍、つまりは距離の概念が必要だということと、よい結果を得るためには平滑化のためのパラメータ(ヒストグラム法の場合にはビンの幅)は適切な値が選ばれなければならないということが分かる。

カーネル密度推定

  • ある未知の確率分布p({\bf x})に従って抽出されたデータ集合があるとする。十分に大きなN個のデータについて十分に小さな領域{\cal R}(その幅をVとする)に落ちるデータ数をKとすると、
   p({\bf x}) = \frac{K}{NV} \hspace{2em}(2.246)
という関係が成り立つ。ここでKを固定してVを求めるのがK最近傍法、逆にVを固定してKを求めるのがカーネル法だといえる。K最近傍密度推定もカーネル密度推定も同じ真の確率密度関数に収束する。
  • カーネル密度推定(kernel density estimation)は、各データ点上のカーネル関数を総和したものをデータ数で割る。
  • パルツェンの窓(Parzen window)はデータ点を中心とした立方体を領域{\cal R}とするカーネル関数。これを使用した場合、{\bf x}における推定密度は
   p({\bf x}) = \frac{1}{N}\sum_{n=1}^{N}\frac{1}{h^D}k\left(\frac{{\bf x} - {\bf x}_n}{h}\right)
(h^Dは一辺の長さがhD次元超立方体の体積)パルツェンの窓はヒストグラムと同様に各カーネルが不連続。
  • より平滑な密度モデルとしてガウスカーネルを使った場合、
   p({\bf x}) = \frac{1}{N}\sum_{n=1}^{N}\frac{1}{(2\pi h^2)^{D/2}}\exp\left\{-\frac{\|{\bf x} - {\bf x}_n\|^2}{2h^2}\right\}
 hはガウスカーネルの標準偏差であり、平滑化パラメータとして機能する。カーネル密度推定法の欠点は、データの密度に関わらず平滑化パラメータhが一様であるため、データが密集している領域では過剰に平滑化されて特徴が失われ、データがまばらな領域ではノイズに影響されやすくなる傾向がある。

最近傍法(nearest-neighbour method)

  • 固定の領域幅の代わりに、k個のデータ点が含まれる近傍ごとに区切る(k近傍法)。kが小さすぎるとノイズが多くなる。k近傍法で得られる関数はその積分が発散するため、真の確率密度関数ではない。
 k近傍法はクラス分け問題に拡張して適用することができる。ある新データ点の帰属先クラスを決定するのに、近傍のk個の既知データのうちの最多数が帰属するクラスを選択する。k=1の場合、すなわち最も近くの既知データと同じクラスに分類する方法を最近傍法(nearest-neighbour)という。最近傍法の誤り確率は十分に大きい標本数Nについて真のクラス分布を使用した最適なクラス分けによって達成しうる最小の誤り確率の2倍を超えないという特質が知られている。
  • カーネル密度推定法およびk近傍法は全ての学習データを保存しておく必要がある。データを探索木化しておくことも計算量を減らすのに役立つが、これらノンパラメトリックな手法の有効性はごく限られている。