※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

第一章 導入


  • 機械学習の最終目的は入力\bf xを正しいカテゴリーに仕分けるアルゴリズムy(\bf x)を得ること(cf.判別分析)。そのためにtraining setを使用して適切なモデルを調整する(learning phase)。出来上がった{\tiny y(\bf x)}training setとは異なるtest setを判別する(generalization)能力を持つことが期待される。
  • 使用される入力変数\bf xは前処理がされている(pre-processed)ことが望ましい。これを特徴抽出(feature extraction)ということもある。前処理によって計算量を減らすことが出来る。
  • 教師付き学習(supervised learning)においては、学習パターンに対応する目標ベクトルtが与えられる。
  • 教師なし学習(unsupervised learning)はデータからカテゴリーを抽出する(クラスタリング clustering) こと、あるいは入力空間におけるデータの分布を求めること(密度推定 density estimation)、もしくは視覚化(visualization)のために高次元データの2次元ないし3次元への射影などが行われる。
  • クラス分け(classification)問題が離散的なカテゴリーへの分類を目的とするのに対して、回帰(regression)問題は一つまたは複数の連続的な変数値を求めることを目的としている。(cf.判別分析vs.回帰分析)
  • 強化学習(reinforcement learning)においては、報酬最大化のために所与の環境における最適な行動を求めることを目的とする。

1.1節 多項式曲線近似(Polynomial Curve Fitting)


  • N個の入力{\bf x} = (x_{1},...,x_{N})^Tおよび対応する観測値\bf t = (t_{1},...,t_{N})^Tから成る学習データを用いる場合、M次多項式の係数を{\it w}_0,...,{\it w}_Mとすると多項式は
   y(x,{\bf w}) = {\it w}_0 + {\it w}_1x + {\it w}_2x^2 + ... + {\it w}_Mx^M = \sum^M_{j=0}{\it w}_jx^j\hspace{3em}(1.1)
となる。係数を決定するためには誤差関数(error function)
    {\it E}({\bf w}) = \frac{1}{2}\sum^M_{j=0}\{y(x_n,{\bf w}) - t_n\}^2\hspace{3em}(1.2)
を最小化する。この誤差関数は{\bf w}に関する二次式なので、その{\bf w}についての偏導関数は線形であり、これを0とおいた方程式は唯一の解{\bf w}^*を持つ。また、{\bf M}の選択はモデル選択(model selection)の問題。{\bf M}を大きくすると学習パターンに対する近似は向上するが、新たなデータに対する汎化能力が劣化する(over-fittingの問題)。{\bf M}が大きくなると一般に係数が飛躍的に大きくなる。これをあらわす指標としてRMSがある。
   {\it E}_{RMS} = \sqrt[]{2{\it E}({\bf w}^*)/{\it N}}
 また、パターン数を増やすことによってover-fitting問題の影響は小さくなる。一説にはパラメータ数の5ないし10倍のパターンを用意すればよいとも言われるが、パラメータ数を基準にモデルの複雑性を決定するのは適切ではない。モデルパラメータを求めるための最小二乗法は最尤法の特別の場合であり、over-fittingの問題は最尤法の一般的特性に過ぎない。
 ベイジアン的アプローチを採用した場合には、over-fitting問題は回避でき、パターン数を遥かに上回る複雑性を持つモデルを採用することには何の困難もない。
 伝統的アプローチにおける対策としてしばしば用いられる方法が正則化(regularization)、すなわち係数が大きくなり過ぎないように以下のように誤差関数にペナルティ項を加える(shrinkage method)ことが挙げられる。
    {\it E}({\bf w}) = \frac{1}{2}\sum^M_{j=0}\{y(x_n,{\bf w}) - t_n\}^2 + \frac{\lambda}{2}\|{\bf w}\|^2 \hspace{3em} (\|{\bf w}\| = {\bf w}^T{\bf w} = {\it w}_0^2 + {\it w}_1^2 + ... + {\it w}_M^2)
 二次正則化の特別な場合としてリッジ回帰(ridge regression)が、ニューラルネットワークの文脈においてはウェイト低減(weight decay)として知られる。
  • 利用可能なデータを学習データと評価データ(validation set)とに素直に二分する方法は無駄が多い。

1.2節 確率理論(Probability Theory)

  • 和の法則 (2確率変数の同時確率から1確率変数の周辺確率を取る)   
   {\it p}({\bf X}) = \sum_Y{\it p}({\bf X},{\bf Y})
  • 積の法則 (同時確率の定義、または条件付確率の定義の変形)
   {\it p}({\bf X},{\bf Y}) = {\it p}({\bf Y}|{\bf X}){\it p}({\bf X})
ベイズの定理
   {\it p}({\bf Y}|{\bf X}) = \frac{{\it p}({\bf X}|{\bf Y}){\it p}({\bf Y})}{{\it p}({\bf X})}
  • 確率密度関数(probability density)が満たすべき条件
   {\it p}(x) \geq 0
   \int_{-\infty}^{\infty}{\it p}(x){\rm d}x = 1
  • 累積分布関数(cumulative distribution function)
   P(z) = \int_{-\infty}^{z}{\it p}(x){\rm d}x
  • 平均(expectation)
    E[{\it f}] = \sum_{x}{\it p}(x){\it f}(x) \hspace{3em} (discrete)
    E[{\it f}] = \int{\it p}(x){\it f}(x){\rm d}x \hspace{3em} (continuous)
  • N個の標本の標本平均による平均の近似
   E[{\it f}] \simeq \frac{1}{2}\sum_{n=1}^{\it N}{\it f}(x_n)
  • 条件付平均(conditional expectation)
   E_x[{\it f}|y] = \sum_{x}{\it p}(x|y){\it f}(x)
  • 分散(variance)
   {\bf var}[{\it f}] = E[\bigl({\it f}\left(x\right) - E[{\it f}\left(x\right)]\bigr)^2]
       = E[x^2] - E[x]^2
  • 共分散(covariance)
   {\bf cov}[x,y] = E_{x,y}[\{x-E[x]\}\{y-E[y]\}]
         = E_{x,y}[xy] - E[x]E[y]
   (ベクトルの場合)
   {\bf cov}[{\bf x},{\bf y}] = E_{{\bf x},{\bf y}}[\{{\bf x} - E[{\bf x}]\}\{{\bf y}^T - E[{\bf y}^T]\}]
        = E_{{\bf x},{\bf y}}[{\bf x}{\bf y}^T] - E[{\bf x}]E[{\bf y}^T]
  • ベイジアンvs.古典派(頻度論者)
 頻度論者が確率を客観的で一つしか存在し得ないと考えるのに対して、ベイジアンは主観的確率の存在および確率の更新(bayes update)を認める。
 例えば多項式曲線近似のケースでのベイジアンのアプローチは次のようなステップを踏む。
  1. 適当な事前確率分布(prior probability distribution)p({\bf w})を決める(→共役事前分布 conjugate prior distribution)
  2. データ{\it D}を観測したら、ベイズの定理によって事前確率p({\bf w})、尤度p({\it D}|{\bf w})から事後確率p({\bf w}|{\it D})を計算する。
  3. 2.の結果を新たな事前確率にセットする(ベイズ更新)。
 尤度関数はどちらのアプローチにおいても中心的役割を果たすものであるが、その扱いは両者において異なる。頻度論者の手法によれば、{\bf w}は固定されたパラメータとして扱われ、その値はある形式の推定量(estimator)によって決定され、その標準誤差は可能なデータ{\it D}の分布から得られる。ベイジアンの場合は、データセットは実際に観測された{\it D}以外にはなく、パラメータの不確実性は{\bf w}についての分布によって表現される。
 頻度論者に広く利用されている推定量は、最大尤度(maximum likelihood)すなわち尤度関数を最大化する{\bf w}。機械学習の文脈では、尤度関数の負の対数をとったものが誤差関数(error function)と呼ばれる。誤差関数を最小化することはすなわち尤度関数を最大化することと等価。
  • ブートストラップ法
  • 例えばコインを3回投げて全て表が出た場合に頻度論者のアプローチでは表が出る尤度を1とせざるを得ないが、ベイジアン的アプローチにおいてはより適当な事前分布を用いることでそのような極端な結果を避けることができる。
  • ベイジアン的アプローチに対する批判として、その事前分布が計算上の都合のみによって選択されており、事前の知識が反映されないというものがある。またそもそも事前分布が恣意的に選択されうること自体も問題視される。それらの批判が事前分布に対する依存度を低減する方法として無情報事前分布(noninformative prior)を使用することも考えられる。ベイジアンの事前分布に関する選択肢の乏しさは信頼性ある結果を得られないことにもつながりうる。頻度論者のアプローチはこのような問題に対して一定の対策を持っている。
  • ベイズ統計学の歴史は古いが、それが実用上重要になったのは比較的最近のこと。マルコフ連鎖モンテカルロ法(Marcov chain Monte Carlo)などのサンプリング法が開発されたことでベイジアン的手法が実用可能なものとなった。さらに近年、変分ベイズや期待値伝播などの極めて計算効率のよい決定論的近似法が開発され、ベイジアン的手法をより大規模な問題に適用することが可能になりつつある。

  • 正規分布
   {\mathcal N}(x|\mu,\sigma^2) = \frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}{\bf \exp}\{-\frac{1}{2\sigma^2}(x - \mu)^2\}
  • いま、同じ確率分布に従って独立に分布した(independent and identically distributed[i.i.d.]))N個のデータから成る{\bf x} = (x_1,...,x_N)^Tが観測されたとすると、その確率は
   p({\bf x}|\mu,\sigma^2) = \prod_{n=1}^{N}{\mathcal N}(x_n|\mu,\sigma^2)
となる。これを\muおよび\sigma^2の関数と見ると、これは正規分布の尤度関数となっている。
  • 観測されたデータに基づいて確率分布のパラメータを決定するための一つの基準は、尤度関数を最大化するパラメータの値を求めることである(最尤法)。尤度関数の対数をとった対数尤度関数が実用上しばしば利用されるが、これは数学的分析を容易にするだけでなく、多くの小さな確率値の積を計算機で計算すると簡単にアンダーフローが起こり精度が失われるが、対数確率の和を計算することにはこのような弊害はないから。
  • 対数尤度関数(log likelyhood function)
   \ln p({\bf x}|\mu,\sigma^2) = -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n - \mu)^2 - \frac{N}{2}\ln\sigma^2 - \frac{N}{2}\ln (2\pi)
これを\muについて最大化すると最尤解
   \mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n
が得られるがこれは標本平均(sample mean)である。同様にに\sigma^2について最大化すると
   \sigma_{ML}^2 = \frac{1}{N}\sum_{n=1}^{N}(x_n - \mu_{ML})^2
すなわち標本分散(sample variance)が得られる。
  • 最尤法の限界の一つとして、それが分布の分散を低く評価し過ぎてしまうことが挙げられる。
   E[\mu_{ML}] = \mu
   E[\sigma^2_{ML}] = \left(\frac{N-1}{N}\right)\sigma^2
つまり、最尤推定としての平均は不偏(unbiased)だが、分散はそうではない(N-1で割ると不偏となる)。これはN\to\inftyとなるときには問題ではなくなるが、多変数の複雑なモデルになるとこの問題はより深刻な影響をもたらす。
  • 多項式曲線近似再考
 所与のxに対応するtが(1.1)の平均y(x,w)および分散\beta^{-1}の正規分布に従うとする
   p(t|x,{\bf w},\beta) = {\mathcal N}\left(t|y\left(x,{\bf w}\right),\beta^{-1}\right)
 未知のパラメータ{\bf w}および\betaを決定するのに使用する学習データ(i.i.d)を\{{\bf x},{\bf t}\}とすると、
   p({\bf t}|{\bf x},{\bf w},\beta) = \prod_{n=1}^{N}{\mathcal N}\left(t_n|y\left(x_n,{\bf w}\right),\beta^{-1}\right)
 対数尤度関数は  
   \ln p({\bf t}|{\bf x},{\bf w},\beta) = -\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n,{\bf w}) - t_n\}^2 + \frac{N}{2}\ln\beta - \frac{N}{2}\ln (2\pi)\hspace{3em}(1.62)
 これを{\bf w}について最大化する解を求めることで尤度を最大化する係数ベクトル{\bf w}_{ML}を求めることが出来る。負の対数関数を最大化することは正のそれを最小化することに等しいから、結局(1.62)を最大化することは(1.2)の二乗和誤差関数を最小化することと等価。すなわち二乗和誤差関数はノイズが正規分布に従うという仮定の下での尤度最大化の結果とみることが出来る。同様にして\betaについても
   \frac{1}{\beta_{ML}} = \frac{1}{N}\sum_{n=1}^{N}\{y(x_n,{\bf w}_{ML}) - t_n\}^2
が得られ、tについて予測分布(predictive distribution)は
   p(t|x,{\bf w}_{ML},\beta_{ML}) = {\mathcal N}\left(t|y\left(x,{\bf w}_{ML}\right),\beta_{ML}^{-1}\right)
となる。
  • ベイジアン的アプローチにおいては、まず多項式の係数{\bf w}についての事前確率分布を導入する。
   p({\bf w}|\alpha) = {\mathcal N}({\bf w}|0,\alpha^{-1}{\bf I}) = \left(\frac{\alpha}{2\pi}\right)^{({\bf M}+1)/2}\exp\{-\frac{\alpha}{2}{\bf w}^T{\bf w}\}
\alphaは精度、{\bf M}+1{\bf M}次多項式の係数ベクトル{\bf w}の要素数。(\alphaのようなモデルのパラメータの分布を制御する変数をハイパーパラメータ(hyperparameter)という。)ベイズの定理を用いて{\bf w}の事後分布は事前分布と尤度関数との積に比例するから、所与のデータに対して最尤な{\bf w}を求めることによって{\bf w}を決定することが出来る。このようなテクニックを最大事後確率(MAP)と呼ぶ。最大事後確率は次の式の最小値によって与えられる。
   \frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n,{\bf w}) - t_n\}^2 + \frac{\alpha}{2}{\bf w}^T{\bf w}
これは(1.4)を\lambda = \alpha/\betaで正則化した二乗和誤差関数を最小化することと事後分布を最大化することとが等価ということを示している。
  • 以上の方法ではp({\bf w}|\alpha)を導入したが未だ{\bf w}についての点推定を行っており、ベイジアン的手法にはまだ完全ではない。完全なベイジアン的手法においては、{\bf w}の全ての値について積分し確率の和と積の法則を適用する。こういった周辺確率化はパターン認識におけるベイジアン的手法の中心に位置するもの。
  • 曲線近似においては{\bf x}{\bf t}が与えられた上で、入力xに対してtを予測することが目標なので、予測分布p(t|x,{\bf x},{\bf t})を求めたい。
\alphaおよび\betaを固定すると予測分布は
   p(t|x,{\bf x},{\bf t}) = \int p(t|x,{\bf w})p({\bf w}|{\bf x},{\bf t}){\rm d}{\bf w}
ここでp(t|x,{\bf w})はノイズを表し、p({\bf w}|{\bf x},{\bf t}はパラーメータの事後確率分布(このような場合正規分布となる)。これは
   p(t|x,{\bf x},{\bf t}) = {\mathcal N}\left(t|m\left(x\right),s^2\left(x\right)\right)\hspace{3em}(1.69)
とも書ける。ただし、
   m(x)   = \beta\phi(x)^T{\bf S}\sum_{n=1}^{N}\phi(x_n)t_n
   s^2(x) = \beta^{-1} + \phi(x)^T{\bf S}\phi(x)\hspace{3em}(1.71)
   {\bf S}^{-1} = \alpha{\bf I} + \beta\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T
(1.69)の予測分布の平均および分散はxに依存している。(1.71)の最初の項は予測されたtの目標変数のノイズによる不確実性を表しているが、第二項はパラメータ{\bf w}の不確実性から生じるものであり、ベイジアン的手法の結果でもある。

1.3節 モデル選択(Model Selection)

  • 最良の予測を得るためには、所与のモデルにおける最適なパラメータを決定する必要があると同様に、ケースに応じて最適なモデルを選ぶ必要がある。最尤法による場合、学習セットに対する適応度は予測の性能に直結するとはいえないことを既に見た(over-fittingの問題)。もしデータが豊富にあるなら、あるデータをモデルの範囲あるいは所与のモデルの複雑性を決定するパラメータ値の範囲を決定するのに使用し、それらを別の独立したデータ(評価セット(validation set)と呼ばれる)を用いて比較することが考えられる。この場合にはover-fittingの問題を避けるために最終的な評価をするためのテストセット(test set)を取り分けておく必要がある。しかし、実際の例では学習およびテストのために使えるデータ数は限られていることが多いから、限りあるデータを可能な限り有効に利用したい。しかしもし評価セットが小さければ予測の性能にノイズが多く混じることになるだろう。このジレンマを解決する一つの方法が交差評価法(cross-validation グループ数S=1の特別の場合を一つ抜き法 leave-one-out technique という)。
  • 交差評価法の欠点は、グループ数Sが増加すると計算量が増えること、正則化パラメータのようなパラメータが増えてしまい、最悪の場合パラメータ数の指数オーダーの学習回数が必要になる可能性もある。学習回数は一度のほうがよい。
  • 赤池の基準(Akaike information criterion AIC)
   \ln p({\mathcal D}|{\bf w}_{ML}) - M
こういった基準はモデルパラメータの不確実性を考慮に入れていないため、比較的単純なモデルを指向する。

1.4節 次元の呪い(Curse of Dimensionality)


1.5節 決定理論(Decision Theory)

  • クラス分け問題においては所与のデータ{\bf x}に対して複数のクラスの確率が問題となる。
   p(C_k|{\bf x}) = \frac{p({\bf x}|C_k)p(C_k)}{p({\bf x})}
 ここでp(C_k|{\bf x})を最大化することがすなわち、誤分類の機会を最小化することと等価。
  • k個のクラス分けの場合、入力{\bf x}を適切なクラスの一つに分類する、すなわち、入力空間をk個の領域R_k(決定領域decision regions)に分割する規則が必要となる。R_k同士の境界を決定境界(decision boundaries)もしくは決定平面(decision surfaces)という。各決定領域は連続である必要はなく、いくつかの互いに素な領域から成ることもある。
  • 最適な分類はp(C_k|{\bf x})を最大にするクラスへの分類である。
  • 癌検診のケースを例にとれば、癌ありケースを癌なしと誤判定する場合を最小にすべきであり、そのためには逆に癌なしをありと誤判定する確率が上昇してもやむを得ない。このような価値判断を損失関数(cost function)または費用関数(cost function)を導入することで定式化できる。
損失行列(loss matrix)の要素L_{kj}C_kに属する{\bf x}C_jに分類した場合の損失とすると、損失関数は真値クラスに依存するのでその代わりとして期待損失
   E[L] = \sum_{k}\sum_{j}\int_{R_j}L_{kj}p({\bf x},C_k)d{\bf x}
を最小化するR_jを求めることになる。p({\bf x},C_k)は確率のproduct ruleによってp({\bf x},C_k) = p(C_k|{\bf x})p({\bf x})と展開できるから共通の因数p({\bf x})を省くことができ、結局求めるのは
   \sum_{k}L_{kj}p(C_k|{\bf x})
を最小にするクラスj{\bf x}を分類する規則ということになる。これは事後確率p(C_k|{\bf x})が分かれば容易に求められる。
  • 却下オプション(reject option)は、p(C_k|{\bf x})が閾値\thetaより小さい場合にどのクラスにも分類せず却下するオプション。
  • クラス分け問題は、学習データを使ってp(C_k|{\bf x})のモデルを学習する推定段階(inference stage)と、その事後確率を使って最適なクラス割り当てを求める決定段階(decision stage)とに二分することができる。これに対して、これら二段階を一緒にして入力{\bf x}に対して直接決定を対応付ける関数を学習する方法もあり、このような関数を識別関数(discriminant function)という。
  • クラス分け問題を解く三つの手法
(a)まず各クラスそれぞれについて、クラス別確率密度p({\bf x}|C_k)を決定する推定問題を解き、クラス別事前確率p(C_k)も求める。これらからベイズの定理によって事後確率p(C_k|{\bf x})を求める、あるいは同じことだが、直接に同時確率p({\bf x},C_k)を求めてこれを正規化することで事後確率p(C_k|{\bf x})を求める。
事後確率が得られたら、新たな入力{\bf x}に対して決定理論を用いてその帰属先クラスを決定する。このように、明示的であれ暗黙にであれ、出力だけでなく入力についてもその確率分布をモデル化するアプローチのことを生成モデル(generative model)という。この手法によれば入力空間におけるデータを生成することができる。
(b)事後確率p(C_k|{\bf x})を直接推定し、その後決定理論を適用して新たな{\bf x}の帰属先クラスを決定する。このように事後確率を直接モデル化するアプローチのことを判別モデル(discriminant model)という。
(c)各入力{\bf x}を直接クラスラベルに対応させる識別関数f({\bf x})を求める。この場合には確率分布は考慮されない。
  • 生成モデルは、計算量が多く大量のデータを要する反面、異常値検出(outlier detection)に有利。しかしクラス分けのみが目的なら無駄が多く判別モデルで十分(クラス別分布の多様性は事後確率にほとんど反映されない)。識別関数を直接求める場合には、事後確率は分からない。事後確率を知ることの利点は以下のとおり。
  ・損失行列などの随時更新が容易
  ・却下オプションが可能
  ・偏った事前分布を使用可能
  ・異種データとの統合的処理が容易(条件付独立性が仮定されている
  • 回帰問題のための損失関数
 平均損失
   E[L] = \int\!\!\!\int L\left(t,y\left({\bf x}\right)\right)p({\bf x},t){\rm d}x{\rm d}t
損失関数を通例に倣って損失の二乗和とすると、
   E[L] = \int\!\!\!\int\{y({\bf x})-t\}^2p({\bf x},t){\rm d}x{\rm d}t
E[L]を最小化するy({\bf x})を求める変分問題となるから、
   \frac{\delta E[L]}{\delta y({\bf x})} = 2\int\{y({\bf x})-t\}p({\bf x},t){\rm d}t = 0
   y({\bf x}) = \frac{\int tp({\bf x},t)dt}{p({\bf x})} = \int tp(t|{\bf x}){\rm d}t = E_t[t|{\bf x}]
となるが、これは{\bf x}で条件付けられたtの条件付平均であり、回帰関数(regression function)と呼ばれる。
最適な決定を求めるには、クラス分け問題の場合と同様、次の3とおりの方法がありその功罪もそれに倣う。
(a)まず同時確率p({\bf x},t)を決定する推定問題を解く。次にそれを正規化して(p({\bf x})で割る)p(t|{\bf x})を得る。最後にそれを使ってE_t[t|{\bf x}]を計算する。
(b)まず条件付確率p(t|{\bf x})を決定する推定問題を解き、それからE_t[t|{\bf x}]を計算する。
(c)学習データから直接回帰関数y({\bf x})を求める。
  • 損失関数としては二乗和のほかにも考えられる。とくに逆問題を扱うケースでは二乗和ではよい成果が得られないことがある。二乗和を簡単に一般化したものとして、ミンコウスキ損失(Minkowski loss)があり、その期待値は
   E[L_q] = \int\!\!\!\int|y({\bf x})-t|^qp({\bf x},t){\rm d}x{\rm d}t
であり、q=2の場合二乗和に帰着する。E[L_q]の最小値はq=2の場合の条件付平均値であり、q=1の場合の条件付中央値であり、q\to 0の場合の条件付最頻値。

1.6節 情報理論(Information Theory)

  • 確率変数xの情報量
   h(x) = -\log_2p(x)
  • エントロピー(entropy)、すなわち情報量の平均
   H[x] = -\sum_{x}p(x)\log_2p(x)
  • 最適符号の符号長平均=エントロピー あるいは エントロピーは確率変数の状態を伝達するのに必要な最小ビット数(シャノンのノイズなし符号化定理)
  • 条件
   \sum_{i}p(x_i) = 1
の下でエントロピー(単位はnat)
   H[p] = -\sum_{i}p(x_i)\ln p(x_i)
を最大にするp(x)の分布を求めるには、ラグランジュの未定乗数法により
   \tilde{H} = -\sum_{i}p(x_i)\ln p(x_i) + \lambda\left(\sum_{i}p\left(x_i\right)-1\right)
を最大化すると、すべてのp(x_i)が等しくp(x_i) = 1/M(Mp(x_i)のすべての状態の数)の場合に最大値H = \lnMをとる。
  • 連続な確率変数についてのエントロピー(微分エントロピー differential entropy)
   H[x] = -\int p(x)\ln p(x){\rm d}x
を最大化する確率分布は正規分布であり、分散が大きくなればなるほど大きくなる。また、微分エントロピーは負の値もとり得る。
  • 条件付エントロピー(conditional entropy)とは、同時確率p({\bf x},{\bf y})において、{\bf x}が既知の場合に対応する{\bf y}の値を特定するのに必要な追加の情報量は\ln p({\bf y}|{\bf x})で与えられるから、{\bf y}を特定するために必要な追加情報量の平均
   H[{\bf y}|{\bf x}] = -\int\!\!\!\int p({\bf y}|{\bf x})\ln p({\bf y}|{\bf x}){\rm d}y{\rm d}x
条件付エントロピーはproduct ruleに照らして次の関係を満たす。
   H[{\bf x},{\bf y}] = H[{\bf y}|{\bf x}] + H[{\bf x}]
  • 相対エントロピー(relative entropy)あるいはカルバック-ライブラー情報量(Kullback-Leibler divergence)
 真の分布p({\bf x})q({\bf x})で近似した場合、{\bf x}を特定するためにp({\bf x})の代わりにq({\bf x})を用いて符号化したことで余分に必要になる平均情報量。ちなみにこの量は対称ではない。
   KL(p||q) = -\int p(x)\ln q(x){\rm d}x - \left(-\int p\left(x\right)\ln p\left(x\right){\rm d}x\right)
        = -\int p(x)\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}{\rm d}x
これが0以上の値であることは、凸関数についてのイェンゼンの不等式を使って証明できる。この量はp({\bf x})q({\bf x})との非類似性を表しているといえる。
  • データ圧縮と密度推定とは深い関わりがあり、真の分布が分かっている場合にもっとも効率のよい圧縮が可能。真の分布と異なる分布を用いた場合、余分に送信しなければならない情報量は二つの分布間のカルバック-ライブラー情報量以上になる。
  • カルバック-ライブラー情報量を最小とするような分布で真の分布の近似を試みることができる。この場合、前者を最小化することは尤度関数を最大化することと等価。
  • 相互情報量(mutual information)は、2変数の同時確率分布とそれぞれの周辺確率分布の積(2変数が独立なら両者は等しくなる)との間のカルバック-ライブラー情報量
   I[{\bf x},{\bf y}] \equiv KL\bigl(p\left({\bf x},{\bf y}\right)||p\left({\bf x}\right)p\left({\bf y}\right)\bigr) = -\int\!\!\!\int p\left({\bf x},{\bf y}\right)\ln\left(\frac{p\left({\bf x}\right)p\left({\bf y}\right)}{p\left({\bf x},{\bf y}\right)}\right){\rm d}x{\rm d}y
また、
   I[{\bf x},{\bf y}] = H[{\bf x}] -H[{\bf x}|{\bf y}] = H[{\bf y}] - H[{\bf y}|{\bf x}]
であるから、相互情報量は2変数同時確率において、yの値を告げられた後のxの不確実性の低減量を表すといえる。