ＦａｓｃｉｎａｔｉｏｎＮ－Ｄ－Ｆｉｌｅ　相互情報量

情報理論（電気・電子系教科書シリーズ）

情報理論のエッセンス

相互情報量（英: Mutual information）または伝達情報量（英: Transinformation）とは、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量である。最も典型的な相互情報量の物理単位はビットであり、2 を底とする対数が使われることが多い。

定義

形式的には、2つの離散確率変数 X と Y の相互情報量は以下で定義される。

ここで、p(x,y) は X と Y の同時分布関数、p(x) と p(y) はそれぞれ X と Y の周辺確率分布関数である。

連続の場合、総和の代わりに二重の定積分を用いる。

ここでの p(x,y) は X と Y の同時分布密度関数であり、p(x) と p(y) はそれぞれ X と Y の周辺確率密度関数である。

これらの定義は対数の底が明示されていないため曖昧である。明確化するため、関数 I を I(X,Y,b) のように3つの引数を持つとして定義することがある（ここで b は対数の底である）。一方、最も一般的な相互情報量の尺度はビットであるため、底として 2 を指定する事が多い。

直観的には、相互情報量は X と Y が共有する情報量の尺度である。一方の変数を知ることでもう一方をどれだけ推測できるようになるかを示す。例えば、X と Y が独立であれば、X をいくら知っても Y に関する情報は得られないし、逆も同様である。従って、相互情報量はゼロである。逆に、X と Y が同じであれば、X と Y は全情報を共有していると言う事ができ、X を知れば Y も知ることになり、逆も同様である。結果として、相互情報量は Y（または X）単独の不確かさ、すなわち Y（または X）のエントロピーと同じとなる。

相互情報量は、X と Y が独立な場合の同時分布と実際の同時分布の距離を示す量である。また、以下のような意味で相互の依存性の尺度でもある。すなわち、I(X; Y) = 0 であるのは、X と Y が全く依存しない、独立な確率変数である場合だけである（同値）。これは一方向から考えると分かり易い。X と Y が独立なら、p(x,y) = p(x) × p(y) であるから、次が成り立つ。

さらに、相互情報量は負とならず（I(X;Y) ? 0; 後述）、対称性がある（I(X;Y) = I(Y;X)）。

他の情報量との関係

相互情報量は次のようにも表せる。

ここで H(X) と H(Y) は周辺エントロピー、H(X|Y) と H(Y|X) は条件付きエントロピー、H(X,Y) は X と Y の結合エントロピーである。H(X) ? H(X|Y) であるため、これは上述の非負性とも一貫している。

直観的に、エントロピー H(X) が確率変数の不確かさの尺度であるとすれば、H(X|Y) は「Y を知った後にも残る X の不確かさの量」と見ることができ、最初の行の右辺は「X の不確かさの量から Y を知った後に残った X の不確かさの量を引いたもの」となり、「Y を知ったことで削減される X の不確かさの量」と等価である。これは、相互情報量が2つの確率変数について互いにもう一方を知ったことで得られる別の一方に関する情報量という直観的定義とも合っている。

離散の場合、H(X|X) = 0 であるから、H(X) = I(X;X) となる。従って I(X;X) ? I(X;Y) であり、ある確率変数は他のどんな確率変数よりも自分自身についての情報を多くもたらすという基本原理が定式化されている。

相互情報量は、2つの確率変数 X と Y の周辺分布の積 p(x) × p(y) と同時分布 p(x,y) のカルバック・ライブラー情報量で表すこともできる。

さらに、p(x|y) = p(x, y) / p(y) とする。すると、次のようになる。

従って、相互情報量は、Y を与えられた時の X の条件付き分布 p(x|y) から X の確率分布 p(x) のカルバック・ライブラー情報量の期待値と解釈することもできる。p(x|y) と p(x) の分布に差があればあるほど、情報利得（カルバック・ライブラー情報量）は大きくなる。

応用

多くの場合、相互情報量を最大化させ（つまり相互依存性を強め）、条件付きエントロピーを最小化させるという方向で使われる。以下のような例がある。

入力確率分布が最大化されたときの相互情報量は通信路容量と等価である。
多重配列アラインメントによるRNAの二次構造予測
機械学習における特徴抽出や特徴変換の尺度として相互情報量が使われてきた。
相互情報量はコーパス言語学における連語の計算における重み付け関数として使われることが多い。
相互情報量は医用画像処理における画像の位置合わせに使われる。ある画像と別の画像の座標を合わせるために、両者の相互情報量が最大となるように位置合わせを行う。
時系列解析における位相同期の検出。
情報量最大化独立成分分析アルゴリズムでも利用されている。
ターケンスの定理では平均相互情報量を使って埋め込み遅延パラメータを求める。

Ｆａｓｃｉｎａｔｉｏｎ Ｎ－Ｄ－Ｆｉｌｅ 相互情報量

定義

他の情報量との関係

応用

ＦａｓｃｉｎａｔｉｏｎＮ－Ｄ－Ｆｉｌｅ　相互情報量