ＦａｓｃｉｎａｔｉｏｎＮ－Ｄ－Ｆｉｌｅ　情報量

情報理論（電気・電子系教科書シリーズ）

情報理論のエッセンス

情報量（じょうほうりょう、エントロピーとも）は、情報理論の概念で、あるできごと（事象）が起きた際、それがどれほど起こりにくいかを表す尺度である。頻繁に起こるできごと（たとえば「犬が人を噛む」）が起こったことを知ってもそれはたいした「情報」にはならないが、逆に滅多に起こらないできごと（たとえば「人が犬を噛む」）が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとがどれだけの情報をもっているかの尺度であるともみなすことができる。

なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ（確率）だけによって決まる純粋に数学的な量のことであり、それが個人・社会にとってどれだけ意義のあるものかとは無関係である。たとえば「自分が宝くじに当たった」事象と「見知らぬAさんが宝くじに当たった」事象は、前者の方が有意義な情報に見えるが、両者の情報量は全く同じである（宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるから）。

選択情報量（自己エントロピー）と平均情報量（エントロピー）

それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値をも情報量と呼ぶ。両者を区別する場合には、前者を選択情報量（自己エントロピーとも）、後者を平均情報量（エントロピーとも）と呼ぶ。

選択情報量

事象 $E$ が起こる確率を $P (E)$ とするとき、事象 $E$ が起こったことを知らされた時受け取る（選択）情報量 $I (E)$ を

と定義する。

起こりにくい事象（＝生起確率が低い事象）の情報量ほど、値が大きい。

上式中の対数 ( $log$ ) の底として何を選んでも、情報量の値が定数倍変わるだけなので、本質的な差はないものの、底としては2を選ぶことが多い。

底が2の場合、確率を $1 / 2 n$ で起こる事象の情報量は $n$ である。

直観的意味

整数 $u$ に対し、 $u$ の対数 $log m u$ は $m$ 進法での $u$ の桁数にほぼ等しい値を表す。したがって、確率 $1 / u$ で起こる事象の情報量は、ほぼ $u$ の桁数になる。

情報量の加法性

AとBが独立な事象のとき、「AもBも起こる」という事象の情報量は、Aの情報量とBの情報量の和である。

情報量には加法性がある。例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義からlog52 であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量はlog4、後者はlog13 である。この両者の和はlog4 + log13 = log(4×13) = log52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは直感的要請に合致する。

平均情報量（エントロピー）

$Ω$ を、台が有限集合である確率空間とする。 $Ω$ 上の確率分布 Pが与えられたとき、各事象の選択情報量 $? log P (A)$ の平均値

をPのエントロピーと呼ぶ（平均情報量、シャノン情報量、情報論のエントロピーとも）。

ただし、ここでP(A)=0のときは、 $P (A)log P (A) = 0$ とみなす。これはである事による。

また有限集合U上の値を取る確率変数Xが確率分布Pに従う場合には、XのエントロピーをH(X)=H(P)にによって定める。すなわち、

。

エントロピーは常に非負の値（または無限大）を取る。

値x、yがそれぞれ確率変数X、Yに従う場合には、組 $(x, y)$ も確率変数とみなせる。この確率変数を $(X, Y)$ と書く事にすると、確率変数 $(X, Y)$ のエントロピーは

になる。

$X, Y$ が互いに独立な確率変数である場合には、 $H (X, Y)$ は $H (X) + H (Y)$ に一致する。即ち、全体の情報量 $H (X, Y)$ は、それぞれの確率変数の情報量の和である。

しかし、XとYが互いに独立ではない場合は、 $H (X, Y)$ と $H (X) + H (Y)$ は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、

I (X, Y) = H (X) + H (Y) ? H (X, Y)

で表す。相互情報量は常に非負の値になる。

事象Bが生じているという条件下における事象Aの条件付き情報量をによって定める。確率変数Xが与えられた時、事象「 $X = a$ 」の条件付き情報量のaに関する平均値を条件付きエントロピーといい、

で表す。

さらに確率変数Yが与えられたとき、条件付きエントロピー $H (X | Y = b)$ のbに関する平均値

H(X \| Y) = ?	∑	H(X \| Y = y)logH(X \| Y = y)
	y

もやはり条件付きエントロピーと呼ぶ。

エントロピーの基本的性質

情報量は確率だけによって決まる。
情報量は非負の値または無限大を取る。
nビットのビット列の空間（情報源）から（一様ランダムとは限らない方法で）ランダムにビット列を選んだときのエントロピーは、n以下になる。エントロピーがnになる必要十分条件は、ビット列が一様ランダムに選ばれることである。
確率変数XとYが独立である必要十分条件は、 $H (X) + H (Y) = H (X, Y)$ が成立することである。

コイン投げの例

あるコインを投げたときに表が出る確率を $p$ 、裏が出る確率を $1 - p$ とする。このコインを投げたときに得られる平均情報量（エントロピー）は、

である。　

この関数 $f (p) = ? p log p ? (1 ? p)log(1 ? p)$ をエントロピー関数と呼ぶ。

図を見ると分かるように、 $p = 0$ と $p = 1$ では $H$ はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 $H$ が最大になるのは $p = 1 / 2$ のときであり、一般にすべての事象（できごと）が等確率になるときにエントロピーが最大になる。

連続系のエントロピー

実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを

によって定義する。

Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量 $H (X)$ も定義できる。Xがn通りの値を取るとき、 $H (X)$ と $h (X)$ は、

h (X) = H (U n) ? H (X)

を満たす。

但し、ここで $U n$ はn元集合上の一様分布とする（すなわち $H (U n) = log n$ ）。

Renyiエントロピー

$Ω$ を、台が有限集合である確率空間とする。Pを $Ω$ 上の確率分布とし、 $α$ を非負の実数とする。

のとき、Pのdegee $α$ のRenyiエントロピーを

によって定義する。また、の場合には、Renyiエントロピーを

によって定義する。

単にRenyiエントロピーと言った場合は $H 2 (P)$ を意味することも多い。

さらに、確率変数Xが確率分布Pに従うとき、 $H α (X)$ を $H α (X) = H α (P)$ によって定義する。

Renyiエントロピーは以下の性質を満たす：

が成立する。
$H 1 (P)$ はシャノン情報量と一致する。
$α$ が2以上の整数の場合には、が成立する。ここで、は確率分布 $P$ に従う独立同一分布であって、はをそれぞれに従って選んだ時にが成立する確率とする。
が成立する。このをminエントロピーともいう。

歴史

「エントロピー」の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット（1 シャノン）と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた。

現在の情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによるもので、その著書『通信の数学的理論』でエントロピーの概念を情報理論に応用した。シャノン自身は統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達していたが、その名称をどうすべきかをフォン・ノイマンに相談し、フォン・ノイマンの提唱によってエントロピーと名付けられた。

なお、シャノン以前にもラルフ・ハートレーが1928年に、集合Aに対してという量を考察している（“”はAの元数）。はA上の一様分布のエントロピーに一致する。現在では、をAのハートレー・エントロピーと呼ぶ。

単位

情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので，単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。

また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997（これは国際規格 ISO/IEC 2382-16:1996と一致している）は、これらの量を表す単位を別に定めている。

**対数の底と単位**
底	通常の単位	JISおよびISOが定めた単位	備考
2	ビット (bit)	シャノン (shannon)	lg
e=2.718…	ナット (nat)	ナット (nat)	ln, 自然対数
10	ディット (dit)	ハートレー (hartley)	log, 常用対数

単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン、ラルフ・ハートレーにちなむ。

Ｆａｓｃｉｎａｔｉｏｎ Ｎ－Ｄ－Ｆｉｌｅ 情報量