情報理論(電気・電子系教科書シリーズ) 情報理論のエッセンス 宇宙を復号する ―量子情報理論が解読する、宇宙という驚くべき暗号 (単行本) |
情報量(じょうほうりょう、エントロピーとも)は、情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度である。頻繁に起こるできごと(たとえば「犬が人を噛む」)が起こったことを知ってもそれはたいした「情報」にはならないが、逆に滅多に起こらないできごと(たとえば「人が犬を噛む」)が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとがどれだけの情報をもっているかの尺度であるともみなすことができる。 なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ(確率)だけによって決まる純粋に数学的な量のことであり、それが個人・社会にとってどれだけ意義のあるものかとは無関係である。たとえば「自分が宝くじに当たった」事象と「見知らぬAさんが宝くじに当たった」事象は、前者の方が有意義な情報に見えるが、両者の情報量は全く同じである(宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるから)。 選択情報量(自己エントロピー)と平均情報量(エントロピー)それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値をも情報量と呼ぶ。両者を区別する場合には、前者を選択情報量(自己エントロピーとも)、後者を平均情報量(エントロピーとも)と呼ぶ。 選択情報量事象Eが起こる確率をP(E)とするとき、 事象 E が起こったことを知らされた時受け取る(選択)情報量I(E) を と定義する。 起こりにくい事象(=生起確率が低い事象)の情報量ほど、値が大きい。 上式中の対数 (log) の底として何を選んでも、情報量の値が定数倍変わるだけなので、本質的な差はないものの、底としては2を選ぶことが多い。 底が2の場合、確率を1 / 2nで起こる事象の情報量はnである。 直観的意味整数uに対し、uの対数logmuはm進法でのuの桁数にほぼ等しい値を表す。したがって、確率1 / uで起こる事象の情報量は、ほぼuの桁数になる。 情報量の加法性AとBが独立な事象のとき、「AもBも起こる」という事象の情報量は、Aの情報量とBの情報量の和である。 情報量には加法性がある。例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義からlog52 であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量はlog4、後者はlog13 である。この両者の和はlog4 + log13 = log(4×13) = log52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは直感的要請に合致する。 平均情報量(エントロピー)Ωを、台が有限集合である確率空間とする。Ω上の確率分布 Pが与えられたとき、各事象の選択情報量 ? logP(A)の平均値 をPのエントロピーと呼ぶ(平均情報量、シャノン情報量、情報論のエントロピーとも)。 ただし、ここでP(A)=0のときは、P(A)logP(A) = 0とみなす。これはである事による。 また有限集合U上の値を取る確率変数Xが確率分布Pに従う場合には、XのエントロピーをH(X)=H(P)にによって定める。すなわち、
エントロピーは常に非負の値(または無限大)を取る。 値x、yがそれぞれ確率変数X、Yに従う場合には、組(x,y)も確率変数とみなせる。この確率変数を(X,Y)と書く事にすると、確率変数(X,Y)のエントロピーは になる。 X,Yが互いに独立な確率変数である場合には、H(X,Y)はH(X) + H(Y)に一致する。即ち、全体の情報量H(X,Y)は、それぞれの確率変数の情報量の和である。 しかし、XとYが互いに独立ではない場合は、H(X,Y)とH(X) + H(Y)は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、
で表す。相互情報量は常に非負の値になる。 事象Bが生じているという条件下における事象Aの条件付き情報量をによって定める。確率変数Xが与えられた時、事象「X = a」の条件付き情報量のaに関する平均値を条件付きエントロピーといい、 で表す。 さらに確率変数Yが与えられたとき、条件付きエントロピーH(X | Y = b)のbに関する平均値
もやはり条件付きエントロピーと呼ぶ。 エントロピーの基本的性質
コイン投げの例あるコインを投げたときに表が出る確率を p、裏が出る確率を 1 - p とする。このコインを投げたときに得られる平均情報量(エントロピー)は、 である。 この関数f(p) = ? plogp ? (1 ? p)log(1 ? p)をエントロピー関数と呼ぶ。 図を見ると分かるように、p = 0 と p = 1 では H はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。H が最大になるのは p = 1 / 2 のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。 連続系のエントロピー実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを によって定義する。 Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量H(X)も定義できる。Xがn通りの値を取るとき、H(X)とh(X)は、
を満たす。 但し、ここでUnはn元集合上の一様分布とする(すなわちH(Un) = logn)。 RenyiエントロピーΩを、台が有限集合である確率空間とする。PをΩ上の確率分布とし、αを非負の実数とする。 のとき、PのdegeeαのRenyiエントロピーを によって定義する。 また、の場合には、Renyiエントロピーを によって定義する。 単にRenyiエントロピーと言った場合はH2(P)を意味することも多い。 さらに、確率変数Xが確率分布Pに従うとき、Hα(X)をHα(X) = Hα(P)によって定義する。 Renyiエントロピーは以下の性質を満たす:
歴史「エントロピー」の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット(1 シャノン)と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた。 現在の情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによるもので、その著書『通信の数学的理論』でエントロピーの概念を情報理論に応用した。シャノン自身は統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達していたが、その名称をどうすべきかをフォン・ノイマンに相談し、フォン・ノイマンの提唱によってエントロピーと名付けられた。 なお、シャノン以前にもラルフ・ハートレーが1928年に、集合Aに対してという量を考察している(“”はAの元数)。はA上の一様分布のエントロピーに一致する。 現在では、をAのハートレー・エントロピーと呼ぶ。 単位情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。 また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997(これは国際規格 ISO/IEC 2382-16:1996と一致している)は、これらの量を表す単位を別に定めている。
単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン、ラルフ・ハートレーにちなむ。 |