目次(まとめ)
◾️ 情報量とは、事象の発生確率に応じて算出される数値
◾️ すべての事象について情報量を考えて平均情報量(エントロピー)を算出
◾️ 参考文献
こんにちは、みっちゃんです。
今回の記事では、中高生の物理の授業で馴染みがある「エントロピー」という指標が情報理論の分野でどのように使われているのか解説します。
情報量とは、事象の確率に応じて算出される数値
情報理論において情報量(単位:ビット)は以下のような式で定義されます。
$$(情報量) = \quad - {\rm log}_2 P$$
ここで、\(P\) は、ある事象が起こる確率です。
例えば、50%の確率で発生する、つまり \(P = 0.5\) という事象については、その情報量は \(1\) ビットとなります。
コンピュータの世界では、すべての情報が "0" か "1" という50%の確率で切り替わるので、それが \(1\) ビットで表されるということになります。
また、20%の確率で発生する、つまり \(P = 0.2\) という事象については、その情報量は \(2.32\) ビットとなります。
したがって、事象の確率が小さくなるほど、その事象の情報量が大きくなるということになります。
すべての事象について情報量を考えて平均情報量(エントロピー)を算出
ここでは、2項分布にしたがう確率変数を例にして説明したいと思います(2項分布については以下の記事をご参照ください)。
この確率分布の確率関数は、以下のように表現されます。
$$P(Y = k | n, p) = {}_n \mathrm{C}_k p^k (1-p)^{n-k} \qquad (k = 0, 1, 2, …, n)$$
いま、発生確率 (p = 0.3) という試行を5回行うことを考えると、(k = 1, 2, 3, 4, 5) の確率は以下のように計算されます。
$$P(Y = 0) = {}_5 \mathrm{C}_0 0.3^0 0.7^5 = 0.16807$$
$$P(Y = 1) = {}_5 \mathrm{C}_1 0.3^1 0.7^4 = 0.36015$$
$$P(Y = 2) = {}_5 \mathrm{C}_2 0.3^2 0.7^3 = 0.3087$$
$$P(Y = 3) = {}_5 \mathrm{C}_3 0.3^3 0.7^2 = 0.1323$$
$$P(Y = 4) = {}_5 \mathrm{C}_4 0.3^4 0.7^1 = 0.02835$$
$$P(Y = 5) = {}_5 \mathrm{C}_5 0.3^5 0.7^0 = 0.00243$$
これらの確率から情報量を算出すると、上から順に、2.57、1.47、1.70、2.92、5.14、8.68となります。
それぞれの確率と情報量をかけあわせて足し合わせたものを「平均情報量(エントロピー)」といいます。
つまり、以下のように計算されます。
$$(平均情報量) = 0.16807*2.57 + ... = 2.04$$
参考文献
きたみりゅうじ「キタミ式イラストIT塾 応用情報技術者」技術評論社