見出し画像

第10回 情報源

阿坂先生
これまでは一回しか起こらないことの情報の量とかエントロピーを求めてきたが連続して発生する事象の情報を考えてみる。次々に情報が出てくるものを情報源というぞ。

麦わら君
それってどうゆうことですか?

桂香助教
例えばコイン投げを10回やるとかよ。裏表裏裏・・・というふうにどんどんと結果が出てくるものを考えるの。

麦わら君
回数を重ねることに意味があるんですか?表と裏の出る確率は1/2という結果は変わらないんじゃないですか?

桂香助教
コイン投げの場合は前後の関係が無関係だけど、例えば、日本語が出力される情報源を考えるとき、「あ」が出る可能性は前後にどんな文字があるかで確率が変わってくるわ。そうゆう問題を扱いたいの。

阿坂先生
前の結果が次の結果に影響するという問題を考える。

麦わら君
例えば、「あさが〇」という並びなら〇は「お」である確率が高いということですか?

阿坂先生
そのとおりじゃ。前後の関係がなければ、ひらがなを50音とすると「お」である確率は1/50じゃ。しかし、前の文字を知っているなら、この場合、「お」である確率は断然高くなる。

桂香助教
今回はこんな情報源を考えてみるわ。

麦わら君
あーなんとなくわかります。今までエントロピーを習ってきたから、これを今回の例に当てはめると、前が分かれば次の文字のあいまいさ(エントロピー)が低下するってことですよね。あと、条件付き確率とかも使いそう。

阿坂先生
素晴らしい。そのとおり。ではちょっと例を挙げておこう。英語の例じゃ。例えば、英語のアルファベットは26文字あるからこれが等確率で発生するとしたらエントロピーHは

H=1/26×log(26)=4.7

英文はeのアルファベットが一番出やすい。このように文字の出現確率の偏りを踏まえてエントロピーを計算すると

H=4.15

になるそうじゃ。そして、前の文字が何かが分かった場合のエントロピーは

H=3.57

さらに8文字前まですべて分かっているとすると

H=2.35まで低下するそうじゃ。

桂香助教
このエントロピー、すぐに計算をしたいけど、まず定義をいくつか説明しておくわね。まずは、定常情報源。これは出力される情報の性質が変わらないことだよ。例えば、ずーと日本語を出力していた情報源がある瞬間から英語が出力されるということはないというのが定常情報源。

阿坂先生
今回は前に何が出たかで次を予測するものだから、日本語が突然英語に変わると前の予測は無駄になるからのぉ。ここで考えるのは出力される性質はずっと同じとする。今後扱うのはすべて定常情報源じゃ。

麦わら君
たしかにね。前提条件がコロコロ変わるものだったら何のための予測か分からなくなりますね。

桂香助教
英語とか日本語は前の情報が後の情報に影響を与えるわね。このような情報源を記憶のある情報源というわ。じゃあ、記憶のない情報源は?

麦わら君
それって、前の情報が後の情報に影響を与えない情報源のことですか?それなら、例えば、コイン投げの結果が次々に出力される情報源とか。

阿坂先生
そうじゃな。前が何であっても後に影響しないのが記憶のない情報源じゃ。あとはサイコロ投げもそうじゃな。

桂香助教
そして、記憶のある情報源で重要なのはマルコフ情報源

麦わら君
マルコフ情報源と記憶のある情報源はどう違うのですか?

阿坂先生
これまでは出力される情報が過去の情報に影響を受けるという説明をした。これが記憶のある情報源じゃな。マルコフ情報源というのは記憶のある情報源なのじゃが影響を受ける過去の情報が有限個の場合を言うのじゃ。

桂香助教
例えば、m重マルコフ情報源というのは過去のm個の情報までが影響を現在の情報(これから出力される情報)に影響を与える。

画像1

阿坂先生
1個前までしか影響がないものは単純マルコフ情報源という。

麦わら君
分かりました。mより前の情報は影響を受けないのがマルコフ情報源というのことが分かりましたが、これは記憶のある情報源という定義では駄目な理由があるのですか?

阿坂先生
英語などの言語の例ではm個でそれ以降は無関係という条件は付けられないことが多いのじゃが、完全に無関係ということが保証できれば、次に説明する状態遷移図(シャノン遷移図)を使ってすっきりと情報やエントロピーを表現できるのじゃ。

桂香助教
情報の扱いやすさからマルコフ情報源が重宝するわ。

阿坂先生
次回は状態遷移図(シャノン遷移図)を勉強していくぞい


これから記事を増やしていく予定です。