ゆっくりと簡単に学ぶベイジアンネットワーク-2|グラフィカルモデルの種類
今回からベイジアンネットワーク(Bayesian network)の内容について解説していきます。初回はグラフィカルモデリングという大枠を眺めて、ベイジアンネットワークはどの分類に該当するのか説明していきます。
※作成したnoteは下記のマガジンにまとめていきますね。
~今回の範囲~
★1. グラフィカルモデリングの概要と種類
★2. 有向グラフの概要
3. ベイジアンネットワークの定義と条件付き独立性について
4. ベイジアンネットワーク学習と探索アルゴリズム
5. ベイジアンネットワークの構造学習について
6. ベイジアンネットワークを用いた分析例
ゆっくり解説していきますので、のんびりと眺めていただければ幸いです。手書きのグラフが多いですが、万年筆が大好きなことに起因した現象ですので、ご容赦ください。
(※ It's about 2600 words, so you'll be able to read it in 7 minutes. )
1. まずはベイジアンネットワークの見た目から注目!
ベイジアンネットワークのイメージを描いてみました。ご存知の方もいるかと思いますが、ベイジアンネットワークは丸と矢印で結ばれたグラフになっています。
このような、丸(確率を表す)と線で描くことができるグラフのことをグラフィカルモデルと呼びます。
例えば、上記の場合は、「どんな人がCDを買うんだろう?」という知りたい時の分析例です。ここでは、テレビの接触情報や生活価値観などのデータを取ることで、「音楽番組を見る人」または「乃木坂が好きな人」がCDを買ってくれるんだなぁってわかります。
このグラフの素晴らしい点は、因果関係をわかりやすく表現できることにあります。これは、行動や価値観などを聞いたアンケートなどのデータが手元にあれば、その関係性を可視化できることを意味しています。
このことを踏まえて、ベイジアンネットワークの価値を考えると
マーケティングの文脈においては、ベイジアンネットワークを利用すると、「音楽番組や乃木坂が出演している時間帯を狙ってCM出稿しよう」
などの判断ができる
ということです。意思決定の材料に使えるということは、ビジネス上の価値が高いですよね。
2. グラフィカルモデルの丸は確率だよ。という話。
見た目の話に戻ります。グラフ理論における「グラフ」とは丸と線にこだわらず、点でもOKです。例えば、化学の世界で例を挙げると、C4H10の構造異性体については、下記のグラフで表すことができます。
グラフ(graph)Gとは、集合の対(V(G), E(G))のことである
と定義され、点と点が結ばれた集合である上記の化学構造もグラフだよねー!という話に。単純にグラフと一言でいうと範囲が広くなってしまいます。
ここでグラフィカルモデルと区別する上で大切なポイントとなるのが「丸は確率を意味している」ということです。ではどのような確率なのか?ということは次回以降のnoteで説明していきます。ひとまず、丸は確率を示していると覚えておいてください。
次に、グラフの中のグラフィカルモデルについて分類を見ていき、ベイジアンネットワークがどの分類になるのか見ていきましょう。
3. 分類のポイントは「向きがあるか」「ループしているか」ということ
丸とか線とかの言葉で慣れてしまうと、いざ専門書や論文を呼んだ時に「はじめましての言葉ばかり」となってしまいますので、分類の前に少しだけ専門用語を確認しておきましょう。
(1) ノード(node):丸のことです。要素を意味します。頂点(vertex)とも呼ばれることもあります。
(2) エッジ(edge):ノードをつなぐ線のことです。
(3) パス(path):ノード間がつながっている、路があることです。
(4) 有向グラフ:エッジが矢印のグラフです。方向があります
(5) 無向グラフ:エッジが線のグラフです。方向がありません。
先ほど示したグラフの定義が、「グラフGは集合の対(V(G), E(G))」とあったのは、「頂点(ノード)VertexとエッジEdgeがあるものが集まっているよ」ということですね。
ベイジアンネットワークはノード間の方向にも意味があるので、有向エッジ(矢印のあるエッジ)で結ばれており、有向グラフとよばれます。一方で、無向エッジで結ばれた無向グラフの場合はマルコフ確率場とよばれます。マルコフ確率場についてはここでは名前だけ知っておきましょう。
さて、言葉を抑えたところで、分類について植野先生の本から引用して見ていきます[1]。
まずは連結グラフ(connected graph)か非連結グラフ(disconnected graph)で分類されます。これは上記のイメージの通りで、2つのノード間で少なくとも1つのパスが存在しているかの違いです。上記の非連結グラフでは、例えば、(A)と(B)のパスがないので非連結となります。
次に循環しているのかがポイントになります。例えば、上記の例だと
(A:始点)→(D)→(E)→(C)→(A:終点)
というようにぐるっと戻ってくる部分がありますよね、これが循環です。循環があるグラフは循環グラフ(cyclic graph)と呼び、循環がないものは非循環グラフ(directed acyclic graph)と呼ばれます。特に非循環グラフはDAGと略されることが多いです。
次に木という考え方が分類のポイントになります。木(tree)とは2つのノード間に1つのパスしか存在しないもののことです。つまり、1つのノードから枝分かれした先で合流することはありません。一方で、枝分かれ後に合流するものを複連結グラフ(multiply connected graph)と呼びます。
さて、ここまで有向グラフの分類について見てきました、ではベイジアンネットワークはどの分類になるのか?答えは「ベイジアンネットワークはDAGに分類される」となります。ベイジアンネットワークは非循環有向グラフ(DAG)ネットワーク構造なのです。
4. 結論
「DAGって名前のバンドとかありそう」(違うそうじゃない)
今回はグラフィカルモデルの分類からスタートし、ベイジアンネットワークがDAGに分類されるというところまで確認しました。しかしながら、ベイジアンネットワークの定義はDAGというだけでは不十分です。次回は有向グラフをもう少し掘り下げて、ベイジアンネットワークの定義の入口まで確認します。
以上、ゆっくり学ぶベイジアンネットワーク -2 でした。
----------------------------------------------------------
REFERENCE
[1] 植野真臣. ベイジアンネットワーク. コロナ社, 2014, p40.
この記事が参加している募集
Thanks for the support !