モデル選択(AIC)
今回はモデル選択で活用される"AIC"について解説したいと思います。AICとは「赤池情報量基準」の略称です。ここでは、AICのザックリとした仕組みについて書き連ねていきますので、AICの根源となる理論については割愛させていただきます。
あるデータの散布・プロットが与えられた時に、
「データ群(x,y)に対して、yはxの2次式で表せるのではないか」
「いやいや、(x,y)の散布図を見るからにy=Asin(x)みたいな周期的関係があるのではないか」
などといった、目的変数yと説明変数xとの間に何らかの関係性を持たせたい場面が多くあります。上の2つの意見をそれぞれ数式で表すと
・y = ax^2+bx+c
・y = Asin(x)+B
という関係性が主張されていることになります。では、これらのうちどちらが妥当か、を知りたくなりますよね。そこで用いるのがAICとなります。
AICは、
AIC = -2×(モデルの最大対数尤度)+2×(モデルの自由パラメータ数)
と定義されます。これは、KL(カルバック・ライブラー)情報量や尤度理論から導かれますがとても難しいのでここでは触れません(詳しく知りたい方は『基礎系数学 確率・統計Ⅲ(丸善出版)』をお読みください)。
AICの第1項の「最大対数尤度」は「データをモデルに当てはめたときの尤もらしさ」、つまり「当てはまりの良さ」を表す指標となります。第2項の「自由パラメータ数」はその名の通り「モデルの式において自由に動けるパラメータの数」を表し、罰則項とも呼ばれます。例えば、前段落の例における2次多項式モデルと三角関数モデルの自由パラメータ数はそれぞれ3(a,b,c), 2(A,B)となります。
(x,y)の関係性を表す無限に存在するモデルの中でAICを最小とするモデルを特定し、そのモデルが(x,y)の最適モデルということになります。
と、ここまではAICを知っている方なら分かっていることだと思いますが、ここからはAICを全く知らない方にもAICの感覚を身につけてもらいたいと思います。
〜〜〜〜〜
今、A君とB君がこんな会話をしています。
A: 俺ってモテるんだよね。
B: いきなり何を言い出すの?じゃあ、A君がモテるって納得したいから、その理由聞かせてよ。
A: いいよ。じゃあ、今から言うことは俺(A君)の事実です。
1. 「イケメンである」
2. 「身長が高い」
3. 「お金持ちである」
4. 「スポーツ万能である」
5. 「仕事場まで徒歩5分圏内のところに住んでいる」
6. 「好きな食べ物がハンバーグである」
7. 「最近、道端で転んだ」
B: んー……。。
はい、いかがでしょうか。みなさんもB君と同じ感想を持ったのではないでしょうか。今、A君は「自分がモテる」ということを伝えるためにモテる理由としてA君が自身の事実を7つ語りました。見てわかる通り上記7つの事実のうち、1〜4はともかく5〜7はモテることの裏付けにはなりませんよね。
つまり、今B君は「A君について知り過ぎている」状況にあり、これを統計用語で「過学習(過適合)」と言います。「モテる」理由だけを知りたいのであれば1〜4の事実だけで充分ですよね。5〜7は事実であることに変わりはないですが、「モテる」こととは到底関係がないです。
これをAICに対応させて考えると、事実1〜7は「最大対数尤度」に対応し、5〜7を除外することは「罰則項」を付与することに対応しています。「モテる」というA君の一個性を最も良く表す根拠(モデル)は事実1〜4(最適モデル)となります。
〜〜〜〜〜
AICの最小化と言う意味では、「最大対数尤度」を大きくしていけば勝手に小さくなっていきます(-2という負の値がかかっているため)。しかし、これだけでは実際のデータにおいても「既存のデータへの当てはまり」が良くなるばかり(過学習)で「存在しないデータの予測」には全く役に立ちません。言い換えると、最大対数尤度だけに着目してしまうとモデルが複雑になりすぎてしまうのです(高次多項式など)。そこで、「罰則項」を加えることでモデルの過学習を防ぐことができ、簡単なモデルでデータの予測をすることができるようになります。これがAICの肝となる部分で、広い意味でモデル選択の肝とも言えます。このように、AICは「モデルの既存データへの当てはまり」と「モデルの複雑さの抑制」というトレードオフを最適化する基準となるのです。
モデル選択はAIC以外にも、BIC(ベイズ情報量基準)、クロスバリデーション(交差検証法)など多岐に渡ります。それぞれのモデル選択法に利点・欠点はありますが、これは別の記事で紹介させていただきます。
長文をお読みいただきありがとうございました。