複数エージェント版の動的計画法(DP)
先日投稿した↓のnoteが意外に好評(Facebookのコメント欄だけかもしれませんが)でしたので、調子にのって関連する話題について書き留めておきます。
これで分かる!動的計画法=DPのポイント」
Dynamic Programing = DPとは、個人つまり「単一のエージェントの動学的な最適化問題を解く」ためのテクニックです。当然「複数のエージェントの動学的な最適化問題を解く」ように拡張できないのだろうか、という疑問がわいてきます。
結論から先に言うと、拡張できます! 複数のエージェントが相互に最適化を行う問題を扱うゲーム理論。その一分野である「繰り返しゲームの理論」で、まさにこの種の手法が開発されています。そのパイオニアとなったのが、プリンストン大学にいるDilip Abreu教授(とその共著者)による次の2論文です。後者は業界ではAPSと略されています。
On the Theory of Infinitely Repeated Games with Discounting, Dilip Abreu, Econometrica, Vol. 56, No. 2 (Mar., 1988), pp. 383-396
Toward a Theory of Discounted Repeated Games with Imperfect Monitoring, Dilip Abreu, David Pearce and Ennio Stacchetti, Econometrica, Vol. 58, No. 5 (Sep., 1990), pp. 1041-1063
詳しくは、以下の関連するブログ記事をご参照ください:
[2012/4/4] 不完全公的観測(Imperfect Public Monitoring)のすすめ
繰り返しゲームや、そこで使われる(複数エージェント版の)DPのテクニックは、ゲーム理論だけでなく、産業組織論やマクロ経済学(たとえば金融政策の決定ゲーム)にも応用が進められてきました。しかし、テクニカルな複雑さからか、この手法の本質はあまり理解されていないように思います。
以前、勉強会のために作成したこちらのスライドでは、できるだけこの複雑さを目立たせないように直感的な理解を強調しながら、繰り返しゲームにおけるDPについて解説しました。繰り返しゲームの包括的かつほぼ唯一の教科書である↓の第7章「The Basic Structure of Repeated Games with Imperfect Public Monitoring」の要約です。関心のある方はぜひご参照ください!