
因果推論の科学(2023年7月10日統計的因果推論追記)
ベイジアンネットワークを用いた未来予測と因果推論に貢献した業績でチューリング賞を受賞した著者が自ら理論の限界に気づき、環境に働きかけること(介入)で一段、事実に反する仮定を想定すること(反事実)でさらに一段高所から因果推論を行う理論展開を試みたチャレンジングな一冊。著者自らが考案した因果ダイアグラムをチェーン、フォーク、コライダーに整理し、さらにバックドアの概念を導入すれば因果推論が明瞭に行えることを示す。
#わたしの本棚 #因果推論の科学
はじめに
「人工知能」の「データ中心の視点から捉える深層強化学習」古田 拓毅において「自由自在に複雑な実環境と相互作用を行う深層強化学習のエージェントはいまだ見通しが立っていない」との記述がある。
画像分類、翻訳、文章生成、タンパク質構造予測などは人間を超えつつあるが、
— YANO Tomoaki@20230612SEAD35in広島OS2-5 (@yanotomoaki) July 7, 2022
実環境と相互作用を行う深層強化学習のエージェントはいまだ見通しが立っていない
データ中心の視点から捉える深層強化学習
人工知能Vol37,No.4,pp507-515 より pic.twitter.com/Wsk0fbAy1B
ロボットに自然言語で指示を出すことも可能になってきた上、空間を人間と共有する分野にもロボットが進出してきている昨今、不思議なことをいうものだと思っていたが、本書を読んで謎が氷解した。
「人工知能」の論文の著者は、本書に書かれている「はしご」の2段目に上る方法の見通しが全く立っていないと言いたかったのだ!
本書の著者であるパール氏は、理論は数式に結晶化され、数式が全てだと述べており、その言葉どおりに、著者が練り上げた数式(p506の式9・5)が示される。
著者は、多くの統計学者が本書に書かれている内容を理解せず、未だに多くの誤った相関関係や因果関係を導き出し、拡散していると嘆く。
p531では、「因果的な問いにデータのみで答えることは決してできない。 モデルフリーでデータを分析してもデータを解釈することは決してできない」 と改めて強調している。
因果的な問いにデータのみで答えることは決してできない。
— YANO Tomoaki@20230612SEAD35in広島OS2-5 (@yanotomoaki) March 30, 2023
モデルフリーでデータを分析してもデータを解釈することは決してできない」
因果推論の科学p531 https://t.co/n2yK1dhdce
本書で述べられていることは順を追って注意深く読まないと理解しづらい面があり、さらなる理論展開が必要で、異論も多いようである。
しかし、本書を読み終えると統計学の現状を俯瞰すること、現在のAIと人間の推論のしかたの違いを明確に認識することもできる。
それでは、本書の概要を理解する旅に出かけよう
序章「因果推論という新しい科学」
・統計学は相関関係に集中し、因果関係は無視され続けてきた。
・ビッグデータがあれば、あらゆる問題の解決策が得られると考える人がいる
著者の主張
・データは基本的に何も教えてくれない。
例:ある薬を服用した人が服用しなかった人より早く回復した事例に関して、データは「なぜそうなったか」を教えてくれない。
著者が提案する、因果推論に使える二つの手法
・因果ダイアグラム
・記号言語
因果推論の言語を用いて「思考する機械(強いAI)」の実現がはじめて可能になる
因果推論エンジンの青写真
図1.1参照(クリックして探してみてください)
第1章 因果のはしご
「存在しないものを想像する能力」がすべての鍵
ユヴァル・ノア・ハラリ著「サピエンス全史」より
1段目のはしご 関連付け(LLMは、ここ)
2段目のはしご 環境への介入
因果モデルを立てられれば、「関連付け」を用いて予測可能
3段目のはしご 反事実
現実にないものを想像したり、「もしも、もしもだよ」と仮定する。
データがないのだから、「関連付け」と相性が悪い
図1.2参照(クリックして探してみてください)
処刑場の「因果ダイアグラム」
原因から結果に向かう矢印(関連付けには矢印はない)
発砲命令を待たずに自由意志で発砲する場合、ダイアグラムの矢印を消去するだけ
矢印の背後には確率があるが、確率が変わってもダイアグラムの構造は変わらない
正しいダイアグラムが描ければ、
問いの内容は考えなくて良い柔軟性がある
・「因果関係は確率で求められる」という主張への反論
・著者自身が提唱し、広く受け入れられている「ベイジアンネットワーク」は、因果関係が欠落している
#統計 パール著『因果推論の科学』での「因果推論のはしご」の3段階を1枚にまとめたものの改訂版 pic.twitter.com/1zux96CNIT
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023
第2章 因果推論創世記
遺伝を再現するゴルドンモデル
・どんなに世代が進んでも、極端に背の高い人間や背の低い人間が現れない(平均への回帰)モデルを創る
・時間を逆転しても平均への回帰が観測されるため、平均への回帰は因果関係ではなく、相関関係で表される
・相関関係で多くのことが説明できるため、因果関係は排除された
・因果関係での説明が必要な事象は「疑似相関」とされた
シューアル・ライト
・モルモットの毛色を決めるパスダイアグラム(有向線分で事象をつなぐ)
・無視され続け、現在でさえ「すべての答えはデータにある」と主張する経済学者がいる
第3章 結果から原因へ
ベイズの定理
・逆確率の計算が順確率と比較して難しい非対称性が存在する
・ベイズの定理により、順確率から逆確率の計算が可能になった
・事象が未来に起こると信じている信念(未来予測)を、事象の発生により更新できる
・反論:信念を確率に置き換えることが許されるのか?
ベイジアンネットワーク
・ニューロンを規則でつなぐ論文にヒントを得た
・親ノードから子ノードに流れる情報は「条件付き確率」で信念更新、子ノードから親ノードに流れる情報は「尤度比」を掛けて信念を更新するネットワーク(確率伝播法)
ジャンクション(感想:因果ダイアグラムの基礎をなす構造。超重要)
リンクが2つの3ノード・ネットワーク
1.チェーン A→B→C B:媒介因子は、Aの情報とCの情報を切り離す
2.フォーク A←B→C B:交絡因子は、AとCの共通原因(疑似相関の正体)
3.コライダー A→B←C Bを条件付けると、AとCに従属関係が生まれる
条件付き確率表
・定性的記述のダイアグラムに定量的入力を与える
ベイジアンネットワークから因果ダイアグラムへ
#統計 パール著『因果推論の科学』第3章では、ベイジアンネットワークと因果ダイアグラムの違いについて
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023
【ベイジアンネットワークの矢印は、因果関係を何ら仮定していない点が因果ダイアグラムとは違っている】
と結構わかり易く説明しています。
ベイズ統計のためには因果関係の情報は無用。続く https://t.co/cXZRNDWl3c pic.twitter.com/v1oZS31zet
第4章 (フォークの)交絡を取り除く
交絡因子
・過大評価する統計学者:過剰調整
・過小評価する統計学者:因果関係を無視
交絡の解消
・ランダム化比較試験(RCT)
①交絡の解消には因果的手法が必要
②因果ダイアグラムを使えば、確実に体系的に交絡を解消できる
(感想:「ランダムに選択すれば、あらゆる交絡因子が両方のデータ群に平均して分配される」は、まさに逆転の発想で、目からうろこ)
do演算子とバックドア基準
5つのゲームで、媒介変数をいじらないといけない場合といじってはいけない場合を明確化
(内容は省略)
第5章 たばこは肺がんの原因か?
因果ダイアグラムで喫煙論争に決着をつけた話(内容は省略)
第6章 パラドックスの詰め合わせ
さまざまなパラドックスも因果ダイアグラムで決着
・モンティ・ホールのパラドックス(内容は省略)
・バークソンのパラドックス(内容は省略)
・ドラッグDのパラドックス(内容は省略)
・ロードの食堂のパラドックス(内容は省略)
第7章 介入(はしごの二段目に上がる)
最も単純なルートーバックドア調整
交絡解消因子の十分なデータを持っている時
裏口から正面玄関へーフロントドア調整
直接の因果経路のすべてのデータが揃っている時
do演算子を含む確率をdo演算子を含まない確率に置き換える
式(7.2)を式(7.1)に置き換える(著者は、数式しか信じない)
行動すること(do演算子)を見ること(do演算子のない式)に変える3つのルール
ルール1:観察の付加、あるいは排除を許可する
変数Wが変数Yと無関係の場合P(Y|do(X),Z,W)=P(Y|do(X),Z)
ルール2:介入を観察に、あるいは間接を介入に置き換えることを許可する
Zがバックドア基準を満たしている時P(Y|do(X),Z)=P(Y|X,Z)
ルール3:介入の排除、あるいは付加を許可する
XからYにいたる因果経路が存在しない場合P(Y|do(X))=P(Y)
#統計 はしごの2段目の潜在結果変数Yₓの取り扱いは、do(X=x)記法の下でのYの取り扱いで置換でき、『因果推論の科学』でもそういう記号法で説明している部分が多いです。
— 黒木玄 Gen Kuroki (@genkuroki) March 28, 2023
do(X=x)記法には単にYₓをYと書ける「利点」がある。
個人的には違う変数が別の記号で書きたいので、Yₓを使う方が好き。 https://t.co/4PAd9VMvxl
第8章 反事実(はしごの三段目に上がる)
構造モデルと反事実
・構造モデルでは、Xがxである場合をdo(X=x)と記述する
反事実の世界は無数にあるのに、脳はどのようにしてその中から世界を絞り込むのだろう?
アプローチ
例題:アリスがもし学部卒だったら、給与はどうなったのか
・欠損データは「因果推論」の根本的問題なのか?
反事実の確率表は欠損データだらけになる
線形回帰で欠損データを埋める
構造的因果モデルを用いて欠損データを埋める
#統計 以上のような証拠を見れば、パール著『因果推論の科学』第8章でルービン先生について述べている部分が正しいことが分かる。
— 黒木玄 Gen Kuroki (@genkuroki) March 30, 2023
特に経済学部で因果推論の講義を受講する場合には、パールさん達の仕事の評価においてルービン先生の側が一方的に間違っていたという事実の取り扱いに注意が必要かも。 pic.twitter.com/xKT29mSHl6
#統計 まとめのための問題4:『因果推論の科学』での因果推論のはしごの2段目と潜在結果変数Yₓの関係及び、3段目とYₓのさらなる拡張の関係について説明せよ。
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023
解答例
↓
1段目: Y=f(X,M,Z,U), M=g(X,Z,V)
2段目: Yₓ=f(x,Mₓ,Z,U), Mₓ=g(x,Z,V) (潜在結果変数)
3段目: Y_{x,x'}=f(x,M_{x'},Z,U) https://t.co/osgUmUMWcD
#統計 まとめのための問題5:『因果推論の科学』第8章にはルービン先生へのぎょっとするような言及があるのですが、どうしてそんなことに?
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023
解答例
↓
「DAG対PO」という対立図式を描くこと自体が有害。
「DAGとPO」の__両方を常に__使う方が良さそう。
(DAG=有効非巡回グラフ、PO=潜在結果)
↓ https://t.co/Z2dc4T6OD0
第9章 (チェーンの)媒介
「なぜ?」の二つの種類
1.現象の原因を知りたい
2.既知の原因と既知の結果の関係を知りたい
2つめのなぜ?は、媒介変数を用いて定量化可能
式(9.1)~式(9.5)
第10章 ビッグデータ、AI、ビッグクエスチョン
因果モデルを理解する研究者が増えているが、本章では敢えて相関関係とAIについて述べる
ビッグデータと因果モデル
「十分に賢くデータマイニングをすれば問いへの答えが必ず見つかる」わけではない
トランスポータビリティ
特定の分野の研究結果を、他の分野の研究に移設可能かどうかは、因果ダイアグラムの類似性で判断可能
例題:サーフィン広告の有効性評価
(内容は省略)
ディープラーニングの結果は、その結果に至った理由がわからない。
強いAIは、理由を説明し、かつ自由意志を持つ
強いAIは、人類への最高の贈り物
ただ『因果推論の科学』にもあったように、AIがどうあがいても(少なくともしばらくは)到達できない人間の領域というのはあるようなので、そこがAI以降の時代にクリエイティブ業がやっていく上でのポイントになってくるんだろうなとは思う。もちろん影響はドでかいのだろうがhttps://t.co/Tk3X3EvMu5
— ぬまがさワタリ (@numagasa) March 29, 2023
おわりに
文字ばかりになってしまいましたが、図1.1と図1.2が、本書のアウトラインのすべてなので、ぜひリンクから見に行って欲しいです
本文には具体的な事例が豊富に載っています。
時間が許す方は、ぜひ
たくさんの例題を、自分自身で因果ダイアグラムを作成して解かれてみると良いと思います
(という私もまだチャレンジできていませんがw)
最後に黒木先生お薦めの書籍等のツイートを記載しておきます
#統計 分野の開拓者自身の発言を『因果推論の科学』以外にも沢山読みたければ、次のブログがお勧め。これもめちゃくちゃ面白いです。https://t.co/EcYEUP7gwE
— 黒木玄 Gen Kuroki (@genkuroki) March 28, 2023
Causal Analysis in Theory and Practice
英語が苦手なら、自動翻訳をかければよいと思います。
#統計 このスレッドでは、パール著『因果推論の科学』を初めて読んだときに、曖昧だと感じられることや、ぎょっとするようなことについて、できるだけクリアに説明したつもり。
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023
インターネット上の関連情報へのリンク(へのリンク)付き。
#統計 まとめのための問題3:『因果推論の科学』の読者にとって役に立ちそうな解説を紹介せよ。
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023
解答例
↓
Statistical Rethinking https://t.co/olDu7gagRZ
#関連スライドのツイート
統計的因果探索の概説
— SHIMIZU Shohei | 清水 昌平 (@sshimizu2006) May 19, 2023
AI・データ利活用研究会 第48回https://t.co/sXMD93NxEN
2023年6月18日追記
「#因果推論の科学」では
— YANO Tomoaki@20230726-28TechnoFrontier1A09-2 (@yanotomoaki) June 17, 2023
因果推論のはしごを登らないとムリ
と述べているな(感想)
AIロボ、相棒になれるか五感を備え 人間超えも:日本経済新聞 https://t.co/9n2jR4Rnot https://t.co/3BuitXptjk pic.twitter.com/arwYeBq352
2023年7月10日追記
Imbens&Rubinの邦訳を買いました。
— いかり (@bebebeBayes) July 7, 2023
発売日に書店に駆けつけるワクワク感は、子どもの頃のそれと変わらないですね。 pic.twitter.com/Hrn8zjwysE
いいなと思ったら応援しよう!
