手段の目的化と過学習
面白い記事を見つけました。
統計やデータサイエンスの分野では有名な過学習(overfitting)が、社会全体で起きているという主張について書かれた記事です。
私はデータサイエンスや統計の専門家ではありませんが、私なりに理解した形でまとめてみます。
【過学習とは】
ある予測モデルを作成する際に起きる問題で、学習データ内で起きていることをよく再現できることに特化しすぎて、学習データの範囲外で起きていることへの予測性能が落ちることです。
例えば、生年月日と身長の関係をモデル化するとします。これは、生年月日を入力すると身長が予測値として出てくるモデルです。
ある小学校の児童の生年月日と身長のデータを使って、この小学校の生徒の身長を1mmの誤差もなく予測する高精度なモデルができました。しかし、このモデルを使っても他の小学校の生徒の身長をうまく予測できませんでした。また隣の中学校の生徒の身長を予測しようと思っても予測できませんでした。
それは、学習データである小学校のみで適用可能な高精度モデルを作ることに専念してしまったために、それ以外のデータに適用した時に予測できなくなってしまったのです。これが過学習の例です。
【プロキシとは】
プロキシとは元々は“代理”という意味ですが、ここではモデル化する時に本来の目標の代わりに設定する「代理目標」となります。
つまり上記の場合は以下のようになります。
目標: 生年月日から身長を予測するモデル
プロキシ: ある小学校で生年月日から身長を予測するモデル
【過学習で起きたこと】
本来の目的のために、プロキシを設定しモデルを作っていたにも関わらず、プロキシに最適化されたモデルができてしまったため、本来の目的にはそぐわなくなってしまった。
そういう解釈ができると思います。
実際に以下のような事例が記事の中で紹介されています。
【グッドハートの法則】
上記は色々な組織や社会の中で起きていることに似ていますね。「手段が目的化する」ということです。このことについて、記事内ではこのように書かれています。
【シンギュラリティ?】
将来AIに奪われるかもしれない仕事、というのが近年話題になっていますが、この記事を読んで感じたことは、何に対してAIを使うかを考えるのは人間であり、AIが過学習しないような目標設定をするのも人間である、と感じました。一方で、ここができるようになるというのが、シンギュラリティと呼ばれるAIが人間を超えるポイントなのかもしれないですね。
以上、素人なりの考えをまとめてみましたが、ご意見いただけると嬉しいです。😊