婚活データサイエンス2024
この世界のありとあらゆる全てを数値に落とし込んだデータなんていうものが当然存在しないことからも分かるように、データとは(それがどれだけビッグでリッチでマルチモーダルになろうと)いつだって世界の一部分を、それも見える範囲だけ切り取ったものに過ぎない。
そこには、いちばんの問題として、観測変数しか見えない = 当たり前だけど他人のことは目に見える部分しか見えない という問題がある。さらにはどんなデータでもそれを自分の感覚によって数値化する作業 = たとえばレストランの評価として自分の主観を星の数に落とし込むこと、なんていうのは意外と難しかったりする。
世の中のデータサイエンティストは変数の正規性などにはやたらうるさいが、一方でデータとして測定可能な事象のみを(すなわち本来であれば氷山の一角に過ぎないはずの観測事象のみを)存在の全てとして、あるいはある程度の信頼性を伴う事実として、判断するきらいがあるように思う。これはかなり危険なことだ。行動ログとは常に結果であり、それ自体が原因たりうることは別の結果への連鎖でない限りは考えにくい。
そんななか、「結婚相手を比較検討することを目的に、デート中に観測した相手の振る舞いを数値化して統計的に分析する」という試みを複数の人に関して何度か見たことがある。それ自体はかなり興味深い。しかし、その根底にこそ本問題の極地が潜んでいるように思うので、ここに書き残しておく。ある特定の誰かについて述べているわけではないことだけは強調しておきたい。
1. そもそもの2大バイアス
第一に、「デート中に観測した行動と結婚後の振る舞いが同質である」というのがそもそもかなり強引な仮定だと言わざるを得ない。少なくともぼくがそんなことをいえば、周りの研究者(特に経済学系の先輩後輩)からボコボコにされること間違いなしである。それぐらい、デートと就活の面接には社会的望ましさ(Social-desirability; SD)バイアス = いい人だと思われるために普段の自分とは違う姿を演出しようとする意思 が非常に強くかかる。
婚活のように、回数にしても時間にしても非常に限定的な機会のなかでデータを収集しようとすればするほど、相手は短時間だけ大きな努力をすることでその場をやり過ごせる確率が上がり、つまりは現実 = 本来のその人の姿 との乖離が拡大していく可能性がある。
第二に、デートで収集可能な行動ログには、当人の振る舞い全体から強く選択バイアスがかかる。たとえば、社会的望ましさにあわせてデート中の行動を最適化すると、多くの場合にそのしわ寄せはデート外(分析者からは観測できないそれ以外の時間)に発生する。デート中に見栄を張って大金を使った結果、月末には資金繰りの帳尻が合わなくなったりする。それは人間の割引率の問題でもあって、目の前の目標の獲得に対して過大なコストを払いたがるような近視眼的な人ほど、案外魅力的に見えたりする。
これら2つはいずれも、評価関数の最適化にあたってかなり危険なバイアスになる。
2. 数値の代替可能性
数値データでは識別することの難しい統計的な差異を仮に異質性(heterogeneity)と呼ぶとして、それがどんなものなのかを理解するのに一番手っ取り早いのはマッチングアプリに登録することである。ある一個人を表現する情報を、「身長」「学歴」「年収」…といった数値化可能な変数のみに絞ったとき、それは人間というものの驚くべき代替可能性を浮き彫りにする。
多くの人にとって、自身と同程度の身長・学歴・年収の他者は同地域内に信じられないほど多く存在しており、ある条件に合致する人間の集合が数値の羅列として出力されるとき、そこでは個々人の異質性は完全に無視される。
上で書いたデートでの振る舞いの数値化は、これに毛が生えた程度の分析にしかならないという意味で、"本質"の評価には至らないのではないかと思う。
そういう量的調査が意味をなさないからこそ、我々は必死に会話し、理解し合うという(この言葉はあまり好きではないが)いわゆる「n=1の質的調査」により対象を深掘りしようとするのだと思う。
ちみなに、こんなこと偉そうに書いてますが僕は完全なる独身です。
3. ぼくらは平均と分散によって表現可能なのだろうか?
そんなわけで、数値とは(収集する情報の幅広さにもよるが、基本的には)アンチ多様性なのである。何回でも書くけど、マルクス・ガブリエルが人々を「平均と分散に基づく集合」として表すことに強い嫌悪感を抱いているのと構造としては同じで、つまるところ我々は、人間の個別の特徴や差が示されないことにもっと恐れ慄くべきなのかもしれない。
まあそんな感じで、婚活してるデータサイエンティストの皆さん、がんばってください。あと仕事ください。
この記事が気に入ったらサポートをしてみませんか?