【書評】分析者のためのデータ解釈学入門 第3章 データに含まれるバイアス
今回は、こちらの本の第3章について紹介する。
この章では、バイアスの種類とその発生原因について解説されている。
測定基準に起因するバイアス
まず、1つ目のバイアスとして紹介されているのが、測定基準に起因するバイアス。定義が異なる場合と、基準が時間的に変化してしまう場合について解説されている。
定義が異なる例として、同じ「弁護士」という職業でも、諸外国では、日本で言う弁理士、税理士、司法書士、行政書士対応する職業も「弁護士」の定義に含まれるため、それらを含まない日本の弁護士数とは大きく乖離してしまうことを紹介している。
ビジネスでも、同様に似たようなサービスでも定義が微妙に異なったり、分析者がオレオレ指標を作っていたりで、単純比較が出来ない場合があったりする。特に「継続率」などのような「率」がつくものは、同じ名称でも定義が違う事が多いので、分母と分子が何かを確認するクセを付けると良い。
時間的に変化していく基準の例として、アメリカびおける自閉症の患者数の推移を紹介している。グラフを見ると明らかな上昇傾向だが、これは病気の知名度が上がったことによって、これまで見過ごされていた人々も診断を受けるようになった事によるものである。
実務においても、長期間運用しているサービスなどでは気をつけるポイントである。昔の数値と今の数値、定義は同じでもサービス自体の進化や外部環境の変化などで意味合いが変わってくる。スマフォが普及する以前と以降では、随分世の中が変わった事を考えるとイメージしやすいと思う。
選択バイアス
選択バイアスは、最も有名なバイアスでは無いかと思う。
本書でも挙げられているが、生存バイアスの有名な例として、「戦闘機の生存バイアス」がある。帰還した多数の爆撃機の損傷跡の分布についての分析で、米軍の分析では、攻撃を多く受けた部分を補強すべきという結論であったが、統計学者のエイブラハム・ウォールドは、むしろ損傷が少ない箇所を補強すべきであると主張したというものだ。
得られたデータは、攻撃を受けても帰還することが出来た機体に限られており、攻撃を受けて墜落してしまった機体のデータは含まれていないからだ。
ビジネスでも実際に入手出来るデータはサービスを継続して利用しているユーザーのデータであり、離脱してしまったユーザーのデータは含まれない。生存している古いユーザーに合わせて作り込んでしまった結果、新規ユーザーにとって敷居が高く定着しない、と言うことが起きるので注意が必要だ。
観測介入に起因するバイアス
人間を対象としたデータの取得は、測定や実験を行うこと自体が影響を与えてしまう事がある。例えば、アンケート調査などでは、選択肢や質問文によって傾向が変わってしまったり、客観的に見て良くない事に対する質問(例えば、不正に関与したことありますか?など)に対しては、良い方に回答してしまう傾向がある(不正に関与していても「いいえ」を選ぶ)。本書で解説されているランダム回答法などを使うなど工夫が必要だろう。
データの扱いに起因するバイアス
最後に、データの扱いに起因するバイアスについて解説されている。
データは人が集める以上、意識的または無意識的にデータを歪めてしまうことがある。SNSを見ていても分かると思うが、人は自分に都合の良いデータしか見ない、集めようとしない傾向がある。これを確証バイアスという。これを回避するために、社外のコンサルタントに調査を依頼し、客観的なデータを収集したりする。(ただ、中にはクライアントの期待にこたえるために、期待通りの調査を実施してしいまうという本末転倒な事もあったりする。)
あた、人である以上ミスも起きてしまう事もあり、数値の間違いから単位の読み間違い、分析コードのバグなど様々なもがある。
入手したデータには、何らかの間違いがあるかもと疑う事も重要である。