見出し画像

データを見る3つの視点

Cover Photo by Art Lasovsky on Unsplash

3つの視点

データを見るときの3つの視点。

  1. 「わたし」の視点。「わたし」の身長、「わたし」の生まれ年の干支、「わたし」の居住地、など、個別具体的な値としてデータを見る。

  2. 「彼ら」の視点。「彼ら」の平均身長、「彼ら」の生まれ年の干支の最頻値、「彼ら」の居住地の分布など、統計量をもつ「セット」としてデータを見る。

  3. 「セカイ」の視点。人々の平均身長はどのくらいか、人々の生まれ年の干支や、居住地の分布はどうか、など、統計量というレンズを通してセカイをみる視点。

記述統計と推測統計

統計には記述統計と推測統計があります、という説明に、ちょっとだけもやもやする。なぜかというと、「結局やっていることは似ている」から。でも決定的に違うのは、目の前にあるデータセットそのものを見ているのか、その向こうにある世界を見ようとしているのか、という視点(というより視線、あるいは姿勢)が違う。

具体的には、目の前のデータセットから、「平均値を計算する」ことは、さしあたり記述統計的なこと。違うのは、「集めたデータの平均値はこれこれだね」、というところでとどまるならそれは「彼らの視点」。これは典型的な記述統計。
でも、「ということは、みんなの平均値もこのあたりで、誤差はこれくらいかな」と考えるのは「セカイの視点」。これが典型的な推測統計。

記述統計と推測統計を分けるのは、計算方法の違いではなく、分散を計算するときにnで割るかn-1で割るかという違いではなく(たしかに違うんだけどね、それはこの稿の本質的な部分ではなくて)、計算結果をどう見るか、という視点(視線、姿勢)の違いとして理解したい。

あなた個人に興味はない

「彼らの視点」で記述統計をしたり、「セカイの視点」で推測統計をしたりする分析者にとって、データを提供してくれた個人には興味はない。分析者は、第三者としての個人に対してデータの提供を依頼し、提供されたデータだけを分析するのであって、その個人個人がどのような人であってもよい。といっても、たとえば30代~40代の女性に対してデータ提供を求めたはずなのに、回答した個人が全員60代の男性だったら、それは困る。その60代の男性たちが、一人残らず、30代~40代の女性を装って回答していても、(とくにネットで回答する調査では)分析者はそのことを見抜けない。しかし、そんなことを言い出したらキリがないので、やめておこう。

最初に3つの視点を並べたときに、「彼ら」の視点、と書いたのであって、「私たち」の視点と書いたのではない。これは、データを提供してくれた人たちはあくまでも「データ提供者」としての「第三者」であって、それ以上の存在ではないことを表したかったからだ。

「あなた」の集まりを「彼ら」にまとめる

分析者も、最初に目にするのは「あなた」の集まりである。
1番の回答者は、身長が156㎝だ。2番の回答者は、身長が174㎝だ。3番は・・・と、いちおう「あなた」を順番に見ていく。身長が290㎝という人がいれば、入力ミスではないかと疑って除外し、身長が-80cmという人がいれば異常値として除外するだろう。そのような作業の後、「あなた」の集まりは「彼ら」という「ひとつ」の「データセット」になる。そして、平均値や分散や、四分位範囲など、分析者が適切だと認めた統計量というラベルがはられて、分析者の机に並べられる。
どうしてそんなことをする?「あなた」の集まりで良いではないか。
「あなた」の集まりの中のある個人が要求する。「わたし」のデータについて何か言ってくれ。「彼ら」などという「顔の見えないまとまり」になんかしないでくれ。
その気持ちはわからないではない。しかし、分析者はそうしない。

「彼ら」というデータセットは、次のように分析者に扱われる。
たとえば、「別の彼ら」というデータセットと並べられて、その共通点や相違点について調べる。重要な相違点があるなら、その相違点を生み出している要因について考えようとする。
このとき、データセットだけを比べているのではない。これらのデータセットを「レンズ」として作用させることで、分析者は、その向こうにある「セカイ」の分断線を見ているのである。もしほんとうに、「セカイ」に分断線があるとしたら、分析者が集めたデータセットの中に、その痕跡が現れているはずだと考えられるからだ。