東大生はピアノを習っている人が多い?ーー東大出身の理学博士が素朴で難しい問いを物理の言葉で語るエッセイ「ミクロコスモスより」㊱
巷の受験情報やニュースコラムには、しばしば東大生の生い立ちにフォーカスした記事が見られます。
バラエティー番組では現役東大生を面白おかしくイジり、「東大生は我々(マジョリティー)とは異質の存在」というイメージを聴衆に植え付けようとしているかのようです。
しかし、残念ながら東大生のほとんどは普通の人間です。一部の超天才や超変人を除けば、日々真面目に努力してなんとか生活している、普通の人です。
それでもなぜ、「東大生の異質性」がこれほどまでに世間に流布しているのでしょうか? その問いの答えには、われわれが普段いかにあいまいに、統計やデータを見ているかが反映されていると思われます。
sampling bias
統計に関する用語に、 “sampling bias” というものがあります。ある集団のある傾向を調べるために、母集団全体を調べ尽くすのはあまりにも数が多いため、その中からランダムに抽出した集団を調べる、というのが統計分析の常套手段ですが、その際の抽出の仕方が「どれほどきちんとランダムになっているか」が結果を大きく左右します。
また、別の用語に、「疑似相関」というものがあります。ある集団において2つの統計量が正の相関を持っていたときに、そこに因果関係があると誤って結論付けてしまうことです。この例は本連載で何度も登場していますが、「テレビパン」という動画をご存じでしょうか。
「犯罪者の大多数はパンを食べたことがある。したがってパンは有害である」という、誤った統計分析のあるあるを詰め込んだような内容です。
このレベルまでくると笑い話で済みますが、日常の複雑な統計分析では、意外と侮れません。
例として、「東大生にピアノ経験者が圧倒的に多い理由(https://toyokeizai.net/articles/-/161721)」という記事を見てみましょう。
まず、最初の表を見ると、色々気づく点があります。
12000人の中の100人(1%足らず)
「東大生100人にアンケートを取った」とありますが、科類・学年・性別・出身地・家庭の所得レベルなど、どれかが偏っていた時点で結果は偏ります。
少し意地悪な見方をすれば、東大生(とくに最初の1,2年生)は、自身がいわゆる「東大生」であることを自覚しているため、過去の習慣や努力が結実して地位を手に入れたと心のどこかで自惚れています。そのような人にインタビューをすれば、当然「習い事に意味があった」という結論に偏りがちになるでしょうし、インタビュアーもそのような回答を求めてインタビューを行うため、回答を誘導している可能性も挙げられます。
しかし、さすがにここまで疑い出したらキリがないでしょう。
東大は1学年3000人程度在籍するため、4学年で12000人になります。そのうちの100人(1%足らず)を抽出して、本当に母集団を正確に特徴づけられるのでしょうか?
ある便利なツールを使ってみると、(アンケート調査の必要サンプル数計算ツール | データサイエンス情報局 (analysis-navi.com))、今回の場合は信頼度95%で統計量に10%の誤差がふくまれると見積もられるようです。
“Sampling bias” が可能な限り排除されていることを示すために、本来はデータの取得条件を事細かく記述すべきですが、この記事には見当たりません。
さらに、各項目の回答数の総和は優に100を超えます。つまり、このアンケートは複数回答が許されており、数字は「人数」そのものではなく「延べ人数」ととらえるべきです。
記事の中では、表を参照して「東大生の6割以上が音楽関係の習い事を経験した」と述べていますが、2位の「ピアノ」と7位の「バイオリン・エレクトーン・その他」がすべて別人であるとは誰も言っていません。仮に7位の項目を選んだ人が全員ピアノも習っていたとするならば、音楽関係の習い事をしていたのはアンケート回答者の47%です。
しかし、それでも一般的な割合(この1/4程度というのもどこまで信頼してよいかわかりませんが)よりも高く、しかも東大生は男子が圧倒的に多いにもかかわらずこの結果であることを鑑みると、「東大生は音楽経験者が多い」という結論はあながち間違っていないのかもしれません。
プロフィール
小澤直也(おざわ・なおや)
1995年生まれ。博士(理学)。
東京大学理学部物理学科卒業、東京大学大学院理学系研究科物理学専攻博士課程修了。
現在も、とある研究室で研究を続ける。
7歳よりピアノを習い始め、現在も趣味として継続中。主にクラシック(古典派)や現代曲に興味があり、最近は作曲にも取り組む。