◆読書日記.《ダレル・ハフ『統計でウソをつく法 数式を使わない統計学入門』》
※本稿は某SNSに2022年9月19日に投稿したものを加筆修正のうえで掲載しています。
ダレル・ハフ『統計でウソをつく法 数式を使わない統計学入門』読了。
著者のダレル・ハフは大学には属していないものの博士号を持ち、社会心理学・統計学・心理テストなどを研究していた人だという。
本書の翻訳者は「訳者あとがき」にて、ロンドン・スクール・オブ・エコノミクスにおける統計学の代表的学者R・G・D・アレンの講義を受けた際、真っ先に「諸君はまず、この本を読んでみることだ」と言って本書をお勧めしていたと書いている。
本書はそんな著者によって1954年出版され、日本では講談社ブルー・バックスにて1968年に出版されたという50年以上も昔の古い本。
にもかかわらず、最近まで版を重ねており(ぼくの入手した版では「2017年 第98刷」とあった)それだけ長い事読まれ続けている著作と思われる。
実際、本書に書かれた統計に関する知識は、副題に「数式を使わない統計学入門」とある通り、内容が古びにくい入門的/基本的なものであり、それを具体的に、分かり易く、ユーモアを交えて……という広く一般ウケもする形式で書かれているのが人気作たるゆえんなのだろう。
ちなみに本書については、ぼくはコロナ禍の情勢を統計で分析してよくご自身のTwitterに掲載している「コロラド先生」こと著述家の牧田寛氏(@BB45_Colorado)が、統計学についてのオススメ本という事で取り上げていたのを知って購入したのである。
◆◆◆
本書が普通の統計学入門と違う所は、何といっても統計で「ウソをつく方法」のあれこれを紹介している所だろう。
実際、統計というものは呆れるほどあらゆる「人を騙す方法」というのがあって、そういう「騙されやすい/騙しやすい」ものだからこそ、その「騙しの手口」をオープンにしたかったのだろう。
本書にも引用されている有名なエピグラムだが、英国の政治家ベンジャミン・ディズレーリはかつて「ウソには3種類ある。ウソ、大ウソ、そして統計である」とさえ言ったという。
それだけ、統計と言うのは見た人を迷わせるし、時としてその統計を作った人の結論さえ誤らせる。
詐欺師の手口を知っておかねば、詐欺に対してどういう警戒をすればいいかわからないのと同じで、統計の騙しの手口を知っておこう、という事なのである。
これを逆に利用すれば、自分が統計を使う場合にも、統計から間違った答えを出してしまう過ちを減らす事ができるかもしれない。
本書は10章構成となっており、1~9章では種類ごとに分けて、具体的なケースをあげながら「統計で人を騙す方法」を紹介している。
第1章 かたよりはサンプルにつきもの
第2章 "平均"でだます法
第3章 小さい数字はないも同然
第4章 大山鳴動ネズミ一匹
第5章 びっくりグラフ
第6章 絵グラフの効用
第7章 こじつけた数字
第8章 因果はめぐる
第9章 統計操縦法
そして、最後の第10章にて「統計のウソを見破る五つのカギ」と題して、1~9章で紹介してきた騙しのテクニックを見破るための5つの方法を挙げる――という、エレガントなほどにロジカルな構成の本となっている。
<統計のウソを見破る五つのカギ>
1.誰がそういっているのか?(統計の出所に注意)
2.どういう方法で分かったのか?(調査方法に注意)
3.足りないデータはないか?(隠されている資料に注意)
4.いっていることが違ってやしないか?(問題のすりかえに注意)
5.意味があるかしら?(どこかおかしくないか?)
この五つのカギを見れば、本書が何故「数式を使わない」のか、お分かりになるだろう。
統計の基本的なウソを見破るには、高等な数学的操作を駆使して調査しなければ発見できないといったたぐいのものではないのだ。
要は、統計のウソを見破るのに重要なのは、ちゃんとした科学的な考え方、ロジカルな考え方、なのである。これさえあれば、おそらく相当数の統計のウソは見抜ける。
統計や数字のウソを見抜くのに、必ずしも「数式」は必要ではない。そこで試しに、ここで読者諸兄にも簡単な「計算のウソ」を見破っていただこう。
下に引用したのは、本書に出てくる「昔から子供たちが使っているトリック」である。ぼくは、この詭弁は見た事がなく、非常に面白い騙しのテクニックだと思ったので、その部分を引用して「問題」としてみよう。
子供たちは、次の数学的な説明を以て「子供たちは一年を通して一日として学校には通っていない」という事を証明するのだという。
ロジカルシンキングの問題集などに掲載されていそうな問題である。
これは数字を並べて計算している風に見えるが、要は計算以前の「ロジック」が間違っているために、全く見当違いの答えが出ているというケースなのである(というヒントでもうお分かりになっただろうか?)。
これも統計でウソをつく基本的なテクニックのひとつだ。
余計なものを計上したり、もしくは必要なものを計上していなかったり……という事だけでも、統計データを大きいものに見せたり、小さく見せたりする事ができる。
著者はこの問題については「多くの手抜かりやごまかしは、実際には計算が合わないのに、合うようにみえるものを加えることから起こってくる」と言っており、この考え方が分かっていれば、自分の計算や統計の誤りを事前に防ぐ事も出来るだろう。
例えば上のケースで言えば「土日祝日、クリスマスもイースターも睡眠や食事はするのだから、前半の数字と土日祝日の部分がダブって計上されている」と気づけば「数学」を用いずとも間違いを指摘する事はできる。
だから、「数式」を用いずともその統計の「ロジックが間違えている」という事が見抜ければ、この詭弁に騙される事はないのである。
◆◆◆
統計の「性質」を知っていたほうがウソを見破りやすいものも多いので注意が必要だ。これもつまりは「数式」を用いずとも統計のウソを見破る方法の一つとなる。
例えば本書の第1章に取り上げられているテーマに「かたよりはサンプルにつきもの」というのがある。これなどは統計学を知らなければ、間違いやそれを見抜く事は難しいかもしれない。
例えば何かのアンケート調査をする場合、対象に当てはまる人を世の中から全員調査するという事は数が膨大になりすぎてできる事ではない。
だからそういったものについてはサンプリング調査が使われるわけだが、サンプルとなる回答者は偏っていてはいけないとされるので(偏った思想の人たちや偏った宗派の人たち、偏った人種、偏った性別、偏った年齢層、偏った生活環境などなど)、サンプルには基本的に「ランダム」という性質が必要となる。
だが、このサンプルは母集団から偶然に選ばれなければならない。ランダム・サンプルの条件は次のようなものだ。「母集団の中のすべての人あるいは物は、等しくサンプルに選ばれるチャンスがあるか?」である。
しかし、この完全なランダム・サンプルの抽出というのは様々な困難が伴う。本書に掲載されている有名な「サンプル調査の過ち」を見てみよう。
この結果のズレというのは一九三二年当時、電話を所有する事ができた人と言うのは経済的に特別な人であり、この雑誌の購読者についても同様の事が言えた。つまり、このサンプルには雑誌の編集陣の意図に反して偏ったものだったという事なのである。
斯様にサンプリング調査というものは困難がつきものであるそうだから(現在は技術的に改善されていてほしいものだが)、逆に言えばこれは偏ったデータ、誤ったデータを作り易い調査でもあるという事でもある。
調査する者がある意図を以てしてわざと偏った層の対象者から調査を行えば、調査する者の希望通りの数字が得られるかもしれない。
これも問題を見破るためには高等数学を知っている必要はなく、上に書いた<統計のウソを見破る五つのカギ>の内の2つ目「どういう方法で分かったのか?(調査方法に注意)」を追求する事で見破る事ができる。
◆◆◆
こういう統計の「騙しのテクニック」というのは、本書を読めば「呆れるほどたくさんある」という事に誰もが気付くだろう。
著者はそのあらゆるテクニックを、豊富な実例から様々に示してみせるのである。
それは新聞や雑誌が提示するような統計調査だけではなく、われわれの身近にも現れるありふれた「数字を使った騙し」だからこそ、こういう方法に知悉しておく事はわれわれの役に立つ。
例えば、テレビCMに良く出てくる「従来のものよりも三倍もよく汚れがおちます!」とか「利用者の90%以上が『良い』と答えました!」とかいった文言についてもそうだろう。
実際に会社員をしていて、社外向けの資料に数字データを出した事がある人なら心当たりもあるだろう。
「競合他社が多いのに、わざわざ自分の会社の製品が不利になるような数字を出すんじゃない」と上司に注意されて、正直に採ったデータを「良いように解釈できる数字に見えるよう、様々にニュアンスを変える」なんて事は、わりとありがちなのではないだろうか?
そんな企業が本書の第7章「こじつけた数字」を利用し、あるいは第5~6章「びっくりグラフ」「絵グラフ」でごまかしたりすると……世の中には不正確な数字が頻出するようになる。
この手の企業による「数字の騙しのテクニック」は、本書を読めば昔から(しかも、半世紀以上も昔から!)あるテクニックが未だに使われているという事にも気づくだろう。
更に言えば現在ネット上の言説にも、しばしば怪しげなグラフや出所のわからない数字データといったものを持ち出して自分の主張を通そうとする人たちを眼にするが、それらについても、本書に出てくる様々な「騙しのテクニック」に当てはまるものが見られる。
例えば、現在のコロナ禍の被害を矮小化させる言い訳として良く見かける「新型コロナウイルスよりもインフルエンザのほうがよほど脅威だ説」といったような言説である。
そもそもインフルみたいに医者に行けばすぐ検査が出来てすぐ結果も分かり、治療法も治療薬も確立されているようなものと、コロナを同列に比べるには色々と問題があると言わねばならないだろう。
それに、新型コロナウイルスはインフルエンザとは違って無症状感染者が出るので、インフルエンザとは感染の条件も違ってくる。また、日本の行政はPCR検査を限定して無症状感染者も含めて感染者が何人いるかといった形で調査しようとはしていないので、統計としても正確な数字が出ない。
両者を比較する基準が同じではない。比較対象が、対象として相応しいのかどうか疑わしい。これは本書で言えば第9章「統計操縦法」でもとりあげられている問題だ。
「数字」が強調される場合に気を付けなければならないのは、その中身の「質」はどうなのか、というのを無視しない事だろう。
これはぼくが以前にご紹介した中谷宇吉郎『科学と社会』でも指摘されていた事であった。
どうも「数字」というものは、科学的に見えながらもその実、人の「感情」に訴えかけてくるような力を持っているようだと思う。
数の辻褄さえあっていれば「科学的」で「信頼に足る」かのように見える「権威」がたちあらわれるのである。人はその「数字の権威」に、コロリとやられてしまうのだろう。
そういった数字を使った騙しにひっかからないために重要なのは、物ごとに対する「批判的検証」という姿勢を忘れない事だろう。重要なのは、目の前に見えている表面的な数字の羅列ではなく、その数字の「内容」のほうだ。
安易に信じず、考えなければならない。
逆に言えば「数字の権威」というものは、「自分が細かく考えずとも、相手が調べて考えて出してくれた答えなのだから(信頼しよう)」という意識を生み出して、考えるクセを怠らせる、危険な権威なのかもしれない。