統計学の目的とは、
久しぶりに図解です。図解は良い話題が浮かんだら、その都度更新したいなと思います。
今回の図解統計学は「統計学の目的とは」です。
統計学は何のために生まれてきたのでしょうか。
さかのぼること200年程になりますが、ナイチンゲールという人物がおりました。彼女はクリミア戦争の際に、志願して戦地に赴き、兵舎病院の環境改善に取り組みました。
その際に使ったのがデータです。自分で集めてきたデータで作ったグラフで、病院内の衛生環境を改善することが患者の生存率を高めることを主張しています。
またイギリスで流行ったコレラはご存知でしょうか。コレラは強力な病気で、当時空気感染すると考えられ、恐れられていました。
しかし、スノーという医師が、この通説に異論を唱えます。彼はコレラが流行った地域にあった2つの水道会社に着目しました。そして最終的な結論として、「理由はわからないが、一方の水道会社の水を飲むとコレラに罹る」ということを主張し、実際に流行が終わりました。
統計学のすごいところは、なんでかわからないけどこういう関係がありそうという仮説を立てられるところかなと思うこともあります。
この2つの事例は、ともに統計学の始まりです。
ナイチンゲールもスノーも、これまでの常識を覆すために、データをまとめるという方法を取りました。これは現在の統計学でいうと「記述統計」と呼ばれるものです。
統計学は、集めたデータをまとめて、人間が理解できる形にするために用いられてきました。それが目的の一つである「記述すること」です。
その後時代は流れて20世紀になると、ある婦人が「私はミルクに淹れた紅茶と紅茶に淹れたミルクを区別できる」と言いました。当時の常識で、それは科学的に同じだろうと言われていました。そこでフィッシャ-という人は、現在でいうところのランダム化比較を行うことで、婦人が本当に区別できるのかを調べました。
それ以前のナイチンゲールやスノーの時代に行われていたデータをまとめることから一歩進んで、記述したデータを用いて意思決定や説明を行っています。フィッシャ-の時代からはデータから「説明すること」が目的になっていきました。
そしてさらに時代が進んで、コンピュータが発達するとさらに高度なことができるようになります。最近の話題だと将棋のAIなんていうものもありましたね。またほかにもgoogleの検索システムやAmazonのお勧めシステム。
これらは現在までのデータを用いて、未来の予測を行っています。すなわち「予測すること」が最後の1つです。
もちろん「予測すること」は統計学だけではなく、機械学習と呼ばれる分野にも関わっていますが、流行りのディープラーニングの基礎となっているのは統計学のニューラルネットワークですし、ほかにもランダムフォレストなどの手法も、機械学習の理論のように思われがちですが、これも統計学の理論が用いられています。
まとめると、統計学は「記述すること」に始まり、「説明すること」に発展し、コンピュータが発達して「予測すること」もできるようになりました。
まとめると最初の図のようになります。
ちなみに、ナイチンゲールやスノー、フィッシャーの話は統計学の世界では割と有名です。また予測に関する有名な研究者というと、Breimanが有名でしょう。彼はランダムフォレストの理論を作り出し、世界に広めました。
色々書こうと思うと、どんどん話が逸れてしまうので今回はこの辺で、
統計学の目的は3つ
・記述すること
・説明すること
・予測すること
ということだけ覚えていただけると幸いです。