人事が学びなおす統計学
どうも、DX人材を発掘したいDX人事担当じんです!
DX人材を理解するために、人事として「統計学」を学ぶことは重要です。さもなくばデータ分析プロジェクトで飛び交う「p値」とは何か理解できません。「あの、すみません、さっきから言ってるピーチって・・・?」これでは人事も舐められてしまいます。
かくいう私は、大学時代に統計学の講義を受けたときは、何をやっているかサッパリわかりませんでした。でも、会社で様々な問題解決を経験した最近になって勉強し直すと、なぜかスッキリ分かるという不思議なことが起こったのです。
それは、問題解決にあたり重要な「現実はそのままだと複雑すぎるので、モノゴトの本質を抽出したシンプルな問題に置き換えてから考える」クセが身についたからだと思います。実は、統計学を学ぶ際も、この考え方が大事だったのです。
今回は、統計学の教科書に明示的にかかれていない前提、でも私としては「初めからそこを教えて欲しかった!」ということをまとたいと思います。
統計学を学んで得られる新たなデータの見方
まずは、私が思う統計学を学ぶ意義について。それは、日常生活では身につけられない新たなデータの見方を提供してくれることです。統計学を学ぶことで、文字通り認識する世界が変わります。
統計学を学んでいないと、「データ=事実=真実」の発想になりがちです。統計学の中でも「記述統計」と言われる分野はこの発想ですので、教科書に書かれてあることは理解しやすいです。しかし、平均値や中央値などは、意気揚々と学習を進めていたのに、「分散」で唐突に「n-1」で割りだす頃から、挫折する人が出てくると思います。これは記述統計かと思いきや「推測統計」の分野に足を突っ込んでいるからです。
そして、推測統計とその前準備のための大量の確率分布の嵐によって、多くの人は何をやっているか見失ってしまい、学習を挫折すると思います(大学時代の私)。これはメインディッシュ前にレストランを後にするようなもので、非常に勿体無いことです。
ここを何とか乗り越えて、推測統計学を学んだ人は「データ=事実≠真実」という見方を得ます。「データ=真実に迫る手がかり」なんです。推測統計では、興味があるのは真実の方であって、データそのものではありません。記述統計との大きな違いです。
ここでいう真実とは、データがどういう仕組みで生成されるのかという「メカニズム」のことです。サイコロを例にとると、1回1回ふったときに出た目がデータで、サイコロ自体がメカニズムに対応します。「1から6の範囲の整数が、大体同じ頻度で出てくる」といった具合にみんな無意識に「サイコロのデータ生成メカニズム」を理解していると思います。このメカニズムがみんなの共通理解になっているからこそ、安心して遊びやカジノなどで使われているわけです。
データは何らかのメカニズムから生み出されるものであり、手元にあるデータはサイコロの目のように「たまたま得られたもの」を見ているにすぎない(異なるデータが得られた可能性もあった)。このようなデータの見方が、推測統計学の大前提にあります。日常生活からは身に付けることが難しい発想です。
通常、私たちが知りたいメカニズムは、サイコロのように物理的な実体があるわけではないので、想像力がものをいいます。目の前のデータから「一歩引いて」背後の実体が見えないメカニズムを想像する、これが推測統計学の第一歩です。
経営で統計学が注目されているのは、メカニズムを知ることは有効なアクションに繋がるからです。「当社の売上データがどういうメカニズムで生み出されているのか?」これが分かれば計画・管理・改善に使えます。毎月毎月の売上の数字(事実)をただ追って一喜一憂するのではなく、本質的なメカニズム(真実)について議論ができます。
数式で表現する抵抗感を取り除く
推測統計学では、上で触れた新たなデータの見方を前提に、データ生成のメカニズムを数式で表現することから始まります。ここにおいても、初心者にとってアレルギー反応が起きる挫折ポイントがあります。
「正規分布に従う」
いや、急にそんなこと言われても、「何で!?」となるわけです。いや現実ってもっと複雑でしょ、何でそんなことが断定できるの?何で正規分布なの?と、疑問が尽きずに、そのあとの話を聞く気にもなりません。
実は、これをアレルギーなく受け入れるには、「現実はそのままだと複雑すぎるので、モノゴトの本質を抽出したシンプルな問題に置き換えてから考える」という、ビジネスでよく行う問題解決思考が必要だったのです。
この表現の裏には、以下のような前提が隠れています。これは、通常の教科書には書いてありません。
「現実のデータ生成メカニズムは複雑すぎるしよく分かりません。神のみぞ知る世界です。でも、それだと何も議論が出来ないので、思い切って、数式で完全に表現できると仮定します。そして、サイコロみたいに毎回異なるデータが出るような「ランダム性」を表現するには確率分布という便利なものがあるので、これを数式に組み込みます。確率分布は色々な種類があるんですが、正規分布というものがよく使われていて、最もシンプルに議論を進めることが出来るので、一旦はデータは正規分布から発生していると仮定します。」
数式で表現することによって、「解けない複雑な問題」を、「解けるシンプルな問題」に帰着させることがポイントです。数式の世界に持ち込めば、数学とコンピュータという人類の叡智が詰まった道具を使って、あらゆる方法で大抵の問題が解けるようになります。これによって、データの裏にある真実(メカニズム)に関する役に立つ知見が得られます。
以上、統計学を学ぶにあたって、教科書には載っていないけど、個人的に大事な前提でした。以上のことを踏まえて学び直すと多少学習がスムーズになるのではないでしょうか。
それでは!