統計検定2級に向けて、微分積分を少しでも理解したい
はじめに
分析屋の小泉と申します。
学生時代は苦手だった統計学を社会人になってから勉強しだし、前職から引き続き分析屋に入社した現在まで勉強を続けています。
統計学はあらゆる場面で利用できる便利な学問ですが、それ故に非常に奥が深く、難しくもあります。
データサイエンスの専門家やAIに任せても良いという意見もありますが、身近に感じれば意思決定にも利用できる幅の広い学問です。
これまでの自分の学習から、「勉強してみたいけど何から手を付けるべきか分からない」という人への小さくとも道標となれるよう、執筆するに至りました。
今回は、そもそも統計学の一歩手前でもある微分・積分についてのお話です。
統計学において、微積分は切っても切り離せない関係です。
しかし、次元の概念が入ったり見慣れない記号が含まれたり、なんとなく「難しそう」とか「イメージしにくい」と思われることも多い…というか自分がそうでした。
統計検定2級以降になると検定・推定を行うことになりますが、これは微分積分が前提になっています。
いずれ検定や推定のお話も書きたいところですが、まずは大前提となる微積分について、自分が初めて勉強した際の解釈を残したいと思います。
変化率と微分
唐突ですが、小学生で習う簡単な例を考えてみましょう。
太郎くんが家から散歩に行きます。
600m地点まで歩いたところ、10分かかりました。
では、1分経過時点では60m地点。30秒の経過時点では30m地点。10秒経過時点では10m。1秒経過で1m。
600mに10分要したなら、平均速度は分速60m/min.だから、そこに時間をかければ進んだ距離がわかります。
グラフに表すまでもないですが、念のため。縦軸を距離、横軸を時間とするとこうなります。
次郎くんは同じ600mを同じく10分かけて進みました。
しかし、次郎くんは途中でコンビニに寄りたくなったため、300m地点で3分ロスしていました。
コンビニに行くまでは太郎くんと同じペースで歩いていましたが、コンビニに寄ってからは走ったようです。
グラフで表すとこうなります。
太郎くんと次郎くんは600mを10分かけて進みました。
ですが、速度は2人とも同じと見なしてよいのでしょうか?
5分経過時は300mまで進んだので、300÷5=60m/min.。
8分経過時は全く進んでいないので0÷3=0m/min.。
10分経過時は残り300mを進んだので、300m÷2=150m/min.。
確かに10分全体で見れば太郎くんも次郎くんも600m進んだことに変わりはないですが、「太郎くんと次郎くんは同じ速度で進みました」と言うより、経過時間に応じて速度を分ける方が妥当な気がします。
今行った、速度(変化率)を経過時間で細かく区切って変化率を見る。
この操作が微分です。実際の微分の定義は、この区切りを極限まで細かくすることで、関数の変化率を別の関数で表すことを言います。
とりあえず、「区切って変化率を見る」。
このニュアンスだけでも覚えてください。
いろいろ公式はありますが、今は覚えなくて良いですし気になったら是非調べてみてください。
積分で求められる面積
微分とセットで語られるのが積分。
実際に計算をするときには微分と全く反対のことをすればよいのですが、実際何をして何を求めているのでしょうか?
先ほどの太郎くんと次郎くんの例で考えてみましょう。
太郎くんは一度も休憩せず600m地点まで10分かけて進みました。
すなわち、速度は一定です。速度を縦軸、時間を横軸として考えると、速度は一定ですからこのようになります。
さて、小学校でも習ったと思いますが、速度×時間は進んだ距離。
グラフ上でも速度×時間…つまり、グラフのこの面積部分が距離ということになります。
指で隠して計算方法が出せるやつ、久々に思い出しました。
「グラフで作られる面積が距離を表す」というのはちょっとイメージしにくいかもしれませんが、「塗りつぶしが大きいほどいっぱい進んだんだなあ」ぐらいに考えればOKです。
次郎くんの場合を考えてみましょう。
途中コンビニに寄った際は前に進んでいないので速度は0。
時間をロスして焦ったので、その後は速くなりました。
距離=速度×時間は変わらないですから、やはりグラフで表される面積部分が進んだ距離となります。
このようにして、経過時間(横軸)を区切って面積を求める操作が積分です。
なお、積分の実際の定義は、極限まで細かく区切り、関数で表される面積を別の関数で表すという操作を言います。
微積分と統計
さて、ここまで微積分の基礎となる考え方を話してきましたが、これが統計学にどう絡むのか?身近なところでいうと確率密度関数があります。
確率密度関数とは、横軸に実際に得られる値、縦軸にその値の相対的出やすさ(≠確率)をとった関数です。
ちょっとわかりにくいので、数式とグラフを見てみましょう。
例えば、6面サイコロの確率密度関数は次のように表されます。
Nを出る目とすると、確率密度関数P(N)は
グラフで表すと次のような感じ。6面がイカサマなく平等に出る可能性があり、1~6以外の面は存在しないため、確率は0ですね。
さいころの面は整数のため本来は離散的確率変数と呼ばれ、小数点以下の単位は考えず本来は確率密度関数を得られません。
しかし、小数点以下は切り上げて整数にしていると考え、無理やりグラフに落とし込みます。
…難しいことは一旦置いておきましょう。
サイコロの目Xの出やすさがP(X)。これで大丈夫です。
確率密度関数は実際の値とその出やすさを関数に表したものです。
これの便利なところは、実際の値を範囲で指定することで「この範囲の確率はどれくらいか」を求めることができます。
例えばさいころの4以上の目が出る確率を求める場合、次のような積分の計算で求められます。
1/6という部分が確率密度関数、∫(インテグラル)が「積分する」という意味です。
すなわち、「3より大きい目から∞までの目(4~6まで)が出る確率を積分して求めよう」ということです。
グラフで表すとこの面積です。
4以上の目が出るのは6面のうち3面ですから3/6=1/2。
直感的な感覚値と同じですね。
同様に、例えば2以下の目が出る確率は確率密度関数でいうとこの面積に該当します。
計算式で表すとこうです。
こちらについても、2以下の面は1と2の2通りなので、2/6=1/3。総当たりで考えても積分と同じ結果になります。
積分の計算方法は今回は提示しませんが、「定積分」で検索すればいくらでも出てきます。
気になった方は是非。
統計学を勉強する上で間違いなく触れるのが正規分布。
正規分布の確率密度関数は次のように表されます。
式は難しいですが、確率密度関数なのでやっていることは同じです。
積分すると確率を求めることができます。
これが何に使えるかというと、例えば偏差値。
偏差値は平均μ=50、標準偏差σ=10の正規分布と見なされています。
偏差値60以上が上位どれくらいの割合かを求める場合、次の計算を行います。
ということで、緑の部分の面積は全体の15.9%。すなわち、偏差値60以上の人は上位15.9%の成績を収めていることになります。
「ふざけるな!そんなめんどくさい計算できるか!積分の仕方もわからないのに!」と言いたくなるかもしれませんが、僕もそう思います。
そこで、実際はコンピューターを使用して計算したり、標準正規分布表を用いたりして簡単に求めることができます。
実際、統計検定2級では積分を使って実際に計算することはほとんどありません(出ても1,2問、もっと簡単なもの)。
確率密度関数によって描かれる面積が確率を表すから、微積分が大事。
このことさえ覚えておけば今は大丈夫です。
「じゃあ微分は何に使うの?」と言うと…準1級以降の話になると、平均や分散などを求める際にモーメント母関数という話が出てきます。
ここで微分が大活躍します。今は積分の逆の動きを微分がしているということだけ覚えれば大丈夫です。
おわりに
今回は微分と積分の基礎的な概念に絞って考えてみました。
自分自身、学生時代に微積分で「何がしたいのか?」「何ができるのか?」という点でとても苦労しており、距離、時間、速度という小学生で習う概念でようやく馴染めました。
社会人になってから統計学を勉強しだしたとき、久々に微積分に出会って「あのままだったら間違いなく今躓いていたな」と思います。
微積分に苦手意識のある人の少しでも一助になれば幸いです。
ここまでお読みいただき、ありがとうございました!
この記事が少しでも参考になりましたら「スキ」を押していただけると幸いです!
株式会社分析屋について
弊社が作成を行いました分析レポートを、鎌倉市観光協会様HPに掲載いただきました。
ホームページはこちら。
noteでの会社紹介記事はこちら。
【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。