統計学知らないと勿体ない!!
訪問していただいた皆さまありがとうございます!
明けましておめでとうございます!🎍
皆さま年末はいかがお過ごしだったでしょうか?
私はお酒に呑まれる年末でしたが今までで一番楽しい年末を過ごしました。
まだまだ新型コロナウイルスも流行しているので皆さまも体調にはお気を付けください。
一日も早いコロナウイルスの収束を祈っています。
2021年がお互いにとってますますよい一年になりますように。
今回はタイトル通り「統計学」について執筆していこうと思います。
タイトル別に分けて複数記事を投稿する予定です!
今回は統計学とは?の入りの部分を執筆させていただきます。
実を言うとアーニーMLGに入るまで統計学という言葉をほとんど聞いたことがなかったんです・・・。
そんな私が統計学を勉強して自分なりにまとめてみることにしました!
いつも通り温かい目でよろしくお願いします!笑
それでは見ていきましょう。
初めに以下はご存じでしたか?(私はもちろん知りませんでした)
「データ」と「情報」は意味が違う
データ=情報だと誤認識していました。
データ・・・事実を記録したもの
(例)
今日はチョコが130個売れた
今日の天気は晴れだった
情報・・・データに意味づけ、評価を加えたもの
(例)
・バレンタインデーの日にはチョコの売上が20%上昇する
・晴れの日は客数が〇〇%上昇する
データは記録されたものでただ集めただけでは意味を持たないがデータから情報として得ることができるということです。
データの数を数えたり、平均や傾向を見たりと手を加えることによって初めてデータの性質や特徴・傾向の意味を知る、情報が分かるようになります。
行事やイベントごとの多い日本では、バレンタインデーにはチョコ、クリスマスにはケーキ、節分の日には豆などが食べられるためその時期には商品が多く売れると思います。そんな繁忙期もデータさえあれば情報にでき、売上の増加率や仕入れ対策もできるようになるわけですね。
ただデータといっても様々なデータが存在します。
データでも情報にできるものとできないものがあるので、データの種類を見てみましょう。
データの種類
データは大きく二つに分けられますが基本は四つに分類されます。
・質的データ
分類や種類を区別するためにつけられた数字で、そのままでは数字であらわすことのできないデータ
足し算、引き算、掛け算、割り算の四則計算ができない
①名義尺度
単に分類するための名称としているだけで間隔や順位にも意味がない
例:ユニフォーム背番号、会員番号、電話番号、性別
②順序尺度
分類の順序に意味があるが、間隔には意味がない数値
例:マラソンやテストの順位、人気順位
・量的データ
数値として意味があり、直接数字ではかることができるデータ
足し算、引き算、掛け算、割り算の四則計算ができる
③間隔尺度
数値の間隔に意味があるもの
例:時刻、温度、テストの点数、年齢
④比率尺度
原点が設定されていて、間隔にも比率にも意味があるもの
例:身長、体重、速度、金額
情報にできないデータとされている質的データの順序尺度を見ると、分類の順序に意味があるが間隔には意味がない数値とされています。簡単にいうと大小関係に意味はあるが値同士の差には意味がない。
少しややこしいのですが、例えばある漫画のキャラクター人気順位を調査し1位は4000票、2位は1500票、3位は1450票、4位は1300票だったとします。
分類の順序に意味があるとは1位、2位、3位...の順位のことで1位は2位よりも上位であるということ。
間隔には意味がないとは1位と2位の間隔は2位と3位の間隔と同じとは言えず、2位と4位で二倍とも言えないということです。
データでも情報にできるものとできないものがあることが分かりました。
では、ここからが本題です。
統計学とは
Wikipediaさんによると統計学は
経験的に得られた不統一な与件から、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす
引用:Wikipedia
自分なりに、統計学とは?を簡単にしてみると
データの特徴を把握、予測・推測するための最適な使い方を学ぶこと
ある程度のデータには必ずバラツキがあります。
チョコの売れた個数がずっと同じであれば、増加や減少、平均を出す必要もなく仕入れ等も楽ですね。しかし世の中そうはいかないもので、売れる個数はばらばら、先程も言ったようにバレンタインデーなどのイベント時には2倍近くの個数は売れると思います。他にもテストの点数、天気や温度も季節・地域によって大きく異なると思います。
そのため特徴や変化を把握したり、予測・推測をするときに統計学を活用します。
統計学も大きく分けて、記述統計と推測統計に分けられます。
記述統計
データから表やグラフを作り、平均や傾向を見ることでデータの特徴を把握する
※母集団・・・元になっている集団(データ)
※標本・・・データから一部抜き取ったサンプル
推測統計
母集団からサンプルを抜き取り、そのサンプルの特性から母集団の特性を推測する
二つを簡単にまとめると
記述統計・・・データの傾向や性質を把握し可視化
推測統計・・・抜き取った標本から母集団の性質や未来のデータを予測・推測
ここまでご覧いただいて、統計学を活用することがありましたか?
今まで統計学を知らずに生活できていたし別に必要ないかも?と思っちゃいませんか?
統計学を活用していた!?
実は私、データ分析をすることがある仕事の方だけが統計学を使うものだと思っていたんですが、知らず知らずのうちに普段の生活の中で記述統計を活用して統計的に見ていました。
以下の画像は私の実際の家計簿から出した水道代とガス代のグラフです。
数字の羅列だけだといまいちぱっとしないので、見やすいように普段から家計簿を締めた際は1年間の料金を月ごとでグラフ化していました。
グラフから分かることがあります。
・ガス代の金額の幅が大きい
・ガス代と水道代は比例しない
・春、秋のガス代が高い
⇒夏は暑い、冬は寒くてキッチンに立たなかった
・水道代はほぼ一定だが冬場は少し上がる
⇒寒いので湯舟につかっている
数値をグラフ化し、グラフから分析する
これも統計学を活用し、統計的に見ていることになります。
私は手で書くことが好きで家計簿もアナログで作成していたのですが
紙で書いたはいいけどいまいちぱっとしない、把握できないと感じ、結局全てデジタルにしました。引っ越すたびにグラフも大きく変化するのでグラフ化するととても分かりやすいです。
統計学の必要性
統計学という言葉で専門的に捉えていましたが、日常的に得られるデータをグラフ化しデータ分析として見つめるだけでも十分統計学なんですね。
「データ」を見ただけでは理解できないことも「情報」としてまとめることでより分かりやすくなります。
私の家計簿のようにグラフで表現することによってただの数字の羅列に見通しをつけることができ、場合によってはグラフからでも十分な分析ができます。また、データがあれば未来のデータまで予測・推測できるなんてとても凄いことだと思います。
また詳しくは執筆予定の記事を見てもらえれば統計学が如何に必要か分かると思いますのでそちらの方でご覧いただければ幸いです。
皆さまも家計簿のデータがあるのであれば
統計学を活用して情報として見てみてください!🌸
!次回予告!
また詳しくは記述統計と推測統計について執筆します。
次回は記述統計についてmayugeさんが執筆予定なので皆さまお楽しみに!
画像引用:知れば知るほど楽しいお酒の話