データ分析(0) 基礎的なこと
こんにちは。この記事では学校で学んだことについて整理するために書いています。
といっても自分が大事だと思ったことを書いているだけです。教科書のように丁寧に書いているわけではないのであしからず。また, 間違っているところなどあったら遠慮なくいってください。
データ科学とは
データを入力として何らかの意思決定の出力をプロセスを数理的に扱う学問。
(例)
来週のアイスの仕入れ量を決めたい。多すぎても少なすぎてもダメ。先週の売り上げと気温のデータから仕入れ量を予想したい。
(入力データ) 気温, 先週の売り上げ
(意思決定) 仕入れ量
データの種類
量的データ 物の量を数字で表したデータ
(例) 気温、身長など
質的データ 数字など使わずに表したデータ
(例) 男性か女性
要約
数多あるデータを意思決定しやすいように要約する。この要約を学校で主に学んだ。
視覚的要約 ・・ヒストグラム、散布図など
(データの分布が一目でわかる)
数値的要約 ・・平均値、 中央値、 分散など
母集団と標本と推定と
母集団・・データの背後にいるすべての集団
標本・・実際にデータを集めた集団
例えば、各政党の支持率を調べたいとする。調査対象はもちろん全国の有権者である。しかし、全員の意見を聞くのは現実には不可能である。そのため、実際には数千人のデータを集めている。ここでは母集団は全有権者、標本は実際にデータを取られた人であると言える。
この標本から母集団の情報を求めることを推定と言う。
今回はこの程度にします。次回からは様々な要約法などまとめていきたいと思います。
おまけ(個人の考えです)
現在(2020/12/15)、gotoトラベルが一時的に全国中止となった。背景にはコロナウイルスの感染者が急増したことがある。gotoの影響であると様々なメディアが声高に叫び続けていた。だが実際にはどうなのだろうか?
gotoは7月ごろから始まった。夏ごろの感染者は増加していたかと言うとそうでもない。夏ごろから秋と言えばメディアはgoto-eatの悪質な利用法や米大統領選を報じておりコロナウイルスは忘れたかのようであった。
冬になって感染者は急増したが、なぜそれがgotoの影響と言えるのか。他の要因を考えるのが適切ではないのか。
例えば、夏と冬のアイスの売り上げを比べて冬の方が少ないのはgotoのせいだとは言えないのは容易に想像できるだろう。
適切な場面で適切なデータを選ぶことが大事なのである。逆を言えば、偏ってデータを選べば自分の好きなように結論を変えられるのである。数字は嘘をつかないが噓つきは数字を使うのである。
個人的には冬になって気温が低下したことが最も大きな要因であると考える。寒ければ換気はしないし、手洗いの回数も減ってしまう。もちろん、絶対にgotoが影響がないのかと言われればそんなことはないと思う。しかし、中止するほどかと言われればそんなことではないと思うしメディアも偏向報道が過ぎるのではないのかと思う。