統計初心者ド文系が「データ分析」と言われて最初にやったこと
はじめに
どうも、こんにちは。今日も今日とて、過去の自分のような方のために、投壜通信を試みるものです。
ある日突然、「You、データ分析やっちゃいなよ☆」と言われてしまった不幸なあなた。しかし、もともとの専攻はドのつく文系である。さて、どうする。
なぜnoteに?
だって、「…データとは」ってなってる人は、そもそもQiita見ないじゃないですか。
前提
・数学は中学生から苦手です
・社内で分析をパスできる人が(半径50mくらいに)いません
・とりあえず手元にPCがあります
やったことその1
私が最初に手を付けたのは、gaccoでした。
gaccoは、ピンからキリまでの多様なレベルのオンライン授業が集まるサイトで、NTTドコモgaccoという会社が運営しているサービスです。
時節柄、ほんとたまたまですが、のぞいてみると退屈しないコンテンツが待っているのでオススメ。
当時まだ始まったばかりだったのですが、まず「社会人のためのデータサイエンス入門」を受講し、その後続けて「社会人のためのデータサイエンス演習」を受講しました。
(※「演習」の方は終了していますが、また新学期的なアレで始まると思います。)
ゆとり教育で、統計的な部分が義務教育から抹消されていた世代なので、初めて出会うものばかりでしたが、ついていけた。助かりました。
気をつけたこと
1:必ずテキストを冊子で取り寄せました。必要な資料はダウンロードして参照できるようにはなっているのですが、どう考えても冊子のほうが使い勝手がよかった。
2:履修仲間を作りました。職場で仲が良かった人を巻き込んで、同じ講座を受講しました。LINEでグループを作り、そこで質問したり、参考になるリンクを貼ったりして刺激しあいましたね。多分Slackだと見ない。
3:分からない言葉はググり倒す。これはどんなことでも必須ですね。
やったことその2
続けてgaccoで「統計学Ⅰ」→「統計学Ⅱ」と受講しました。こちらの講座は、先ほど紹介した「入門」「演習」コンビよりもやや難しく、統計検定で言うと3級と準2級の中間くらいの難易度だそうです(うろ覚え)。
gaccoの授業は毎週更新的なノリでありますが、明らかに1週間あたりの学習量が増えました。内容がぐっと難しく感じる…。
「統計学Ⅰ」では対面授業も受けましたが、その場でRを(R Studioで)触ってみるという授業でした。言われたとおりに書くと望みのグラフが出てくれる、「Rすげー」と単純に感動していました(が、Rは結局続けなかった)。
補助的にやったこと
副読本として、小島寛之『完全独習 統計学入門』を召喚。問題演習に使いました。
あとは、習ったことのおさらいのために、講座終了後、中西達夫『悩めるみんなの統計学入門』を読みました。
さらに、勉強仲間の中にコミュ力のお化けがいたので、本職データサイエンティストをゲストとしてお招きし、ミニ勉強会を開くという、ぜいたくな試みも行われました。単純に楽しかった。
結果
ひとりでデータ分析ができるわけではないけれど、なんとなく言葉に反応できるようになったり、自分で簡単にデータをこねくり回すときには役に立つくらいの知識がつきました。
「ここから先は絶壁だぜ!」感がハンパないので、まだまだ勉強中です。
余談:現在の学校教育における統計
副業として子どもたちに勉強を教えるなぞしていますが、ゆとり教育を脱した今、統計の基本的な事項は学校教育に取り込まれていっています。
中1で平均値と中央値の違いを学習したり、中3で母集団と標本の考え方を学習します(中2で確率とかやる)。
四分位や偏差値については数Ⅰでやりますが(今年のセンター試験でデカデカと出題されて受験生は阿鼻叫喚だったそうな)、どのタイミングでも「あ~年度末だし軽く触っとくか」くらいの扱いしかされていなくて不遇。
感想
オンライン授業は、脱落者が多いことで有名です。一緒に受講した仲間がマジで重要でした。感謝しかねえ。でも、gaccoは運営スキルの蓄積からなのか、とてもユーザーフレンドリーだし、脱落しにくいほうだと思いました(小並感)。
他のモチベーションとしては、具体的なデータをいかに触れるかになっていきますが、これら私が学習したものとkaggleではまだ距離があるような気がしていて、間を埋める何かが欲しいですね。
今は、KH Coderで文章(日本語)のデータをごちゃごちゃいじったりするのがマイブームです。もう1段上に行くためにも、Python勉強したりしています。
最後に
あんまりこういった初級な話をしている文章ってなかったので書きました。恥をさらすようで恐縮ですが、誰かの役に立つといいな。
ではまたどこかで。