見出し画像

データサイエンス入門③【学問編】

どうもこんにちは!こーしです(@mimikousi

本noteでは、ブログ(雷電風雨のエンジニア)には書いていない勉強の軌跡(というより試行錯誤)を残していきたいと思います。


前回は、「Pythonを使って何がしたいのか」について考えてきました。

【仕事】
・製造データの見えるかツール作成
・品質予測(ソフトセンサー)の作成

【プライベート】
・ブログの検索順位チェックツール作成
・Twitter分析

仕事関係では、「どんな分析手法を使ったら良いか」が理解できていないと分析しようがないため、データサイエンスを学ぶ必要があります。

そこで、データサイエンティストになるためには、どんなスキルが必要なのかを調べました。

結論を先に書くと、「まず統計学から勉強をはじめよう」と思いました。

統計検定を2級→準1級→1級を順に取っていきつつ、平行してPythonによる実務能力を身につけていこうと思います。

【参考図書】


画像1

(出典:一般社団法人 データサイエンティスト協会)

上記の参考書と、データサイエンティスト協会の記事から、データサイエンティストに必要なスキルは、下記の3つに分類できます。

①ビジネス力
ビジネス上の課題を見極め、解決する力

②データサイエンス力
情報処理、機械学習や深層学習などの人工知能、統計学を理解して使う力

③データエンジニアリング力
データサイエンスを意味ある形に使えるようにし、実装、運用する力


素人なりに、簡単に解釈してみると、

①ビジネス力
ビジネス力が重要というのは、データサイエンスはあくまで目的ではなく手段であるということだと思います。

いくらデータ解析が天才的にできても、「どんなデータを使って、どのような課題を解決したいのか」がわからないとビジネスになりません。

②データサイエンス力
数学(確率、線形代数、微分積分)や統計学、機械学習、深層学習の理論を理解する必要があります。

Pythonなら機械学習のライブラリが豊富にあるため、理論がわからなくても実装しようと思えばできてしまいます。

しかし、運用する際は、モデルの評価やチューニングを行う必要があり、理論を理解していないといけません。

また、化学メーカーのプロセスエンジニアである私としては、データ解析は専門家に任せることができるため、最悪、理論だけ理解できれば良いのかもしれません。

③データエンジニアリング力
システムエンジニアであればハードル低いかもしれませんが、私には非常にハードルが高いです。(全く別分野な感じ)

データを使える(分析できる)形にするためのインフラを整える必要があります。ネットワークやサーバー、セキュリティ、データベースなど必要となる知識は膨大です。

そして、データを分析できる形に前処理(外れ値の除去や質的データを量的データに変換など)し、分析します。ここで、必要になるのが、PythonやRのプログラミングスキルです。

高度な分析をするには、機械学習のライブラリにも精通する必要があります。


これらの情報を踏まえると、①ビジネス力は普段の業務がまさに該当しますし、③データエンジニアリング力は社内の優秀なシステムエンジニアにお願いするとして、まずは②データサイエンス力に注力した方が良いと考えました。

よって、②データサイエンス力を身につけるため、「統計学」の勉強を開始しました。

数学(確率、線形代数、微分積分)は、大学ですでに習っているので、必要になったらその都度復習する形にしたいと思います。

次回は、統計学の勉強ロードマップについて書いていきたいと思います。



いいなと思ったら応援しよう!