見出し画像

データサイエンティストの頭の中 vol.12~データの集計可視化の重要性について~

今回はデータ分析の部分がメインで、機械学習や予測モデルを作っていく前段階にあたるデータの集計可視化についてインタビューをしました。
結構ここの重要性の理解があまり出来ていない方が多いのかなと思ったので解説してもらいました。
データサイエンスを勉強するときにどうしても、機械学習やAIとかそっちを勉強したくなるのですが、実際大事なのはこのデータ分析の集計可視化の部分とのことで、これからデータサイエンティストになりたい人は必見です!

より詳しい部分は動画で話しているので是非見て聞いてください!

1 集計可視化とは何か

集計可視化という単語だけだと2つのパターンがあるらしいです。
まず、

顧客や自社のデータを初めて見るときに把握するためにする集計可視化

もう一つが、とても重要な

データの特徴量(説明変数)を把握するための集計可視化

です。
機械学習の前や予測モデルを作っていく前に行なうめちゃめちゃ重要なものになります。この精度を上げるだけでもデータ分析ができるようになるし、顧客の要望や自社の要望は機械学習をしなくても解決できる可能性はあるので、その判断もこの部分が担っています。
どういうデータがあって何のデータと何のデータが相関関係にあるのか、とか、まあ色々見るべきポイントはあるとのことです。

2 重要性と勘違いしやすいところ

データサイエンティストから見てもこのデータの集計可視化の部分や特徴量把握の部分は非常に重要とのことで、このクオリティで全てが決まると言っても過言ではないくらい、らしい。。。
何故なら「いくら優秀な機械学習アルゴリズムを用いてもその使っているデータや特徴量が糞だと全く持って意味が無いから」とのこと。
データサイエンティストになりたい、データドリブンな人材を目指すのであればこの集計可視化の力は必ず身に着けておくべきとのことです!!

仕事の中でも基礎集計1割(データの把握)、データの集計可視化(&特徴量把握)7割程度、機械学習(予測モデル等)2割程度となるためいかに重要かわかるかと思います!

機械学習は赤ちゃんにモノを覚えさせたりすることに例えられるのですが、しっかりしたデータや内容でないとモノを覚えるときとかに、どんなに良い覚えさせ方をしてもそもそものデータや内容が間違っていたら、そりゃ間違って覚えてしまいますよね、って話と同じなのかなと。。。
(※間違ってたらすみません)

3 どう勉強していけば良いか

じゃあそんな大事なものをどう勉強していけば良いのか、という話。
本とかプログラミングスクールでも機械学習の部分を勉強するものの方が圧倒的に多いと感じています。機械学習だけやって出来た気になっていても何も実務では生きてこないとすると、どうすれば良いのか、、、

Yuji曰く、これといった勉強法があるわけでなく、「Kaggleのnotebookとかを使って勉強していた」、とのこと。
※Kaggleについては別記事

あとはやはりわかる人と一緒に勉強したり、実際のデータをいじれる環境でないと意味がないので、より実務によったものでないと勉強できないらしいです。。。
特になし、で終わるのは癪なのですが、我々の見解ではKaggleでやる、という答えになってます!
もし他にもあれば教えてください!!(笑)

機械学習エンジニアやディープラーニングの領域に進むのであれば機械学習周りだけでもOKかもしれませんが、データサイエンティストになるということを考えるのであればプログラミングスクールとかで機械学習や予測モデルとかをやってもあまり意味がないと思ってます。もちろんそこだけを勉強したいという方にはめっちゃ良いと思いますが、「データサイエンティスト」ということで考えると圧倒的に足りないかなと思います。


■■■「データサイエンティスト」と「データサイエンティストになりたい人」、「データサイエンスを勉強したい人」のためのオンラインサロン
を開設しました!!■■■


この記事が気に入ったらサポートをしてみませんか?