データサイエンティスト
データサイエンティスト
機械学習やAIという言葉を最近よく目にしますね。
電車内の広告や、新聞、ネットの記事でも至る所でコンピューターによる仕事の自動化や効率化が語られています。
それらのテクノロジーを担っているのがデータサイエンティストです。
データサイエンティストは大きく分けて四つのスキルを持ち合わせています。
・Maths & Statistics Knowledge
・Programming & Database
・Domain Knowledge
・Communication & Visualisation
Maths & Statistics Knowledge(数学と統計学の知識)
機械学習(ニューラルネットワーク、サポートベクターマシーン等)や統計モデリングは数学と統計学がベースになっています。
どの手法も理論に基づき構成されているので、その理論を理解する為の基礎学力が必要となります。
理論を理解しないままデータからモデルを生成すると、誤ったアプローチから誤った予測や学習をさせてしまうことになります。
正しいデータに理論に裏付けされたアプローチ取る。
それがデータサイエンティストにおけるMaths & Statistics Knowledge(数学と統計学の知識)の知識です。
Programming & Database(プログラミングとデータべースの知識)
理論を理解したら次に必要なのが、その理論を活用するプラットフォームです。
データの解析、分析、機械学習にはRやPythonが主流ですが、企業によってはSASやSPSSを利用していたりもします。
更に、データをデータベースから直接引き出すことが多いので、SQL(Oracle等のRelational Database)やNoSQL(Apache SparkやHadoop、AWS等)の知識も求められることが一般的です。
ローカルマシンによるデータの解析にはRAMの制限があるため、最近はクラウド上で分析が盛んです。
MicrosoftのAzureやAWS、Google Cloudでデータを管理・保存、そこからクラウド上でモデリングをし、クラウド上にアウトプットをするプロセスが大手企業では一般的になっています。
Communication & Visualisation(コミュニケーションとデータの可視化)
次に大切なのがコミュニケーション。
データサイエンスを駆使し新たな発見や予測をしたとしても、それをしっかりと伝える術をもたなければ、結果に意味はありません。
ここで問題なのが、「オーディエンスは専門家ではない」ということ。
ほとんどのオーディエンスが気にしているのは、あくまでも結果であり過程ではありません。
従って、専門的な手法やそこから導き出された結果をどれだけ簡潔に、且つわかりやすく伝えるかはデータサイエンティストが頭を悩ませる部分でもあります。
そこで便利なのがデータの可視化。データの可視化も一つのスキルです。
このスキルをどれだけ備えているかによって、報告する内容のわかりやすさに差が出ます。
どれだけ素晴らしいことが書かれていようと、わかりにくい報告書には誰も目を通さないので注意が必要です。
Domain Knowledge(専門知識)
最後が専門知識です。
データサイエンスは応用性があるために、経済、教育、医療、政治等多くの分野で活用されています。各分野での知識の量が、新たな発見へと繋がる手がかりになることも多いので、統計的手法や機械学習以外にも多岐に渡る知識を必要とされます。
データサイエンティスト
これらの知識とスキルを兼ね備えているのがデータサイエンティストなのです。
ただ、全てが同じレベルで高い水準を満たせる人材はそれほど多くないのも現状です。