データ分析関連の領域論を考える
はじめに
データサイエンティストとは?問題について、各所で議論が繰り広げられているかと思います。例えばこちら。
と同時に、「データサイエンティストになる、成長するために取り組むべきこと」論争に対する議論も各所で起こっています。
最近のもので私が注目したのは
このような議論に対して、よりよい見通しを与えてくれると感じた本を引用して思考してみたいと思います。
前提
まず、これから展開される議論で想定される「データサイエンティスト」について定義をしておきます。かのTJOさんは「データサイエンティスト」の分類について、
データサイエンティスト(アナリストの延長)
機械学習エンジニア(ソフトウェアエンジニアの延長)
データアーキテクト(DBエンジニアの延長)
と提唱されていますが、本記事ではこのうちの「データサイエンティスト(アナリストの延長)」を想定しています。
データ分析の「段階論」を導入してみる
まず、「データサイエンティストになる」ことは「データを使ってビジネス的な価値を引き出す」ことが求められるので、これを念頭に置きたいと思います。
その上で「データサイエンティストになるために取り組むべきこと」の見通しとして、今回以下の本を引用して整理してみます。
本書では、「データ活用による価値創造」を次の3段階に分類しています。
記述的段階
予測的段階
処方的段階
上記でいうと、「データ可視化」のような話は、現状を解釈しネクストアクションにつなげる「記述的段階」に、さらにkaggleで培われる技術は主に「予測的段階」に対応させることができるでしょう。本書では、3つ目の「処方的段階」、すなわち「最適なアクションを探ることで、意思決定の質を上げる」ことへのフォーカスの必要性が述べられています。そうした時に、「記述的段階」は「最適なアクションの選択肢を検討する土台」として重要性を持ちますが、さらに一歩進んだ「最適なアクション」による価値創出が必要になってきます。
「予測」は最適なアクションへの見通しを良くしうるものですが、本書の言葉を借りれば「意思決定プロセスのインプットにすぎない」ということになります。
まとめ: 視点を変えれば正義が変わる
本書では、「処方的段階への探究は現状最もなされていない」と言われています。
一方で、その手前のそれぞれの段階でなされるアウトプットそれ自体が実務で価値として提供されうることも事実かと思います。
今回散々引用させていただいているTJOさんの上記の記事にもある通り、問題によっては「単純な集計や可視化で十分な価値になる」場面もあるでしょう。
身も蓋もないかもしれませんが、ビジネス上の問題設定によってデータ分析が出せる価値は様々なため、「データサイエンティスト」は自分が取り組んでいる(取り組むべき)問題を解決できる視点に対して深掘りする必要があるように感じました。
その上で今回紹介したデータ分析の「段階」論は一つの視点を提供してくれるのではないでしょうか。
身も蓋もないですが、目指すべき「データサイエンティスト」像を自分なりに明確にしてそこに到達できるインプットをしていくしかありませんね...(戒め)