メモ:データサイエンティストとデータエンジニアの違い
データエンジニアは、過去から現在を正確に切り取る人。それを正確に伝える人。
データサイエンティストは、その上で未来を語る人。
データエンジニアの「正確さ」には、データ自体の取り扱いの正確さはもとより、統計的正確さや確率的正確さなども含まれる。いわゆる「データ分析」と呼ばれているほとんどのことが、実はこれで、つまり、データサイエンティストが行っているほとんどの作業が、実はデータエンジニアリング。で、最後の一振り、すべての結果を見通して、その上で未来を語る最後の数行が、実はデータサイエンティストがデータサイエンティストであるための仕事。
このノートで、なぜ自分がここまで「データエンジニア」と「データサイエンティスト」の違いについてこだわるかと言えば、適切な分業をしたいからです。これらすべての仕事は、これまではデータサイエンティストが一手に引き受けてきたわけだけれども、その仕事はあまりにも職人的で、数学的・統計学的に高度な教育を受け、または経験を積んできた人でないとできない、と思わせてないか。実は、適切な分業体制を敷くことで、ほとんどの課題はもっと効率的に解決できるんじゃないか。
もちろん、そんな人がたくさんいて、仕事がうまく回っていればそれでもよいんですけれども、実際にはそうじゃない。単価がえらい高い人を数ヶ月押さえて仕事をしないと終わらないけれど、そんなコストをかけられない現場もたくさんあって、もっと軽く、効果的にデータを扱いたい。だから、うまく分業して、これまでデータサイエンティストが苦労して行ってきた作業の8割〜9割をデータエンジニアが担うことができれば、そして、データエンジニアをデータサイエンティストの10倍ほど養成できれば、いろいろ解決する。