データエンジニアリングという仕事(その1)
最近、「データエンジニアリング」という仕事を作りました。
と言っても、昔からある仕事を整理、再定義して、名前をつけただけですが。しっくりくる名前がつくと、その仕事にも魂が宿るので、このネーミングは結構気に入っています。
データ分析の仕事をもう20年弱ほどやっていまして、いわゆる巷で言われるところのデータサイエンティストな訳ですけれども、こっちのネーミングはあまり気に入っていません。サイエンティストとは科学者ですから、なにやら高いハードルがあって、それを乗り越える天才が、暗い地下室に閉じこもって夜な夜な緑色の画面と向き合っている感じがして、いやそれは仕事じゃないよねと。そうではなくて、今世の中に求められているのは科学ではなくて、いや、科学である部分を担う人も少数は必要ですけれども、それよりは、データを分析する知識や経験をビジネスに活かすことのできる人が必要で、この仕事ってそういう期待を背負っているのではないか。だとしたら、ネーミングがちょっと変だ。なので自分はデータ分析の「コンサルタント」だと思っていて、データ分析のノウハウを持っていて、それを使ってビジネスのお手伝いをすると。「データ分析コンサルタント」というネーミングの方が自分の実態と合っていると思って、使っています。
さて、そんなデータ分析コンサルティングの仕事を長い間やってきて、ずっと思っていたこと、そして、最近ひっくり返ったことがありました。
データ分析に必要なものは三つ、①数理統計、②情報処理技術、③ビジネスマインド、です。これらのどれが欠けてもデータ分析ができない。だから、大学や大学院で数学、統計学、物理学の基礎をしっかり学んできて、計算機利用についての知識と経験を積んで、なおかつビジネスの現場をよく知り、想像力を羽ばたかせることのできる人でないと、まともなデータ分析などできない。そう思っていたのですが、これをひっくり返したのが昨今進化の激しいビッグデータとクラウドコンピューティング、そしてオープンソースソフトウェアです。
①の数理統計がなぜデータ分析に必要か。まず統計学は、観測されたデータが全体の中でどのような意味を持つかを考える学問です。例えば、最近話題の「平均年収」ですが、全体でN社ある企業のうち何社の給与を調査してくれば、平均給与がわかるのか(そもそも給与の分布が、という議論は一旦置いておいて)、少ない観測値で全体を推し量ろうとするのが統計です。昔はデータの観測などそう簡単にできるものではありませんでしたから、この学問は非常に重要でした。また、数理についても、数理科学というのは、抽象化の学問ですから、データから推測されるシステムの挙動を抽象化して、そこからあり得べき姿を導き、あり得ない姿を排除して、真のシステムを想像するための基礎です。しかし、ビッグデータの時代とは、全てが観測済みの世界。平均給与を調査しようと思えば、企業をランダムに選んでヒアリングにいくのではなく、既にデータとして存在している「全員分の給与」というデータベースを持ってきて、それを計算すればよい。集計で十分です。
②の情報処理技術は、最近のクラウドコンピューティングとオープンソースソフトウェアのおかげで、非常に高度な作業をボタン一つでできるようにしてくれました。クラウド上には、20年前には考えられない超巨大なデータを扱うことができる(しかも激安で!)データベースがありますし、昔は一つ一つ論文を読みながら手作りしていた「なんとか分析」のソフトウェアが、今はネットのいろんなところに置いてあって、ほぼ自由に使える。ニューラルネットワークの仕組みを知らなくても、もってきてつなげば使える。巨大なデータセンターを作らなくても、クレジットカードさえあればいくらでも巨大なコンピューターシステムを利用できる。15年前に、ニューラルネットワークを使った予測システムを作るために、Pentium 4のマシンを30台並べて計算させようとしたら、3ヶ月設置で300万円かかりました。しかも、構想から実際に使えるようになるまでに半年もかかった。でも、今はコンソールでちょちょいと選んで、ボタンを押したら数分で使えるようになります。また、使い終わったら消せばいいので、支払額もごくわずか。さらには、ニューラルネットワークのソフトウェアも当時はC++で自作したのですが、今は素晴らしく高性能なパッケージがたくさんあって、すぐに使えます。このように、データ分析における計算環境はこの10〜20年で劇的に変化しました。
ところが、③だけはなにも変わっていません。新しいビジネスが生まれたり、消えていった仕事があったり、例えばインターネットビジネスの隆盛など、仕事自体は大きく変化しているのですが、その中で動いているのは所詮人間で、人間はそう簡単には変わりません。商売の内容は変わっても、商売における視点、何を作って売るか、お客さんにどんな感情を持ってもらうか、どういう人に届けるか、そういうビジネスマインドの創造性みたいな部分は全く変わっていません。
そうすると、従来データ分析という仕事は数理統計や情報処理に特に秀でた人だけができた仕事であったのが、現在ではそうでもなくなってきました。ビジネスマインドがあって、データ分析の基本的なところを押さえ、ツールを使いこなせるようになれば、立派に「データ分析」ができるようになります。(補足すると、そもそも「データ分析」という名前でこれまでなされてきた仕事の多くは、今の①②の底上げによって、分析と言うほどの作業でなくなってしまったり、そもそも分析でもなかったりしたことが背景にあります。もちろん今でも、その上により高度な数理統計的、もしくはより高度な情報処理が必要なものはありますが、それらはニーズの中のごく一部です。)
そして、この仕事になにかしっくりくるネーミングを考えたところ、「データエンジニアリング」という名が最も体を表すと思いまして、それからこう呼んでいます。
さて、ではこの「データエンジニアリング」という仕事、これは実際何をする仕事なのか、どのようなスキルや経験値が必要なのか、というところは次稿で。