「データエンジニアリング」を始めよう
次の二つのケースについて書きます。
・自社のデータをエンジニアリングしたい
・データエンジニアリングビジネスを始めたい
ケース1 自社のデータをエンジニアリングしたい
【課題】
データがいろんなところに散らかっていて、まとまっていない。以前、データウェアハウスを作ってみたけれど、全然使われていない。データは沢山あるので有効活用したいのだが、やり方が分からない。エビデンスベースで業務を進めたいのに、指標の作り方が独特で難しい。
【対策】
まず「データエンジニアリング」です。データを一カ所に集めて、使えるようにしましょう。集める場所はクラウドが好都合です。クラウドですと、いくらでもストレージやテーブルをアドホックに増やせますし、スモールスタートも容易です。昨今はセキュリティもオンプレより堅いです。
このとき、最も重要なポイントは、「必ずデータエンジニアをつけること」です。専任だと望ましい。データエンジニアリングの最も難しいところで、かつ、最も価値のあるところは「名寄せ」、つまり、複数のデータを渡って、データとデータの間をつなげる所です。今まで交わっていなかったデータが交わるからこそ、そこに価値が生まれます。ですから、データエンジニアはそこに集まる全てのデータを理解していなければなりません。一部署のデータを知っていてるだけでは繋げられないんです。データたちがどうやったら繋がるのか、繋げていいのか、新しい何を持ってくれば繋がるのかを考えたら、それが価値になります。
データエンジニアを社内から選任することができない場合は、できる人を外部から連れてきますが、その場合は自社からも将来のデータエンジニア候補を横につけて、データエンジニアリングを学ばせるのが理想です。
【将来】
自社内に「データエンジニアリングチーム」を持ってください。自社内の全てのデータがそこに集まるようにして、全ての課題がデータの裏付けを持って意思決定されるようにしてください。経営会議の資料に掲載される全ての表やグラフは、付属のSQLを叩けばいつでも追試できるようにしてください。
なお、いくらすばらしいデータエンジニアリングができて、エビデンスベースで経営を進められるようになったと言っても、データは所詮過去です。しかし、経営者、意思決定者には、未来を語らなければなりません。データエンジニアリングというエビデンスの上に立って、想像の翼を広げましょう。それが意思決定者の仕事です。
ケース2 データエンジニアリングビジネスを始めたい
【課題】
多くのお客様からデータ分析の依頼が来るのだが、データサイエンティストが不足していて対応できない。データサイエンティストを採用しようにも、統計数理をできる人材がいない。機械学習やAIをできる人材もいない。
【対策】
よく言われることですが、データサイエンティストの行うデータ分析作業のほとんどは、データ整備に費やされます。その割合は8割~9割とも言われており、一見派手に見えるデータサイエンティストの仕事は、実は日夜非常に地味な作業の積み重ねでできています。
そこで、データエンジニアはそんなデータサイエンティストが行っている「8割」のデータ整備作業を肩代わりします。
実は、データ分析の仕事自体が、このデータ整備の仕事で終わってしまうこともよくあります。「目的に応じて整理されたデータ」さえできてしまえば、実はあとどんな分析をしても、同じような結果が出ます。なぜなら、データ分析の手法はほぼ全て同じ目的を持っており、いろんな名前のついた手法は、その目的に沿ってデータから情報を引き出す手段ですから、同じデータならば結果が似るのはあたりまえです。つまり、「データ整理」が終わった時点で、データ分析自体もほぼ終わっていることが多いです。
これを、「データエンジニアリング」と呼びましょう。「目的に応じて」「適切に」「データを加工する」ことが、データエンジニアの仕事です。
そんなデータエンジニアに必要なスキルは、データサイエンティストのスキル+データを取り回すエンジニアリング力-高度な統計数理、です。データエンジニアのスキルに、高度な統計数理は必要ありません。というより、高度な統計数理を課しているから人材不足なのです。しかし、実際に求められているのは実は高度な統計数理ではなく、データを理解する力、その背景には、ビジネスをよく知ること、ヒト、モノ、カネの動きを想像できること、そして、それらのデータを思うとおりに加工できること、そういうスキルです。ですから、データエンジニアの育成は、統計数理も多少知っておいた方がいいですが、まずはそれよりも「データの理解」「ビジネスの理解」と、これを素早く加工する「情報技術」です。
このような人材は、もしかしたら数理や情報工学の勉強をしてきた人よりも、経済や経営、人文社会、心理などを勉強してきた人の方が強いかもしれません。そのデータがどのようにして生まれ、どう使われるのか、どう使いたいのか、そういう所を、お客さんの立場に立って想像できる人が、データエンジニアに向いています。
【将来】
データエンジニアは、サービス業です。機械やソフトウェアで代替できるものではありません。なぜなら、お客様の課題は毎回変わり、常に進化し、新しい問題が次々と出てくるからです。そういう課題に対応して、その課題を解決できるデータを作る仕事なわけですから、定型作業に置き換わるものではありません。常にデータに寄り添い、新しいデータを理解し、データの変化に気づくこと。データエンジニアリングというサービスを、データエンジニアは販売しています。
将来は、全ての事業者が自社内にデータエンジニアチームを配備することになるでしょう。ですから、データエンジニアリングサービス事業者はそのアウトソース先であり、また、コンサルティングも含め、お客様が自社内にチームを立ち上げるお手伝いをするような導入支援をやってもいいと思います。事業者内では抽象化した上でノウハウの共有、ケーススタディなど、サービス品質向上のために情報共有されることが望ましいです。
また、データエンジニア自身は、データエンジニアリングサービスを極め、その中でスキル向上し、将来はマネジメント側に回るというキャリアパスはもとより、高度な統計数理を身につけてデータサイエンティストを目指したり、ビジネス側に振って、数字に強い経営コンサルタントになったりする道もあると思います。
おわりに
データエンジニアリングビジネスはまだまだ市場に出回っていませんで、相変わらずデータサイエンティストが逼迫し、信じられない価格で取引されていたりします。それではお互い不幸。もっとデータエンジニアを育成し、できる人を増やして、大きな市場を作っていきたいし、それが社会の役に立ちます。そのためには、私や私の関連する会社だけでこのビジネスを囲い込んでいてはダメだと思い、このnoteもそういうモチベーションで始めました。一緒に、この市場を作っていければ面白いですね。