データエンジニアリングとは
これまで様々なところで話してきたデータエンジニア、データエンジニアリングに関する弊社(ゴーガ解析コンサルティング)の知見を、ざっくりまとめて置いておく。
データエンジニアリングとは
データエンジニアリングとは
データ利活用を推進すること
データ利活用
既に使えているものは、データ利活用とは言わない
データと目的とが繋がり、運用されているなど
これはシステムエンジニアリングの担当
データ利活用とは
使えていないデータの使い道をつくること
目的のためのデータを集め、または作ること
データエンジニアの仕事
データ利活用のために何でもやるのが「データエンジニア」
データ利活用のために
「使えていないデータ」を使おうとする
固まっていない「目的」、データと繋がっていないアドホックな問いに応える
スピードが重要な要素
時間を掛けて確実な成功を指向するのではなく、PoCを高速に回す方に価値を置く
うまくいったらシステム化
そこから先はSEの仕事
データエンジニアと不確実性
できないことをできるようにするのがミッションなので、常に不確実性がある。
不確実性のリスクを最小化するのではなく、リスク込みで全体最適化を目指す。
不確実性下でのリスクコントロールには、なによりも経験知が重要。
関係各所とのコミュニケーション
データ自体への知見、想像力
データエンジニアの部署が必要
不確実性を織り込んだ評価ができないと、データエンジニアは活かせない。情シスとは評価軸が異なる。
AIとデータエンジニア
2023~ 高性能なAIの登場
「データ分析」は将来的にはAIの仕事になる。
これらの多くは、過去の膨大な蓄積の中から課題に合った手法を探し出し、当てはめる仕事。
希に驚くべき仕事も存在するが、ほとんどの場合にそういったものは求められていない。
形式知化されたストックの中から探索してマッチングするのは、AIが得意な分野。
AIにできないことは?
データになっていないものは知りようがない
データが乏しい
観測されていない
ローカルな事象には比較的対応しにくい
あくまでも、「一般的にはどうか」を答えてくれるのがAI
データエンジニアとAIはパートナー
データエンジニアはローカル、AIは知識を担当する
AIが知り得ないことを知る、集める。
AIに目的とローカルなデータのことを伝え、膨大な知識の上で分析させる。
結果の解釈についてAIと対話する。