データ整備の現場から見たその実態と限界

データ整備について勢いで書いてみた

この記事は、datatech-jp Advent Calendar 2024 の 12/17分になります。

「データ整備」についてなんとなく言われていることや夢物語についてはたまに個別に書いていたりする。最近だとこのあたり。

今回Advent Calendarに勢いでエントリーして何を書こうか悩んだ末、特定の話題を深堀するよりはもっと全般的な概要があってもいいかなと思い立った。

なお順番には意味がない。重要だから先頭にあるとかではない。

データ整備とは

最初に、「データ整備」と言っても人によって定義が違うので、最初に筆者の定義を書いておく。

  • 整理

  • 抽出

  • 品質管理

  • 記録

の4つの仕事の総称のことをだ。その内容や範囲の是非についてはさておき、今回の記事はこれを前提にしている。

詳しいことはデータ整備の基礎としてまとめているのでご興味あれば読んでいただきたい(が、ちょっと内容が古いところもあるので近々第2版を出したいと思っている)。

データ整備の実態と限界

データ整備に終わりはない

「データ整備が終わった」という言動は信じてはいけない。大抵の場合、特定のデータの整備のうち、その時点で手元にあるデータの整理が終わっただけだ。

新しいデータは常に流入する。まずきれいなデータにして既存のデータと合わせるための整理が必要になる。そうすれば品質管理やメタデータの記録も増える。まったく新しい流入がなくても定義が変われば影響範囲を調べて修正が必要になる。

トラブルも常に起きる。データ連携がされない、欠損や重複が起きる、勝手にスキーマが変更されてエラーになる、いつのまにかにスプレッドシートの列がずれてまったく違う数字になる、など挙げたらきりがない。

利用するサービスが変わればデータも変わり、ツールが変われば新しいツールに合わせてデータを使えるようにしなければならない。人が増えたり入れ替われば欲しいデータも変わるので抽出の仕事も続く。

つまり、データ整備の終わりとは、その会社の終わりを意味する。

データ整備をいくらやってもデータは民主化しない

SQLが書けたら分析ができるようになるのかへの回答は「できません」だ。ダッシュボードも抽出のアウトプットの1つなので、「ダッシュボードをいくら作っても民主化しない」といってもいい。

それに、「データの民主化」では足りなくて正しく使えるようにするためには教育と訓練が別に必要だ。材料と道具を渡せばみんなが正しく健康的な料理をするわけもなく、どんなにデータ整備をしたところで「データの民主化」=「みんながデータを正しく使って分析できるようになること」にはならない。

正しくなくともとにかくデータを使っているのを「データの民主化」と呼ぶならばできると言ってもいいが、それは一部に儲かる会社はあっても、社会全体にとってはマイナスだと思う。

データ整備をしなくてもデータを使うことはできる

整備していないとデータが欲しい時にとてつもない手間と時間が必要になるので必要な時に間に合わなくなる可能性が高くなる、というのは例外なく成立する話である。

しかし、データが「使えない」と「使えるが難しい」には決定的な違いがある。もし利用者から何も要求がないのであれば、どんなに汚く重いデータであっても整備する必要はないかもしれない。

整備しなければまったく使えないという発言は、実際の利用状況を把握しているのか疑った方がいい。

データを整備するより分析が先

どれぐらいの整備をするか、という意思決定のためにはいろいろなデータが必要だ(つまり、データ分析そのもの)。

  • どれぐらい重要なのか

  • いつまでに必要か

  • 処理するデータ量はどうか

  • 頻繁に使うかどうか

  • 効率化を求めるかどうか

ということはどれぐらいの整備が必要なのかは、分析が先にあってこそだ。整備を先にしたところでどのような分析に使うのか想定できなければ、整備側の自己満足に終わる。

分析で使うことの意識がなのに整備だけが先行すると、ツールであれこれ見られるようにして誰も使わない。

すでに整備の重要さを認識している人がマネジメントにいる場合に先行投資として行う場合は例外である。とはいえ、その場合でも野放しにするのではなく常に分析の需要に見合った供給を行っているかのチェックは必要だ。

また、分析で使われることが意識されていないせいだろうか、とにかく大量のテーブルとカラムが作れるからとあれこれ増やしてしてしまうのも散見される。

使いやすくするための整備なはずなのに、必要なデータが見つけられなくなってむしろ使いづらくしてしまうなんて本末転倒だ。

データ整備は調整とコミュニケーションが中心である

ツールやシステムは話題になりやすい。情報よりも具体的に何をしているかがつかみやすいのでアピールに使いやすいという面もあるだろう。

もちろん必要なことなのだが、どうもツールやシステムに偏っているように思える。データ整備という枠組みで考えるとその仕事は調整、コミュニケーション、ドキュメンテーションもある。むしろそちらの方が比重が高いことの方が多い。

(少なくとも当面は)AIでSQLの全ては書けない

最近はAI(あまり好きではない表現だが、わかりやすさ優先であえてこう書く)によるSQLの生成の話題が増えている。

ところがAIによって生成されているSQLは、多少ステップを踏んでいる場合もあるがそのほとんどが単純なクエリだ。それ以上に、対象になっているデータがとてもきれいな状態であることが前提になっている。

もし整備されていない生の状態からだとここまでうまくは書けないだろう。なぜなら用途はもちろんその状況における様々な文脈の理解が必要なので、テーブルにある情報だけでは足りないからだ。例えばある期間ではデータが部分的に欠損しているので他のテーブルから補間しなければならない、なんてことをAIが勝手に理解してくれる、という話はいまのところ聞かない。

もしcase文の細かい区分や絞り込み条件を全て指定する必要があったらAIが書いていると表現してもいいのかあやしい。つまり整備されていないデータに対してはいまのところAIによる自動化はできていないと言ってもいいだろう。

そのうちデータベース以外の場所にあるデータ、例えばコミュニケーションツールでのやりとりやストレージにある生データなどを全て読み込んで意図をくみ取とって整備しながらSQLを生成してくれるようにはなってくるとは思う。あとはそれがどこまでできるようになるかだ。

複数のおすすめ方法を提案してくる、ぐらいは想像がつくのだが、最終的に最初から意図した結果を出すような複雑なSQLを書いてくれるようなるのか、については筆者は懐疑的だ。

大量のデータからのパターンを抽出することが得意なAIにとって、特に初めて行う分析に対して個別の会社、データ、事情を汲み取って完全に自動化することは無理だと思うのだが、果たしてどうなるか。

AIはデータ整備を代替しない

データ整備はSQLを書くこと以外にも品質管理、メタデータの記録、目的から抽出要件の組み立て、定義の調整と決定など調整ごとやコミュニケーションが実に多い。

ということは、SQLだけでも完全自動化ができないなら、AIがデータ整備を代替する日は来ない。

完全には無理でも、直近だと〇割、しばらくしたら□割と部分的にはどんどん自動化されるだろうしそれは望ましいこと。しかし、すべてをAIが代替する日は来ないだろう。

「データ整備はいま手元にあるデータをきれいにすること」だけではない

データを「整備する」のは手元にあるデータを整理することと考えるのは間違いではないと思う。しかし、データ整備を「分析のためのデータを正確かつ迅速に提供するための準備」であると考えるならばそれだけではたりない。

きれいにすることはもちろんだが、入ってくるデータにも気を使う。おかしなデータが入ってこないようにするのが一番なので、その都度対応するのではなく仕組みを変えるように当者に要望を伝える。場合によってはそのための仕組みを作る事にも参加する。

与えられた状態から何とかする、という思考が身についている人が多いようだが、その意識が強いと本来であればもっと前の段階で行っておくべきだったことを行なわないことで発生する不利益を全て押し付けられる。

データ整備は内製化が難しい

ずっと前から思っていることではあるが、事情があってあまり言ってこなかった話。

データ整備の内製化が難しい理由はいろいろ考えられる。

  • データ整備そのものがわかりづらいので選ばれにくい

  • データ整備のスキルがポータブルなので流動性が高い

  • データ整備だけでは成り立たないので前後とのコミュニケーションが必要。特にアナリスト経験があった方がいいのだが、該当する人が少ない

  • 実務側にとっても雇用側にとってもキャリア形成への対応が難しい

全て内製化できる企業はごく限られるので、最初から社員がマネジメントして実務を外注で回す体制を前提に考えた方がよさそうだ。しかしそうなると誰がマネジメントできるのかや、何をどこまで外注するのかという別の問題がまた出てくる。

データ整備は分析に使われることが存在理由である

データ整備はやろう思えばいくらでもできる。

  • 誰も使わないダッシュボードの作成やデータの抽出

  • 整理しようとして作られた、似たような名前が大量にある使いづらいテーブル群

  • 壊れても大して困らないスプシのための過剰な品質管理

  • 滅多に使われないデータの詳細なメタデータ

これらは極端かもしれないが、共通しているのは「分析で誰かが使うことが想定されていない」ことだ。

データ整備は分析のためなのだから、分析に使われなければ何をどうしたところで価値とはならない。いらないダッシュボードを作らないようにしよう

まずは実態についての認識をつかもう

個別に書こうと思いつつまだ書けていないことをざっくり書いていたら思わぬ長さになってしまった。

話ができる場が全然ないので勢いで吐き出してみたのだが、なければ自分で作るしかないよなあ。

いいなと思ったら応援しよう!