ダークデータとクリーンデータ
と言い方があります。
社内等で使われず死蔵されるものを指してダークデータと呼び、そうでない使われている整備されたものをクリーンデータというのだとか。
ダークデータは、一説には世界のデータの8割(但し利用価値があるのは5割)ともいわれるとか。
データ利活用の推進において、ITコンサルタントやSE、プログラマーに今後仕事があるとすれば、以下の2点あたりなんだろうなぁ。
業務で発生しているダークデータ、または、そもそもデータ化されてない情報をクリーンデータ、使えるデータにすること
入手可能なオープンデータやクリーンデータを、データ中心AIで活用できるように適切に整備すること
1は、最近の生成AI/LLMでもRAGと呼ばれる仕組みでも必要で、ChatGPTなどの素のAIモデルが学習しているのはオープンなデータだけで、それぞれの企業・組織についてのことは全く知らない。企業・組織でより便利に使うには、企業・組織の内部に蓄積されている、企業・組織自身のデータだ。しかし実際は、ちょっとした社内ルールの文書ひとつとっても、担当者が目検でよくよく確認すればわかるけれど、部外者にはどれが最新のバージョンかすらわからなかったり、ルールの背景となる業務プロセスなどは担当者の脳内にしかなかったりする。そんなデータをAIに食わせたって何ができると思うのかという、AI導入以前に業務がぐちゃぐちゃなのが多くの日本企業の実態でしょう。その全く文書化されてない状況を業務プロセスを書いたりして、データの発生源や記述すべきことを整理・可視化したり、バージョン管理などもできるデータ管理の仕組みを設計したりして、AIに学習させたい、機械学習や可視化をしたい情報を、まずデータ化すること。
2は、AIや機械学習、可視化に必要なデータがそれなりにあったとして、それを必要な形にアノテーションなどの加工をしたり、業務活用に向けて要不要のデータをより分けて整理したり(必要ならデータレイクとか作ったり)みたいなデータマネジメント。この辺りは以下の方が詳しいか
他の情報も含めて見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note