脱・汚データ(だつ・おでーた)
書いていて、まとまりきってないところもありますが、放出してみます。
はじめに
データは水みたいなものである。
「DXだ!」「業務改善だ!」と、新しいツールを導入したとしても、データが汚れていればそのツールを活かしきれない。
いかに美味しく炊ける炊飯器と高級な米があろうとも、泥水をぶち込まれたら、どうしようもない。
泥水で炊いたご飯をきれいにする徒労はしたくない。きれいな水でご飯を炊きたい。
米飯文化ではない欧米人などに説明するときは、比喩をスープとかパスタに置き換えればいいんじゃないですかね(てきとう)
身体の体重の60%は水分でできているという。組織の財務が血液だとしたら、組織におけるデータは水であり、体液だ。
などとそれっぽい例え話は置いといて、どのようにしてデータが濁り汚れていくのか、どうやってきれいにしていくのか、どうやって清らかさを保つのかを考えてみたい。
汚データの例
例を挙げるとこんな感じ。
一つのデータの中に複数属性が混じっている/データの中に何故か文字列コメントがある
表記揺れ
あとは、もう大体のことは、総務省の示した「データの表記方法の統一ルール」とそれを記事にしているExcel医さんのブログが参考になる。
汚データはなぜダメなのか
正確な結果を得ることができない
汚データでは、分析結果が不正確になる可能性が高くなる。誤ったデータに基づく意思決定は、財務上の損失や戦略の誤りを招く可能性がある。
コンピュータによる処理が困難
図はノンプロ研(株式会社プランノーツ)から拝借した。タカハシさん、えばたさん、関西建設業界の皆さん、いつもありがとうござます。
汚データは、一般的にコンピュータプログラムが処理しにくい形式となっている。そのため、データの自動処理や一括処理が難しくなり、効率性が大幅に低下する。不整合や乱雑なデータは、可読性が低く、分析が困難になる。
美しくない
一定のルールの元に、形式や、型が揃っているものって、美しいと思いませんか?整然としたデータは、視覚的にも美しく、理解しやすい(はず)。
汚データの対処法と整形プロセス
データサイエンティストの方法を参考にするのも良いかもしれないが、ここでは、スプレッドシート・Excelでの日常業務として考える。
以下は一例である。
データのコピー
整形作業がデータに影響を与えないように、元データはひとまずそのまま置いといて、整形用にコピーしたデータと格闘するのがセオリーかと思う。データ形式の標準化
手を動かす前に、形式を定める必要があるかもしれない。
電話番号はハイフン有りなのか、無しなのか。
株式会社とするのか(株)とするのか。データの置き換えとクリーニング
整形していく際に、よくやるのは置き換え(置換)だろう。
あとなんかあったっけかな……。空白の削除だったりとか。新たなフィールドの追加
汚データの例で示したように、新たなフィールドを設ける必要もあるかもしれない。データの詳細な分類や整理が可能になり、分析の精度を高めることができる。
余談:R言語は、なんかうまいことできるみたいな話を聞いたことがあるけど、よく知らないです。手段、ツールの話になるので、割愛。
この辺は思い出したら、また後で書こう。
以下のようなものも参考になるかもね。
汚データはなぜ生まれるのか
メモ帳とデータベースの違い
Excelやスプレッドシートは、本来表計算ソフトだが、多くのユーザーがメモ帳のように使用するし、使用できてしまう。メモ帳のノリで、とりあえずメモしておいたもの、整理されていない情報がデータとして取り扱われ、徐々にデータベースの一部となってしまうことがある。(メモ帳としての使い方が完全悪というわけではない。そういった利用が必要なシーンもあるだろうし、何も情報が無いよりはマシだったりもする。)
人間が理解しやすい形式と機械が扱いやすい形式の違い
人間にとって理解しやすい見た目は、必ずしも機械にとって最適な形式ではない。感覚的に人間が見やすいもの、理解しやすいものは、なんとなく当人の感覚で書くことができるが、機械処理には一定の形式がある。このギャップが汚データを生み出す原因の一つかもしれない。
入力できてしまう設計、構造、仕組みになっている
型のないフリーフォーマットの入力フィールドは、汚データの発生源となりやすい。解釈の揺れ、表記の揺れも生まれる。入力するより、選択肢から選ぶようにする、IDでマッチさせるなどしていきたい。
汚データを生まないために
人が手入力するからブレが生まれるので、それを回避する、低減する、補正するといった方向を考えたい。また、リテラシの向上もはかりたい。
大抵の問題は人類が滅びれば解決するが、人類を滅ぼす訳にはいかないので、現実的な落とし所、対処法を考えていく。
データ入力の統一ルール
再掲になるが、総務省の示した「データの表記方法の統一ルール」とそれををわかりやすく解説している、Excel医さんのブログが参考になる。
この辺りを周知、啓蒙していきたい。「総務省のルール」と言うと、お墨付き感があるのか、喰いつきが良いようにも思う。
テーブルのルール
総務省の示した「データ入力の統一ルール」と同様のものもあるが、紹介する。図は再びノンプロ研(株式会社プランノーツ)から拝借した。タカハシさん、えばたさん、関西建設業界の皆さん、いつもありがとうござます。
入力規則
バリデーション
バリデーションとは→https://wa3.i-3-i.info/word11610.html
Googleフォームでは、デフォルトでいくつかの制限をかけることもできるし、正規表現も使える。
DOVパターン
DOVパターンが一つの考え方になるかなと思う。
汚部屋にしないための考え方も参考になるかもしれない
汚データが生まれる背景やその対処として、汚部屋の話を書こうかとも思ったが、面倒になってきたので省略する。
余談だが、n年住んだために物が増えた自宅を片付ける時に、整理収納アドバイザーの資格を持つ友人に来てもらい、監視アドバイスを受けながら断捨離に取り組んだらとても捗った。エリアを決めて、例えば、まずは玄関の靴箱をターゲットと定めて、靴箱の中身を全部出して、要る・要らないをジャッジしていった。体力よりも、精神的疲労、判断・決断疲れで困憊した。
片付けで思い出すのは、借金玉さんの本の中で、机の上をきれいにする、まずは全部どかす、といった話がある。汚データの話からはズレるが、いい本なので紹介させてください。あたりまえをやる、ってあたりまえじゃなかったりする。
終わりにかえて
昔、ポテトチップス工場でアルバイトをしていたことがある。色々な工程があるが、焼き上がったポテトチップスを目視確認し、焦げているものは箸だかトングだかで撥ねる作業があった。いまは、画像認識などで、この作業は機械化されているらしい。もしくは、機械よりも人間の方が安い場合、人間の作業として残っていくのかもしれない。
昔の日本では、駅の改札では駅員さんが鋏をカチカチ言わして切符を処理していた。今は自動改札になった。フィンランドでは改札がない。切符(アプリ含む)を持っていることを前提として、キセル(無賃乗車)していないかどうかをランダム抜き打ちチェックする体制になっている。人口の違いなどもあるだろうが、このような、そもそものやり方の違い、転換もある。
世の中のデータサイエンティストの仕事の大半は、データを集めることと整形なんじゃないか?分析は一番最後のショートケーキの苺みたいなものだ。知らんけど。データの整形、クレンジング、分析も、AIの登場により更に簡便化するのかもしれない。
この先の世界がどうなるかはわからないなりに、何がどう作用しているのか、どのようなデータの持たせ方をすると良いのか、知らないのと知っているのとでは、違いを生むものと思いたい。
私自身、まだまだなので、理解を深めつつ実務に活かしていきたいですわね。
今夜は炊き込みご飯にしようかな。
おわり。
Excel医さんのブログ記事に乗っかりまくりなので書籍紹介することで詫びます。