紙とエクセルからの脱却!? 福祉事業所の社内DX化のススメ~データ活用におけるオープンデータの事前チェックポイント~
こんにちは、グルホネットの中の人の祖父江です。
2022年2月に障害福祉事業所(就労支援事業所)に入社し、今はポータルサイトのコラム作成を担当しています。
異業種から転職し、Webポータルサイト『障がい者グループホーム検索サイト グルホネット』を立ち上げた誕生秘話も第四弾となりました。
本記事は番外編的に、より実践的にデータを活用するために、実際に公開されている誰でもアクセスできるオープンデータを使って、データ活用する前のデータの何を事前にチェックすればいいかについてまとめてみました。
オープンデータって営利目的で使って良いの?
グーグル検索などで”オープンデータ”で検索すると様々なデータが公開されています。
デジタル庁や厚生労働省といった国が運営する省庁のサイトや、福祉事業所の指定権者である自治体のサイトにも定期的に最新の情報がアップロードされています。
勝手に使っても良いの?商業利用でもOKなの?と疑問に思う方もいるかもしれませんが、声を大にして言います。「いいんです!」
その理由は、ちゃーんと総務省のサイトに以下のように記載されています。
「営利・非営利目的を問わず」と書いてありますので、営業先として活用してもOKなのがオープンデータなんですね。どんどん活用しましょう!
福祉系の事業所の情報も、もちろん公開されています。それも全て!若干のタイムラグがありますが、半年に一度更新されますので、このデータさえ見ていれば競合他社がどのくらい増えたのか、どの地域の事業所数が激増しているのかも簡単に比較することができます!これを活用しない手はありません!
介護福祉は厚生労働省が、障害福祉はWAMネットがそれぞれ日本全国にある福祉事業所の一覧をオープンデータとして公開しています。
今回はこのオープンデータを実際に見ながら、オープンデータ活用時の注意点をデータ活用の初心者の方向けに解説してみたいと思います。
ソース元と、定期的に更新されるデータかどうかをチェック!
オープンデータと一口に言っても、提供している団体は様々です。どうせ活用するなら、ソース元となっている団体やサイト自体の信頼性が高いサイトを選びましょう。
中には国や自治体といった公共性が高い機関が出しているデータをそのまま転記するかたちで掲載しているサイトもありますが、そういったサイトは更新頻度がソース元のサイトより低かったり、かなり前の情報を掲載している場合があります。
あれこれサイトを探してソース元であるサイトからデータを集めてくることは面倒ですが、古いデータをダウンロードしてしまうと、せっかくやっていることの意味も半減してしまうので、面倒でもソース元のサイトから最新データを落としましょう。
また、新しいデータを活用することはもちろん大切ですが、同じ種類の情報が定期的に更新されるかどうか、そして過去のデータが遡って確認できるかも重要なポイントです。
まずはデータの状態を隅々までチェック!
データは落とした。「じゃぁこの情報を元に地域や業種に絞って営業すればいいじゃん!」と、思われる方もいるかもしれませんが、ここはちょっと待って、まずは俯瞰してデータを見てみましょう。
CSV形式になっていることが多いデータも、実際に中身を見るときはExcelで確認することが多いのではないでしょうか。
この時に注意したいのは、数字の文字列化や桁落ちと呼ばれる現象です。
例えばこちらの電話番号欄
ハイフンがある電話番号は最初の”0”がありますが、3列目のハイフンがない電話番号は、数字として認識されているため、最初の0が消えてしまっています。(ExcelでCSVをダブルクリックで開くとこうなります。)
この現象を防ぐためにExcelでCSVを開くときには、以下のサイトを参考に開いてみてください。
ExcelでCSVを開いたときは、そういう状態になっているデータがあり混ざっているということは認識しておいたほうがいいでしょう。
他にも同じ法人であったとしても、住所欄が微妙に違うこともあります。
こういった、微妙な違いがどこに潜んでいるかをデータ活用する前に知っておくことは意外と大切だったりします。
というのも、機械は良くも悪くも”完全一致”したデータしか同じデータと認識しないからです。大文字と小文字が混じっているくらいだったら、人間が見たら同じデータだと認識するでしょうが、機械は別物として認識するということを知っておく必要があるのです。
それは、半角・全角といった見た目に分かるものから、スペースのありなしといったぱっと見ではわかりにくいような違いも別データとして認識されます。
こういった事前チェックをして、これから活用するデータがどういう状態になっているかをまず確認しましょう。
ここで注意したいのは、微妙な違いを手動で修正しないことです。どう見ても同じ情報なのに、半角や全角、漢数字と数字といった違いが目について修正したくなるかもしれません。
でも、そこに労力をかけるのはとっても勿体ないこと。継続的に情報を活用したいなら、極力というか前提として”そのままの状態で”活用できるようにしましょう。
データをどう扱うかを事前に想定する
”そのままの状態で”活用した方がいいと言ったものの、”そのままの状態で”活用するかしないかは、そのデータをどのように使うかにもよります。
例えば、「近くにどんな事業所があるのか知りたい」「地域毎の事業者数を比較したい」といった”今”を切り取ってデータ活用する場合は、ほしい情報が正確に得られるように法人名や住所などの表記揺れを修正して正確な情報にすることは大切だと思います。
しかし、「昨年と今年の差を知りたい」「新規事業所だけピックアップしたい」といった長いスパンでデータを追いたい場合は、元の情報は加工する前の情報で比較したほうが正確な数字が出るのではないでしょうか。
データというのは更新されていくものなので、新しいデータに更新されたとき、データの新規登録・上書き・削除をしやすくする状態を保つということも大切だと思います。
更新や比較をする必要があるのであれば、”更新しやすさ””比較しやすさ”を抜きにデータ加工はしてはいけないとも思うのです。
元の情報をいじってしまうと、新しい情報が入ってきたときにデータとして別物と扱われて上書きされなかったり、どの情報が合っているのか迷いがでてしまいます。
データを活用する場合は、そのデータをどう扱うのか2歩3歩先を見越しておくと、無駄な作業が減ります。データ活用の度合いも上がり、事業計画を立てるる上で強力なデータベースになるはずなので、是非あれこれ考えてみてくださいね!
さいごに
今回は番外編というかデータ活用の基本の「き」とも言える、データの状態をどう事前にチェックするかについて解説してみました。
次回は、このオープンデータを”そのまま”サスケWorksに入れるためにどういうアプリを作ったのかをご紹介したいと思います。
この記事は、私個人が勝手に書いているわけではなく、会社に了解を得て作成しています。「どんな形であれ、グルホネットの宣伝になるのであれば、やってみれば?」と、軽く二つ返事で了解してくださった当社の社長、かなりイケてるでしょ⁉ せっかくなのでTikTokを宣伝しとこう。
グルホネットって何?
今更ですが、私がコラムを担当しているグルホネットをご紹介します。
2023年10月~新サービスも始まったので、障がい者グループホームを運営されている方や、周辺事業者様にぜひ見ていただきたいです!
グルホ研究会も運営しています!
グルホ研究会は、障がい者グループホームの事業者様向けのオンラインコミュニティです。毎月オンライン&オフライン交互にイベントを開催しています。次回は2024/2/8(木)16:30~オンラインで開催!お申込みはPeatixで!
【2/8(木)16:30オンライン開催】最新版!障がい福祉サービス事業 2024年報酬改定を読み解く
ご興味をもっていただいた方はこちらからお問合せくださいね!