見出し画像

【後編】データベースの意味と、構築する際の留意点【前処理にめちゃくちゃ影響します】

データ分析を行うときに、データベースをあらかじめ、きちんと設計しておくことが非常に重要です。

前編に続きご紹介します!



④カテゴリカル変数と連続値の変数を使い分けること



各変数の使い方から逆算して、カテゴリカル変数(離散値)と連続値の変数を使い分けることが重要です。例えば25歳の人だと、カテゴリカル変数は「20代」となり、連続値の変数は「25歳」となります。

カテゴリカル変数にすると、情報量が減るので当然可能なデータ分析方法が減ってしまうリスクがある一方で、アンケートなどの調査でのデータ収集がしやすい(回答者などの回答の心理的リスクが減る)メリットがあります。

つまり、最終的な得たいアウトプットから逆算し、どちらを使うべきか考慮する必要があります。






⑤カテゴリカル変数のMECE、階層の幅を意識すること


MECEは、もれなく被りなくのことです。カテゴリカル変数を作成する際は、MECEを必ず意識しなければいけません。複数回答などの変数は場合によりけりなので、MECEが必要かどうか検討する必要があります。

また、連続値の変数をカテゴリカル変数に変えるときに、区間の幅を基本的には統一する必要があります。上端や下端は、以上・超や以下・未満でまとめることが多いです。(区間を10歳で区切る⇒20代以下、30代、40代、50代、60代以上)






⑥時系列データの並べ方を意識すること(時間軸を縦に入れる)



これは非常に重要です。時系列を変数として作成し、各時点の値を入れるやり方はデータハンドリングで非常に困ることが多いです。

時系列の変数を1つ作成して時点を入力していく方が、行は非常に多くなりますがデータハンドリングの面では格段に優れています。






⑦欠損値・外れ値を事前に意識すること


データベースを構築していると頻出する問題が欠損値・外れ値です。欠損値が発生する状況(回答の迷い、回答拒否、回答漏れなど)を考えて、それを防ぐシステムが必要です。

例えば、入力エラーがでるシステムや回答を必ず得られる調査設計、入力直後の確認などです。また、外れ値も同様です。入力数値の許容範囲の設定、誤解が生じない調査設計、入力直後の確認などがあります。

コンピュータサイエンスの有名な言葉で、

「Garbage In Garbage Out(『無意味なデータ』をコンピュータに入力すると『無意味な結果』が返される)」

というものがあります。

つまり、データベースを綺麗に整備することがデータ分析で非常に重要です。

ぜひ、上記の7点を意識して綺麗なデータベースを構築しましょう。


フォロー、コメント、スキお願いいたします🙇‍♂️


YouTubeもしています。チャンネル登録よろしくお願いいたします🎵


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?