【後編】データベースの意味と、構築する際の留意点【前処理にめちゃくちゃ影響します】
データ分析を行うときに、データベースをあらかじめ、きちんと設計しておくことが非常に重要です。
前編に続きご紹介します!
④カテゴリカル変数と連続値の変数を使い分けること
各変数の使い方から逆算して、カテゴリカル変数(離散値)と連続値の変数を使い分けることが重要です。例えば25歳の人だと、カテゴリカル変数は「20代」となり、連続値の変数は「25歳」となります。
カテゴリカル変数にすると、情報量が減るので当然可能なデータ分析方法が減ってしまうリスクがある一方で、アンケートなどの調査でのデータ収集がしやすい(回答者などの回答の心理的リスクが減る)メリットがあります。
つまり、最終的な得たいアウトプットから逆算し、どちらを使うべきか考慮する必要があります。
⑤カテゴリカル変数のMECE、階層の幅を意識すること
MECEは、もれなく被りなくのことです。カテゴリカル変数を作成する際は、MECEを必ず意識しなければいけません。複数回答などの変数は場合によりけりなので、MECEが必要かどうか検討する必要があります。
また、連続値の変数をカテゴリカル変数に変えるときに、区間の幅を基本的には統一する必要があります。上端や下端は、以上・超や以下・未満でまとめることが多いです。(区間を10歳で区切る⇒20代以下、30代、40代、50代、60代以上)
⑥時系列データの並べ方を意識すること(時間軸を縦に入れる)
これは非常に重要です。時系列を変数として作成し、各時点の値を入れるやり方はデータハンドリングで非常に困ることが多いです。
時系列の変数を1つ作成して時点を入力していく方が、行は非常に多くなりますがデータハンドリングの面では格段に優れています。
⑦欠損値・外れ値を事前に意識すること
データベースを構築していると頻出する問題が欠損値・外れ値です。欠損値が発生する状況(回答の迷い、回答拒否、回答漏れなど)を考えて、それを防ぐシステムが必要です。
例えば、入力エラーがでるシステムや回答を必ず得られる調査設計、入力直後の確認などです。また、外れ値も同様です。入力数値の許容範囲の設定、誤解が生じない調査設計、入力直後の確認などがあります。
コンピュータサイエンスの有名な言葉で、
「Garbage In Garbage Out(『無意味なデータ』をコンピュータに入力すると『無意味な結果』が返される)」
というものがあります。
つまり、データベースを綺麗に整備することがデータ分析で非常に重要です。
ぜひ、上記の7点を意識して綺麗なデータベースを構築しましょう。
フォロー、コメント、スキお願いいたします🙇♂️
YouTubeもしています。チャンネル登録よろしくお願いいたします🎵
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?