100日後にプロになるワシ15日目(Python)
今日は前回の続き。
前回は機械学習を始めるために環境構築とデータのダウンロード
データの確認まで行いました。
今日はデータの分析を行なっていきます。
参考(https://signate.jp/competitions/269/data)
データにはたまに欠損と言って値が入ってなかったりします。
今回はあらかじめデータの欠損があることがわかっていたので
まずはデータの欠損がどれくらいあるか調べました
データの欠損は10%でした。
ここで、データの処理の仕方は↓にある4パターンですが
欠損の割合が全体の10%だったので、
今回は欠損がある日のデータは取り除いて作業します。
おもむろに金額と引っ越し回数の関係について調べたくなったので
午前の料金区分についてソートします。(y列が引っ越し回数)
(料金は0~5の6段階で表され0が最も安いです。price_am列)
とりあえず、金額が一番低い時の平均引っ越し数を調べてみます
一番料金が低い時の平均引っ越し回数は28回でした
これをfor文で回して0〜5までの平均引っ越し数をみてみます
どうやら金額が高いほど引っ越し回数が多いみたい
普通は金額やすい方が引っ越し多い気がするけど、
実際は繁忙期が多いし、繁忙期は料金が高い。
だから金額が高い方が引っ越し回数が多い。ということみたい。
今度は法人が絡む特殊な引っ越しについて調べる
ぱっと見法人が絡んだ方が引っ越し回数が多そう(y列が引っ越し回数)
平均をとる
法人が関わる方が引っ越し回数が多かった
これは個人が引っ越しするより、
会社が引っ越ししたり、転勤の数を合計した方が多いということかと。
最後に休日も引っ越ししているか調べる(ワクワク
・・・
・・
というわけで。
今日の調査は終わり!
明日は学習用データをつくる!
学習までできたらなおいいかな!!!
感想
データを分析するといろんなことがわかって面白い
いいなと思ったら応援しよう!
いつもサポートありがとうございます。
難しい方は感想をコメントでいただけると嬉しいです。