![見出し画像](https://assets.st-note.com/production/uploads/images/33443534/rectangle_large_type_2_ed32211a65d64b502ace0da20318c6ac.jpeg?width=1200)
Photo by
kiyofico
100日後にプロになるワシ16日目(Python)
今回は機械学習をさせるための学習データと解答データを作成する
説明変数と目的変数
機械学習では学習データを説明変数。解答データを目的変数という。
今回は全データを半分半分にして前半を説明変数。
後半を目的変数として扱う。
前回作成したデータを使う
データを半々で分ける
特徴量について
特徴量とは簡単にいうと答えを導くための学習のとっかかりです。
今回で言えば引っ越し回数に影響しそうな数値の事。
例えば、今回の引っ越しだと
3月、4月が繁忙期ということがわかっているので
「今が何月か」というのが一つの鍵になりそう
また、今日が何曜日か?も予測できる。
直感的に土日に引っ越しが多いと考えられるからだ。
次に、法人が絡む引っ越しは平均15も引っ越し数が異なることがわかっている。
これも特徴量になるだろう。
最後に、これはできれば入れたい。「祝日かどうか」
これも取得できると思う。
入れるか迷ったが、「休みの日」も入れる。休みの日は強制的に0になるからだ。
これも一応引っ越し回数に強い影響を及ぼすので、入れる。
今日は何曜日?
まずは曜日から入れる。月曜から日曜日まで0~6の値にする
エラーが出てるけどとりあえず成功
weekの行に曜日
感想
ちょっと短いけど時間切れ
正直曜日変換に一時間くらいハマった。
学んだのはDataflameとSeriesについて
あとはdatetime型とstr型。
当たり前だけど型によって使えるメソッドが違う。
あとはDataflameとSeriesによっても使えるメソッドが違う。
この4パターンでハマった。
おそらく使えないメソッドを何度か試したりしてたと思う。
次回は「月」「法人」「祝日」「引っ越し休み」の特徴量を作成する。
いいなと思ったら応援しよう!
![マサト(ENTP)](https://assets.st-note.com/production/uploads/images/80448550/profile_70cd413479babd7badf3a0df33dc9b34.jpg?width=600&crop=1:1,smart)