モデルがきれいにデータフレームを分けるところを見たい話。day2

皆様お疲れ様です。
前回の記事でデータフレームの形を作ったので、今回はどんどんカラムを作っていきたいと思います。
このお話の発端はこちら

【事件発生】
まず前回のコードを最初から実行します。ここで事件が発生。

今回の。
前回の。

なんか数字変わったな…?randomseed固定してたのに…?
さらに。

前回の分布確認時のコード。

あっ…!dataが…!!data_clipped(最終的に採用したデータ)じゃなくてage(最初に作ったデータ)になってる!!
実行し直したデータで再度分布を確認すると、

うん、左右対称じゃないね!最大値適当にしちゃったからそれはそうだよね!
というわけでもう一回ageカラムを作り直すことに。

*ここまで我慢強く読んでくださっている皆様はお気づきかと思いますが、本記事は技術共有などの有益ブログではなく個人的な欲望に基づく試みを赤裸々に(?)綴った記録になります。紆余曲折、うまくいかなかったところも全部載せの牛歩スタイルでお届けいたしますので、ご了承の上お楽しみください。


【コーディング ageカラム再作成】
作り直すと言っても、前回のコードの最大値を変えればうまくいくはず。というわけで最大値を55歳に設定し直し再実行。変数もageに統一し直しました。

最大値変えただけなのでぱっと見中身は変化なし。

統計量を確認するとちゃんと最大値が55歳になっているし(当たり前)、グラフも左右対称になっているので大丈夫そう。

データフレームに入れ直し、describeでより詳しい統計量を確認。平均値・中央値・最頻値が全部29歳になったけど、まあよしとしよう。

【コーディング カラムの作成】
ここから気を取り直して、せっせと新しいカラムを作っていきます。前回載せたこちらの表を元に考えていきます。

上から順に作ろうと思っていたのですが、散布図でデータの分布とか確認するのに便利そうなので、もう1つくらい数値データを先に作っておきたい。というわけで受験回数(Number of attempts)カラムを作ります。0 〜10回くらいで振ってみます。

こんな感じのコードで作成。ランダム性の偏りを無くすため(?)一応カラムごとにrandomseedも変えてみる。パッと見問題なさそう。

いや、すごく偏ってるな(笑)

と思ったらbin数の問題でした。bins=11にしたら大体全部同じくらい。よしよし。

散布図を作ってみたら分布はしっかりバラけているもののなんか…思ってた散布図と違う…。いやでも離散値データだからこうなるか。もうちょっとなんか連続値のデータ欲しいなあ。

ここでもう一回表を確認。そもそも作ろうとしているデータの種類的に連続値を生み出すのが難しい…。
・海外に行った最長期間の単位を◯ヶ月にして小数データを無理やり作る(1.5ヶ月みたいな)
・連続値ではないけどtoeic scoreならもうちょっとデータのばらつき出て全体の分布が見やすくなるかも。

次はこの辺りのデータを作ろうかな。あ、表にはないけど「勉強した期間」のカラムとかもいいな。

とりあえず海外に行った最長期間(months_of_abroad_experience)を前述した考え方で作成。5年以上海外にいた人が英検の取得というのもあんまり現実感ないか?ということで60ヶ月を上限に設定。
ところでカラム名にめちゃくちゃセンスが問われる。わかりやすくて長過ぎない名前考えるの難しすぎる。

分布も問題なさそう。

散布図もバラけた…けどなんかすごいミチミチだな…あと左の方にある穴がなんか気になる…。
とはいえ気にしだすとキリがないので、このまま進めます。
あとは性別(gender)辺り作ろうかな。

この辺で今まで使ったrandomseedがわからなくなる。カラム一覧の表にメモしておこう。

度数分布もちょうど半分。よしよし。

さっきの散布図に載せてみても偏りはなさそう。それにしても色がすごいな。

最後に都道府県(prefecture)カラムを作って本日は終了。選択肢は完全に個人の好みで選びました(笑)

分布も問題なさそう!それにしても色が本当にすごいな…。

次回は目的変数(target)のフラグを立てて、モデルに投入してみたいと思います!

【おまけ】
こちらの記事作成はアウトプットの練習を目的の一環とした取り組みのため、今回もChatGPTに文章を評価してもらいました。

試みの内容が伝わるか: 9/10
記事全体の流れが分かりやすいですが、「事件発生」セクションの情報整理が進むとさらに良くなります。
興味を引く内容か: 9/10
試行錯誤や個性が光る楽しい記事ですが、各結果についての感想や洞察が加わるとさらに魅力が増します。
初学者にも読んでもらえるか: 8.5/10
初学者にも親しみやすい内容ですが、ヒストグラムやランダム性についての解説が少し補足されるとより良いです。
全体の魅力: 10/10
試行錯誤を正直に記録しつつ、読者を楽しませる要素が多く含まれている点が素晴らしいです。
最終評価: 9/10
今回も非常に魅力的な記事ですが、一部情報整理と補足を加えることでさらに分かりやすくなりそうです!

「初学者にも読んでもらえるか」が0.5点上がってる!目指せ9点!

いいなと思ったら応援しよう!