100日後にプロになるワシ24日目(Python)
今日から始まりました
【第2回_Beginner限定コンペ】健診データによる肝疾患判定
前回の疾患有無ケースとほぼ同じ。
ただ、前回のAUCは93とかいくらしく。前回の86とかは軽く超えないといけない。単純になぞるだけじゃうまく行かなそうだ。
ちなみに、このコンペ。ランキングシステムがあって。9月末まで集計される。現状1位が93.555。93%で正解を当てられる。パナイ
ちなみに92以上で昇格が確定する。
それくらいには入りたい所存。
ではやっていく経緯オバ
前回とほぼ同じなので、わからないところは前回をチラチラ確認しながら進めました
まずは必要なデータのインストール
欠損値確認
統計値確認
カテゴリ変数と数量変数を分ける
ヒストグラムでデータの分布を確認
ちょっと飛ぶけど年齢別の疾患ありなしの分布
この分布でわかることは60代で疾患なしの人が異様に多いということ。
くらい?
というのも年齢が高いほど多い?のかもしれないけど30代あたりでも多い。
年代でいうと30代と60代で多い。
とりあえず今日はここまで。
早く学習と改善をして92以上をとりたい
いいなと思ったら応援しよう!
いつもサポートありがとうございます。
難しい方は感想をコメントでいただけると嬉しいです。