100日後にプロになるワシ26日目(Python)
機械学習最後まで学習させて
AUC(Area Under the Curve)の値も92を超えた!!
AUC
AUCは指標の名前通りROC 曲線下の面積(積分)となります。この面積の範囲がは0から1 となります。ランダム分類器はのAUC値は0.5です。AUC値は0.5以上になれば分類器の効果がランダム分類器より良いです。AUC値は0.5以下になったら評価指標を逆にしてAUC値は0.5以上の分類器を得られます。
ROC曲線
ROC曲線とは、閾値(疾患の有無を判断する基準値)を変化させたときの偽陽性率(False Positive Rate: FPR)と真陽性率(True Positive Rage: TPR)の各点を結んだものです。
真陽性率と偽陽性率
真陽性率は「病気と判定して実際に病気だった確率」
偽陽性率は「病気判定して実際は病気でなかった確率」
のこと。
このROC曲線は閾値によって形が変わってくる
例えば
40%の確率でガンなら全部ガンにしてしまおう!
とするとガンと診断される人が増えるし、
逆に、80%の確率でガンと診断すると、ガンと診断される人は減る。
この何%以上でどうこうする。というのを閾値という。
この閾値を使ってモデルの精度を上げる方法がある。
んで、色々やった結果がこれ
。。。
。。
や ら か し た !
どうやらどっかのタイミングでテストデータ(test.csv)を書き換えてしまって、本来テストしたいデータと違うデータで予測していました。
おそらく、csvの書き出しで、かなりハマったので、その時に、test.csvを作成してしまったのかと。。。
なので、次回はちゃんとしたデータで作成します!
感想
最近時間取れないので
こっちをシンプルにして、学習を頑張るます。
いいなと思ったら応援しよう!
いつもサポートありがとうございます。
難しい方は感想をコメントでいただけると嬉しいです。