見出し画像

96【京都弁イケメンお兄さんと学ぶ】Pythonデータ分析試験学習 ①ROC・AUC ②カテゴリ分類精度の評価指標を理解しよう

こんにちは!TechCommitメンバーの友季子です♬今回は、ChatGPTに京都弁イケメンお兄さんに転生してもらい、Pythonデータ分析のレッスンをしてもらいました♪

今回は①ROCとAUC編②カテゴリ分類精度の評価指標を理解しよう編です。

Pythonデータ分析試験の学習を楽しくやりたい、オタク系な女の子のお役に立てれば幸いです💗そして友達になってもらえたら嬉しいな、なんて(笑)


①恋愛、告白で学ぶカテゴリ分類精度の評価指標

私:「では恋愛で例えて解説、お願いしますー!」
京都弁お兄さん:「恋愛に例えて説明しますね。」

適合率(Precision)

「これは<告白してOKをもらえた確率>だと思ってください。たとえば、あなたが10回告白して、うち7回OKをもらえたとすると、適合率は70%になります。」

tp(true positive): 告白してOKをもらえた回数

fp(false positive): 告白したけどフラれた回数

適合率の計算式は、以下の通りです。

適合率 = \frac{tp}{tp + fp}

再現率(Recall)

「これは<本当に好きな人にどれだけ告白できたかの割合>です。本当に好きな人が10人いて、そのうち6人に実際に告白できたなら、再現率は60%です。」

tp(true positive): 好きな人に告白してOKをもらえた回数

fn(false negative): 告白したかったけど告白しなかった回数

再現率の計算式は、以下の通りです。

再現率 = \frac{tp}{tp + fn}

F値(F-Measure)

「これは<適合率と再現率のバランス>を表しています。たとえば、告白してもフラれることが多くても、たまに告白が成功するなら、その<たまに>の成功率も考慮しつつ、どれくらい告白がうまくいくかを評価します。」

F値 = \frac{2 \times 適合率 \times 再現率}{適合率 + 再現率}

正解率(Accuracy)

「これは<全体として、恋愛で成功した回数の割合>です。好きな人に告白して成功したケースも、告白せずにフラれなかったケースも含めて、<成功>と見なして計算します。」

tp + tn(true positive + true negative): 告白して成功した回数 + 告白しなくてよかったケース

全体の試行(tp + fp + fn + tn): 告白したりしなかったりのすべての結果

正解率 = \frac{tp + tn}{tp + fp + fn + tn}

「これで、恋愛における告白の成功率を基に、適合率、再現率、F値、そして正解率がどういった意味を持つのか、少しイメージしやすくなったのではないでしょうか?」


②購入予測で、ROC曲線の活用

私:「購入予測で解説して!」
京都弁お兄さん:「はーい、説明しますね。」

ROC曲線っちゅうのは、モデルがどういうふうに予測してるかを視覚的に見せてくれるんやけど、これがええのは、しきい値を変えたときにどうなるかも分かることなんよ。たとえば、しきい値を低くしたら「買う」っちゅう予測をしやすくなるし、逆に高くしたら「買わん」って判断しやすくなるんや。」

「これで何が分かるか言うたら、例えばお店で商品を売るときに「できるだけ買う人を逃したくない」んやったら、しきい値を低めにしておく方がええかもしれへん。逆に「確実に買うてくれる人だけを狙いたい」んやったら、高めにしたらええんよ。ROC曲線を見て、最適なしきい値を決められるんが、めっちゃ役立つわけやね。

AUCの見方

「ほんでな、AUCが1に近ければ近いほど、モデルはええ予測をしてるっちゅうことやねん。1やったらもう完璧!って感じで、0.5に近いと「それってほんまに意味あるん?」ってなるわけや。今回の0.4479やったら、ちょっと期待したほどの予測精度ではない感じやねぇ。まぁ、モデルの精度を上げるためにデータを増やしたり、パラメータ調整したり、いろいろ工夫できるんよ。」

モデルの評価と改善

せやけど、予測モデルっちゅうのは、ただAUCが高いだけでええってもんでもないんよ。データの偏りとか、クラスバランスの影響も考えなあかんから、時には「真陽性率(リコール)」とか「精度(プレシジョン)」も一緒に見ながら評価するんが大事や。お医者さんで言うたら、病気を見逃さんようにする(リコールを重視する)んか、健康な人を病気と誤診せんようにする(精度を重視する)んか、そんな感じやな。

モデルを作るっちゅうのは、こういうバランスを考えながら調整していくんが醍醐味なんや。試行錯誤しながら、だんだんとええ予測ができるようになっていくから、焦らんとコツコツやるのが肝心やで。

こんな感じで、ちょっとずつ掘り下げて説明してみたけど、どうやろ?また知りたいことがあったら、気軽に聞いてやぁ。おおきに〜。」


③おまけ 京都弁お兄さんボイスで学ぼう編

読み上げ録音、カッコいいお声なのでアップしますね!

3-1 2021022_恋愛でカテゴリ分類精度の評価の音源.m4a

3-2 20241012_ROCとAUCの音源.m4a

以上です♪

いいなと思ったら応援しよう!