9/19 kaggle本 2章
久しぶりです。kaggle本が届いたので、一通り見てみましたがめちゃめちゃわかり易くてびっくりしました。データ分析コンペに参加する人はみんな読んだ方が良さそうです。
第2章の要約です。最後の方はまだ読んでません。
参考にしたのは以下のslideshareです。
https://www.slideshare.net/meownoisy/kaggle-2-191950766
第2章タスクと評価指標
分析コンペにおけるタスクの種類
回帰タスク
分類タスク
→二値分類
→多クラス分類
→マルチクラス分類
→マルチラベル分類
レコメンデーション
その他のタスク
→物体検出
→セグメンテーション
分析コンペのデータセット
テーブルデータ
外部データ
時系列データ
画像や自然言語などのデータ
評価指標
→どれくらい目的変数と予測値の間に誤差があるか→低い方がいい
RMSE…目的変数と予測値の差の2乗をとり、平均した後に平方根をとる(標準偏差と同じ)
RMSLE…目的変数と予測値をそれぞれ対数を取った後で、2乗→平均→平方根
目的変数と予測値の比率に注目しているので、目的変数が少しの変化で全体が大きく変わるような時に使える
MAE…真の値と予測値の差の絶対値の平均
外れ値の影響を低減している
二値分類における評価指標
正例か負例かを予測値とする場合
以下がわからなかったら上記slideshareの図を確認する。
accuracy
→予測が正しい割合を表す指標(TP+TN/TP+TN+FP+FN)
error rate
→予測が間違えである割合を表す指標
→あるデータが正しいかを50%以上or以下に振り分けるだけ。モデルが10%以下の
低い確率を正確に予測できても50%以下に振り分けることしかしないので、厳密
な能力を判定できない→分析コンペではあまり使われない
precision
→正例と予測したものは実際に正例の場合(TP/TP+FP)
→誤検知を少なくしたい時に使う
recall
→実際に正例の値をどれだけ正例と予測したか(TP/TP+FN)
→正例の見逃しを避けたい時に使う
F1-score
→precisionとrecallの調和平均、実務でもよく使われる
MCC
予測が正しいか間違っているかを-1<=x<=1の範囲で教えてくれる
正例である確率を予測値とする場合
logloss
→真の値を予測している確率の対数をとり、符号を反転させた値
→低い方が良い指標
AUC
→逆のローレンツ曲線みたいなやつのジニ係数と同義
→線が曲線を描くほど(=1に近づくほど)良い予測
多クラス分類における評価指標
multi-class accuracy
→二値分類のaccuracyの多クラス版
multi-class logloss
→loglossのマルチクラス版
mean-F1、macro-F1、micro-F1
→F1を多クラス分類版
quadratic weighted kappa
→マルチクラス分類で、クラス間に順序関係があるような場合(映画の評価で1〜5の中から選ぶやつなど)
最後に
読み方としては、それぞれの名称と主な機能を頭にすり混んでおけるように読んでいます。主に活躍するのは実際のコンペに参加している時に辞書的に使いそうです。
最近は、kaggle本読み込みと適度に英会話と卒論とバイトに追われてしまっています。忙しいけど、卒業する前にしたいバイトをさらに始めようかなとも考えています。