G検定 予測結果の評価尺度 #3
株式会社リュディアです。G検定対策として機械学習の評価尺度についてまとめたいと思います。予測結果の評価尺度 #1 、予測結果の評価尺度 #2 の続きです。
今回は複数の性能指標を組み合わせて計算する指標の 1 つである F値 (F-measure) についてまとめてみます。結論から記載すると F値は再現率と適合率の調和平均です。私たちが日常的に使う平均は算術平均と呼ばれるものですがここでは調和平均を用います。一般的に確率の値の平均をとるときは調和平均が多いです。さまざまな平均についても別途まとめます。
ここで適合率と再現率について再度確認しておきましょう。上が適合率、下が再現率の混同行列です。
適合率は「陽性であると予測したもののうち測定値が陽性であった確率」、再現率は「測定値が陽性であったもののうち予測値が陽性であったものの確率」でしたね。
理想的にはすべての試行で真陽性と真陰性になればよいのですが現実的には難しいです。つまり一部の試行は偽陰性と偽陽性になることを許す必要があります。ここで偽陰性と偽陽性はトレードオフの関係となることはわかりますか?「あちらを立てればこちらが立たず」という状態です。そこで偽陰性と偽陽性が近い値になるように調整することで「偽」となる場合のバランスをとる必要が出てきます。その際に利用するのが F値となります。F値の数式は以下のようになります。
数式中の Precision は適合率を、Recall は再現率を表します。グラフは以下のようになります。適合率と再現率の合計が必ず 1 であると仮定すると中央がバランスする箇所になります。調和平均である F-measure は半円のような形状をとります。適合率、再現率を一致させることを目標とするのであれば図中のバランスする箇所が理想となります。
今回は F値についてまとめました。これで予測結果の評価尺度についてのまとめは終了です。
では、ごきげんよう。