AIの評価指標について
AIの評価指標は主に4つ(正解率・適合率・再現率・特異度)ある。また、適合率と再現率の調和平均をF値と呼ぶ。
それぞれの定義については以下のサイトを参照して、ここでは具体的な使用例を考察したいと思う。
注:具体例など内容に関する真偽は誤りがあるかもしれません。
https://zero2one.jp/ai-word/accuracy-precision-recall-f-measure/
正解率
とりあえず予測が当たる場合に使用するのだろう。例えば、サッカーなどのスポーツであるチームが負けるか勝つかを予想した場合の評価として使えると思う。正解率は私たちの生活で慣れ親しんでいるため直感的にも理解しやすいと思う。
ただ、陽性・陰性どちらかに正解が偏っていると正解率はあまり好ましくない指標である。例として、「明日震度7の地震が起きるか」や「宝くじが当たるか」などの予想を評価するには向いていない。当然、両方とも陽性(起こる可能性が小さい)ため、何も考えずに陰性と予想すれば正解率は高くなる。
適合率
陽性と予測したときに外れて欲しくない場合の指標である。営業などで使用する場合重要となる。例えば、「顧客が契約をするか」などである。この場合、正解が陰性(契約しない)を誤って陽性(契約する)と予測してしまった場合(偽陽性)、予算の組み立てや仕事の方針など影響が出ることが想像できると思う。逆に、正解が陽性(契約する)を誤って陰性(契約しない)と予測した場合(偽陰性)は、営業者としては棚ぼたとなるためあまり重要ではない。
再現率
正解が陽性であるときに、陽性と予測したい場合の指標である。これは、防災予報で使用するのが適した指標であると思う。例えば、明日に震度7の地震が起きることを予測する問題を考える。この場合、「地震が起きないのに地震が起こると予想する(偽陽性)」より「地震が起きるのに地震が起きないと予想する(偽陰性)」の方が重要である。前者は「避難したけど何もなくてよかったね。」で済まされるが、後者は「なぜ予測できなかったんですか?」と責任問題になってしまう。
特異度
正解が陰性であるときに、外したくない場合の指標である。これは、犯罪や再犯率で使用するのが良いと思う。「犯罪をしていないのに犯罪したと予測する(偽陽性)」を行うことは、冤罪となるため避けるべきである。
F値
適合率と再現率の調和平均である。これは、偽陽性と偽陰性共に減らしたいときに用いる。また、どちらかをより重要視したい場合は、重みをつけて調和平均を行う。
適合率と再現率はトレードオフの関係にある。これは、適合率は偽陽性(起きると予想したが起きなかった)をなるべく減らしたい指標に対して、再現率は偽陽性を考慮しないためである。これは逆に、適合率は偽陰性(起きないと予測したのに起きた)を考慮しないのに対して、再現率は偽陰性を重視するためである。
最後に
特異度の犯罪の例では、「犯罪をしたのに犯罪をしていないと予測する(偽陰性)」を減らすのも重要であると思う。この場合、再現率で評価することも重要と考えることもできるが、特異度と再現率はトレードオフの関係である。
特異度と再現率の調和平均も定義することもできる気がするが特に名前がついてない??