中学生にも広まったデータサイエンス用語大賞:偽陽性、偽陰性 DAY#3

こんにちは、Tokyo Creators' Projectでデータ分析やっております須崎博紀と申します。「ニューノーマルな働き方」で一稿入れさせていただきます。

『新語・流行語大賞』2020“年間大賞”は、「3密」に決定 したらしいですね。私は個人的な流行語大賞をここで発表させていただきます!私は、統計学や機械学習を応用した仕事を提供しており、2020年は国民レベルで統計リテラシーが上がるイベントがたくさんあったのではないかと思っており、独断と偏見で選ぶ大賞です!

個人的流行語大賞:「偽陽性、偽陰性」

PCR検査で、5月ごろ一気に広まった概念です。

偽陽性 本当は新型コロナウイルス感染症で無いのに、陽性と出てしまう
偽陰性 本当は新型コロナウイルス感染症であるのに、陰性と出てしまう

PCR検査の感度(新型コロナウイルス感染症の方で、PCR検査が陽性となる割合)は現時点では高くて70%程度と考えられており、特異度(新型コロナウイルス感染症でない人を正しく新型コロナウイルス感染症でないと診断できる割合)は99%程度であると想定します。インフルエンザ検査の一般的な検査では、感度 = 70%、特異度 = 98%と言われていますので、同じモデルであるとし、仮に1,000,000人がPCR検査受けた時に、以下の表のようになります。

画像2

この表の中で、間違っている部分は、偽陰性「感染しているにも関わらず検査結果が陰性である」30人と、偽陽性「感染していないにも関わらず検査結果が陽性である」9,999人となります。

1,000,000人の検査をして、結果が陽性は、実際感染者70人と、感染していな9,999人。合わせて10,069人です。しかし、この中で実際に感染していたのは70人だけです。検査結果が陽性になった人のうち、わずか0.69%しか本当の感染者がいない(70/10,069)、ということになります。

陽性判定が出たとしたら、どうなるでしょうか。70人の感染者及び、実際にはコロナに感染していない9,999人について、医療施設に隔離することになります。医療体制にも大きな負担がかかるということで、果たしてそれでよいのだろうかというような議論が起こりました。

これによって、国民レベルに、偽陽性、偽陰性という言葉が広まった部分があると思います。

ビジネスへの応用

統計学や機械学習から生まれるビジネスソリューションにおいて、こうした評価指標を理解し、定義することは、ビジネスと機械学習の成果を結び付けるとても大切な事柄になっています。以下のような評価指標を理解しないといけません。ですが、実は上記のPCR検査の話題の中にすでにこの評価指標の話が入っているのです。

有名な評価指標3つ(覚えるな!PCR検査を思い出せ)

下記は、3つの評価指標を並べてみました。

正答率(Accuracy)適合率(Precision)再現率(Recall)です。

しかし、実はこれらは上記のPCR検査の話題の時に理解済みになっている評価指標とも言えます。

最近は従業員の退職を予測する機械学習モデルの精度があがったという論文が多数出て、ワークプレイスを良くすることで最終的になにがよくなるのかの議論に、従業員の退職にも影響もある可能性があり、ビジネス目標になることもあります。

実例で説明しましょう

従業員の退職の予測モデルの評価指標はどれがよいのでしょうか?89%の精度、73%の精度、47%の精度があります。

正答率(Accuracy)

画像2

適合率(Precision)

画像3

再現率(Recall)

画像4

正答率は、PCR検査の話で出た、間違っている部分の逆、すなわち正解している部分の割合です。つまり、退職すると予測して実際に退職した割合と、退職しないと予測して実際に退職しなかった割合の合計です。退職者のみならず、退職しない方の予測まであてるという意味では難易度は高いですが、退職する・退職しないに偏りがありすぎると使えないことになります。

適合率は、PCR検査の例でも用いたように、陽性判定をしてしまった中での実際の陽性者の割合の応用です。ここでは、退職と予測してしまったなかでの、退職者が73%いたということになります。退職者予測してしまった人に対しては、実際退職しなかったとしても、面談などを行い事前に課題点がないかを話し合う場を設けることで退職につながるケースがすくなくなる可能性があるため、この実際退職しない人の数がべらぼうに多くなければ、面談コストもそれほどかからず有用であることになります。

再現率は、上記のPCR検査の例の感度と同じです。インフルエンザも新コロナも、感度が70%ほどとなっているということは、100人の感染者のうち、70人は陽性に出ます。一方、30人は陽性にはなりません。この人たちは感染しているのに検査結果は陰性なのです。退職者で例えると、46人の退職者のうち、退職と予測できた割合はここでは47%ですので、本来はもっとこの再現率は高められるようにしなければならないのではないかなど、他の予測モデルと比較してシステムとしての存在意義を問う指標になります。

あとがき:統計学的リテラシーがあがった年

個人的に独断と偏見で2020年の流行語大賞を発表させていただきました。きっかけは、実はカフェにいる際に、隣にいる明らかに中学生とおもわしき男の子たちが、偽陽性と偽陰性について、ナプキンに書いて「意味わかんなくない?」「いやそうでもないよ」とやりとりして、話していたことです。

誤答率の話、実際の感染率の話、再現率の話。これらが、見事に話されており、今データサイエンス界隈に参入してきている方々や、それを管理する人たちにとって、とても重要なのに、結構適当になってしまっている、評価指標の話が全部入っていたと思えました。統計学や機械学習を仕事にしている人でも、これらを使いこなせていない人もまだまだいる可能性もあると思っておりますが、中学生にも使われたキーワードとなったということは、日本のあちらこちらで。いや世界のあちらこちらで起こった事象であったということでしょう。

PCR検査実施にともなうコストなどの議論はともかく、この指標を考えることは、さまざまな仕事で役に立つと思いますし、中学生も気にするようになったこの2020年は、統計学的なリテラシーが国民全体であがった年になったのではないかと振り返っています。機械学習モデルのビジネスへの応用はまだまだ始まったばかりです。あらゆるところで使われるようになったらいいなあと思います!