見出し画像

外挿データもチェックしよう

ソフトのリリースは続く

というわけで、本日より、Machine Learning Data Checker の最新版がリリースとなりました。今回のバージョンでは、以前より予告しておりました外挿データの検出機能が実装されています。
今日はそのトピックです。

外挿データって?

外挿データについては、具体的な例を元に説明します。

ここでは、外挿データとは学習データからの類推が難しいデータという考え方をします。つまり、学習データに近いものがあればそれは外挿では無い。学習データに類似するものがなければ外挿である。そのような考え方です。
厳密には違うけど、そっちで理解した方が多分これからの話は理解しやすいです。

性能テストしましょう

実データにはこのような例はありふれていますが、評価するためにはもっとわかりやすいデータを用意する必要があります。そのため、今回は MNIST のデータを次のように加工して外挿データの検出性について評価を行っています。

  • 学習データ
    MNIST の教師データで、ラベルが 0,1,2,3,4 のいずれかであるもの。

  • 外挿評価データ
    MNIST のテストデータで、ラベルが 0,1,2,3,4,5 のいずれかであるもの。

つまり、テストデータでラベルが 5 のものがどれぐらい検出できるか?が検出性能についての評価指標となります。また、今回は 5 の文字を評価データとしましたが、5 は文字の構造が複雑で他の文字に近しいものが多く含まれるちょっとやっかいなものでもあります。そのため、100% 検出することは出来ませんでした。また、5 以外のラベルについてもかなり汚いデータが含まれており、それらも外挿として検出されています。

今回の結果のまとめです。

  • label = 0, 5/980, rate = 0.00510204081632653

  • label = 1, 0/1135, rate = 0.0

  • label = 2, 1/1032, rate = 0.0009689922480620155

  • label = 3, 5/1010, rate = 0.0049504950495049506

  • label = 4, 1/982, rate = 0.0010183299389002036

  • label = 5, 365/892, rate = 0.40919282511210764

5 のラベルのついたデータのうち、40% のデータを外挿として検出することが出来ました。残りの60%は他のラベルのデータに取り込まれてしまい、外挿として検出することは出来ませんでした。
前述の通り、5という数字そのものが識別が難しいため、実際他のラベルの文字として扱われてしまったと推測しています。

いくつか実例を画像でしまします。


外挿と判定されたデータ(不良データ)


外挿と判定されたデータ(未知データ)

とはいえ、40% 検出できたということから次のような解釈が出来ます。

  • label 5 は、40% の外挿データが含まれており、0,1,2,3,4 のラベルとは別の種類のデータと考えるべきである。

もちろん、テストデータなので、我々は 5 は 0,1,2,3,4 のデータとは異なることを知っています。しかし、実データの場合、5 が 0,1,2,3,4 とのどれかと一致するデータなのか、そうで無いのかということは明確ではないケースが多々あります。
そういう際には、このツールの結果を基に未知のデータの量を数値化することで、学習データだけではなく、評価すべきデータの問題点も洗い出すことが出来るようになります。

応用例は色々

この結果は色々な用途で使うことが出来ます。

例えば、教師データを一つラベルを抜いたものと、抜いたデータの二つに分けます。そして、抜いたデータの外挿をチェックすることで「データの紛らわしさ」を数値化できます。
外挿として検出できるデータが少ないならば、紛らわしいデータであり、モデルの成績に悪影響を与える可能性があります。具体的には、抜いたデータを他のデータに誤答する可能性が高くなります。
外挿として検出できるデータが多いならば、紛らわしさが少ないため、抜いたデータが誤って分類される可能性は低くなります。

このようにして、データの品質を数値化する手段として本ツールを用いることも可能です。

ツールの今後

このツールは当面は無償で公開します。将来的にはサブスクリプションでの有償化を検討していますが、その時期は未定です。
学術機関の方々が利用する場合、私まで連絡頂ければ有償化後も無償で使えるような対応(パスコードの発行など)を行います。
また、個人で使いたい方は、1日での利用回数に制限はあるものの、その範囲内で無償で使えるような形で検討しています。

このツールについての問い合わせは、私までお願いします。

皆様の業務にこのツールが役立つことを願っています。

一応、Microsoft Store の URL は以下となります。
https://www.microsoft.com/store/apps/9NKDJ0HTJ29P

いいなと思ったら応援しよう!