見出し画像

最終決戦! 弊社AI VS Scikit-Learnライブラリ

前回の記事で気象庁からダウンロードした気象データに対して正解率を競い、

弊社AIが全勝ということで終わりました。


しかしですよ、こう思った人もいるのではないでしょうか…

アヤメデータで勝たないと意味ないんじゃない?

そうです。最初に負け気味判定だったアヤメデータ。

アヤメデータで勝ってこそ真の勝利


そこで弊社AI、ゼロから作り直しました。

ベイズモデルには変わりありませんが、別の理論を採用しました。


アヤメデータと気象データの両方についていざ勝負!


判定方法はより公平性を期すため、交差検証法の一種であるジャックナイフ法を5回行った時の平均正解率を競うことにしました。

(テスト回数はそれぞれ750回になります。)

また、前処理、チューニングは原則してませんが、敵に塩を送るようですがSVMだけは線形分離だと不利かなと思い非線型カーネルにしています。


検証結果

僅差ではありますが、

弊社AIの全勝です!


でもこう思った人もいるでしょう、

僅差だし、偶然なんじゃないの?


そこで今回は仮説検定にかけてみました。

統計的に”弊社AIの正解率の方が高い”と言えるのか確認しました。


有意水準5%のt検定によると、

◯アヤメデータについて

決定木ランダムフォレストについては明らかに弊社AIの方が正解率が高い。

ロジスティック回帰SVMについては差があるとは言い切れない。

◯気象データについて

SVMのみ明らかに弊社AIの方が正解率が高い。

他は差があるとは言い切れない。


という結果でした。

ほんとに僅差の戦いで、心臓に悪い企画でした笑

しかして圧倒的に負けているのは速度です。

Cythonによる実装を試みる予定なので、今度は速度を記事に取り上げるかも知れません。



いいなと思ったら応援しよう!