最終決戦! 弊社AI VS Scikit-Learnライブラリ
前回の記事で気象庁からダウンロードした気象データに対して正解率を競い、
弊社AIが全勝ということで終わりました。
しかしですよ、こう思った人もいるのではないでしょうか…
アヤメデータで勝たないと意味ないんじゃない?
そうです。最初に負け気味判定だったアヤメデータ。
アヤメデータで勝ってこそ真の勝利。
そこで弊社AI、ゼロから作り直しました。
ベイズモデルには変わりありませんが、別の理論を採用しました。
アヤメデータと気象データの両方についていざ勝負!
判定方法はより公平性を期すため、交差検証法の一種であるジャックナイフ法を5回行った時の平均正解率を競うことにしました。
(テスト回数はそれぞれ750回になります。)
また、前処理、チューニングは原則してませんが、敵に塩を送るようですがSVMだけは線形分離だと不利かなと思い非線型カーネルにしています。
僅差ではありますが、
弊社AIの全勝です!
でもこう思った人もいるでしょう、
僅差だし、偶然なんじゃないの?
そこで今回は仮説検定にかけてみました。
統計的に”弊社AIの正解率の方が高い”と言えるのか確認しました。
有意水準5%のt検定によると、
◯アヤメデータについて
決定木とランダムフォレストについては明らかに弊社AIの方が正解率が高い。
ロジスティック回帰とSVMについては差があるとは言い切れない。
◯気象データについて
SVMのみ明らかに弊社AIの方が正解率が高い。
他は差があるとは言い切れない。
という結果でした。
ほんとに僅差の戦いで、心臓に悪い企画でした笑
しかして圧倒的に負けているのは速度です。
Cythonによる実装を試みる予定なので、今度は速度を記事に取り上げるかも知れません。