すぐに仕事で活かせるAI講座 第一部 その2
データの条件とは
このAI/機械学習(専門用語でいうデータ サイエンス)を使って業務やサービスを行うためには、データが、次のようなある特定の条件を、クリアしていることが必須であることは必ず覚えておいてください。
•関連性があるか? :
あるデータAとBは、間違いなく関連していないとだめです。簡単に言うと、EXCELの一つの表で表せないとだめ、という程度でまずは大丈夫です。
•正確であるか? :
そのデータ元が信頼できますか、ということです。信頼できないとだめです。例えば、私とAIを開発しているベンダーが同じ データ/AI/機械学習を使って未来予測をしたとします。未来予測結果が全く同じになりました
(そりゃそうです)。
さて、問題。私とAIを開発しているベンダーのどちらの未来予測結果を信じますか?
ほぼ、AIを開発しているベンダー、となるはずです。
問題は、私にAIを開発しているベンダーのような信頼がないからです(泣)。
•連続しているか? :
ぬけ落ちがないデータ一連のデータでないとだめです。
どんないいデータでも、一部の値が抜けていると使えません。
まずは、EXCELの一つのグラフで表せないとだめ、という程度でまずは大丈夫です。
(もちろん、 このようなデータ抜けはよくあることであり、回避する方法はあります)
AIにはどのくらいデータが必要?
連続していて/正確で/かつ十分なデータがあれば、とよく何も考えずに言ってしまいますが(反省)
次の1年を予測するしようとする場合、過去の4年分の履歴(月別程度)のデータが必要です。
とくに "この商品の来年の価格はいくらになりますか" というような未来予測データ(回帰を使う)場合、 データに少なくともこの商品の4年分の履歴(月別程度のデータ)が含まれているかどうかを確認する必要があります。
【翌年を予測するためには過去4年分のデータが必要】
正確には、1年(12か月分のデータ )=12件 × 4年 → 48件以上
→翌年の12件(12か月分のデータ )が算出できる
を目安 としてください
実は、もうすこし少なくても機械学習のツール上可能ですが、上記すべてがそろってはじめて、連続していて/正確で/かつ十分なデータ と言えます。
よろしければサポートよろしくお願いします。いただいたサポートは、日中韓とアメリカのリアルタイム感情分析を進めるために使わせていただきます