すぐに仕事で活かせるAI講座 第三部 その1
第3部 AIを使わず未来を予測する
この回では、単純なデータパターンを持つアメリカ政府の小麦対日輸出データ(上の図)を利用して、今後のアメリカの小麦対日輸出量を予測する方法について説明します。
目的:簡易データを使用して、未来予測の基礎モデルである線形回帰モデルを理解する。
簡易モデルで未来を予測する
簡易データを使用して、単純なモデル(回帰モデル)を作成して未来予測を行います。
"モデル" とは、データを簡易に扱うためのストーリー、と定義されています。
???? 何のことだか意味不明ですよね。
大丈夫です、おいおい説明していきます。
まずはデータチェック
最近のメディアの報道(本稿を上げたのは2018年3月初頭)トランプ大統領が、
なぜ日本に輸入(アメリカから見ると輸出)を増やせ!
と言ってきているのか考えたいと思います。
その理由が一番わかりやすい、アメリカ政府の小麦対日輸出データを利用して、2018年度の小麦対日輸出を予測します。
【図1 小麦粉の対日輸出量(上の図)】
USGOV,https://www.ers.usda.gov/data-products/feed-grains-database/feed-grains-yearbook-tables.aspx
米国政府公開データ(3週間内に公開される)を2011年6月から2018年2月まで月別に移動平均を算出したもの
※移動平均を使うと傾向が分かりやすくなります。なお、縦の列が輸出量(万t)で横が日付(月別)です。
実際に、データパターン、つまり1つのかたまりとしてみると、
6月スタートで上昇していき翌年5月がピークまた翌6月がスタート
となんとなくわかると思います。
このデータがデータ チェック条件を満たしていることに注目してください。
え、2013年10月が例外ですって??
アメリカ本土が干ばつで輸出できなくなったんです。
(こういう例外事象を 事故、と言いますが、この説明は、別途問い合わせてください)
それ以外は、基本的に、6月がスタートで上昇していき翌年の5月がピーク、というパターンになっていますよね。 では、前回も説明した、データチェックを行います。
【データ チェック】
• 関連性があるか? : 小麦の輸出量は間違いなく時間経過に関連しています。
• 正確であるか? : アメリカ政府が公式に発表したデータです。
• 連続しているか? : ぬけ落ちていないデータが4年以上ある。
(2011年6月から2018年2月末まで毎月(今回は毎週)分ある)
つまり、前回説明した通り4年分の毎月分以上のデータがあるため・・・
少なくとも1年後の未来予測するために 十分な データがある、といえます。
(未来を予測するためには、前回説明した通り、少なくとも4年間のデータがあれば、今後1年先を予測できます)