#2-2:モデル完成までの道のり...
統計の予測モデルの完成までには、結構な道のりがあるので、その道のりについて、経験をもとに書きますね〜他の方法とかもあると思うんですが、僕流ということで1例として捉えてください。結構力作な自信ありです!
■目的変数と説明変数の準備
STEP1:目的変数を決めましょう!
モデルを利用して、何を予測するのか確定させるかということです。例えばアイスクリームの売上を予測するとか。
STEP2:説明変数を決めましょう!
目的変数を構築する原因が何か・その原因となる説明変数が取れるかも踏まえ検討しましょう。特定する必要はないんですが、どの辺のデータを取ってきて分析するかを考えましょう。アイスクリームの売上を予測するときなら、まず、気温とか天気とかは必要そうだねと目星をつけます。ここで重要なのはあまり変なデータをいれないこと。いれても影響しないんですが、その分、計算するPCに負荷を与えたり、データ集めに時間がかかるので。
アイスの売上考えるのに、AさんのPokemon GOの捕まえた数なんて調査するのも大変だし、あまり必要そうでないですよね〜
STEP3:データを準備しよう!
必要なデータは、テストデータとトレーニングデータです。
・テストデータとは...
モデルを作るために必要な過去データ└説明変数と目的変数がセットになっているデータ
・トレーニングデータとは...
モデルの精度を測るのに必要な過去データ└説明変数と目的変数がセットになっているデータ
ここから早速、モデルを作っていきましょう〜
■モデル種類を判断!
STEP4:モデルの大まかな種類を判断しよう〜
前回のときに書いたように目的変数が、
・量や連続データなら、回帰モデル
・質や離散データなら、分類モデル
を使うと判断していきます〜
STEP5:各モデルでどのモデルがいいか候補を検討しよう〜
どのモデルがいいかは、有名なものから検討していくのがいいかと思います。詳しくは次回に書きます。
回帰モデル(代表例)
・ロジスティック回帰
・サポートベクターマシン
・ランダムフォレスト
分類モデル(代表例)
・Naïve Bayes
・決定木
・サポートベクターマシン
・ランダムフォレスト
■どのモデルをベースにするか検討!
STEP6:モデル自体の確からしさ評価しよう〜
モデルが仮でできたあと、そのモデルの確からしさを調べましょう。有名な方法としては、モデルサンプル法。こちらは次次回くらいに書きますね。
→ここでモデルがいまいちなら、再度作り直し(STEP7)
■モデルの精度向上!
STEP8:モデルの精度を調べましょう。有名な方法は下記かな。
・ROC 曲線(および AUC・ジニ係数)
ここも次次回です。
STEP9:精度測定の結果をもとに調整
STEP8で行なった精度検証を元に、変数に重みをつけるなどして、調整していきます。
ここまでできたら、あとは実装あるのみ!
こんな感じでやっていけば、バッチリです!!...僕的には大丈夫なはず。
あまり、この辺の手法をまとめているものがなかったので、まとめてみました。上記に書いたものをまとめると、下記の図解のようになります。
■わかりにくい言葉を簡単に説明すると...
今回は結構、本気で書いた...というより、かなり頭にあったふわふわしたものをまとめるのに時間がかかった...初めて、モデルに触れる人にぜひ読んでいただけると嬉しいなぁ〜と思います。
次回は、「回帰モデルの判断方法」について書いていこうと思いますので、ご興味のある方はフォローいただけると幸いです。
この記事が気に入ったらサポートをしてみませんか?