ファイナンス機械学習:アンサンブル法 ランダムフォレスト

ランダムフォレストは、低バリアンスのアンサンブル法の一つである。RFは、決定木と違い、ノード毎に最適な分割を決める時に、全ての特徴量を判断するのではなくて、特徴量の一部をランダムに選び検討することで、ランダム要素が一つ余分にかかり、各推定期間の総監を下げ、予測バリアンスを削減している。
 RFの望ましい設定はスニペット6.2で与えられている。

  • max_features 分割を決める時の特徴量の数を低い値に設定し、同じ木を多数発生させない。

  • min_weight_fraction_leaf 正則化パラメータを0.05以上の値に設定し、OOB正解率がアウトオブサンプル正解率に収束するようにする。

  • DecisionTreeClassifier にはBaggingClassifierを使用し、max_samples=agvU(平均独自性)とする

clf=DecisionTreeClassifier(criterion='entropy',
                           max_features='auto',class_weight='balanced')
bc=BaggingClassifier(estimator=clf,n_estimator=1000,max_samples=agvU,
                     max_features=1.)
  • RandomForestClassifierでも、BaggingClassifierを使用し、max_samples=agvU(平均独自性)とする

clf=RandomForestClassifier(n_estimator=1,criterion='entropy',
                           bootstrap=False,
                           class_weight='balanced_subsample')
bc=BaggingClassifier(estimator=clf,n_estimator=1000,max_samples=agvU,
                     max_features=1.)
  • 組み込みのブートストラップを、逐次ブートストラップに置き換える


いいなと思ったら応援しよう!