ファイナンス機械学習:アンサンブル法 ランダムフォレスト
ランダムフォレストは、低バリアンスのアンサンブル法の一つである。RFは、決定木と違い、ノード毎に最適な分割を決める時に、全ての特徴量を判断するのではなくて、特徴量の一部をランダムに選び検討することで、ランダム要素が一つ余分にかかり、各推定期間の総監を下げ、予測バリアンスを削減している。
RFの望ましい設定はスニペット6.2で与えられている。
max_features 分割を決める時の特徴量の数を低い値に設定し、同じ木を多数発生させない。
min_weight_fraction_leaf 正則化パラメータを0.05以上の値に設定し、OOB正解率がアウトオブサンプル正解率に収束するようにする。
DecisionTreeClassifier にはBaggingClassifierを使用し、max_samples=agvU(平均独自性)とする
clf=DecisionTreeClassifier(criterion='entropy',
max_features='auto',class_weight='balanced')
bc=BaggingClassifier(estimator=clf,n_estimator=1000,max_samples=agvU,
max_features=1.)
RandomForestClassifierでも、BaggingClassifierを使用し、max_samples=agvU(平均独自性)とする
clf=RandomForestClassifier(n_estimator=1,criterion='entropy',
bootstrap=False,
class_weight='balanced_subsample')
bc=BaggingClassifier(estimator=clf,n_estimator=1000,max_samples=agvU,
max_features=1.)
組み込みのブートストラップを、逐次ブートストラップに置き換える