アセットマネージャーのためのファイナンス機械学習:金融データのラベリング
教師無し学習であった特徴量データの類似性からクラスタリングとは違い、教師あり学習は、例として与えられているXとyから回帰問題や分類問題を解答する。回帰問題では、例は無限母集団から抽出され、不連続(正数)もしくは連続(実数)である。分類問題では、整数値のような数えられるラベルであり、カテゴリカル変数か、順序ラベルに離散化される。
投資戦略に関して、証券の価格の予測を立てることが重要ではなく、保有期間の間に上昇/下降する確率を立てることが重要であり、特定銘柄のあるタイプに固執することなく、さまざまなラベリングを試す価値がある。
固定ホライズン法
手法とコードについては、前記事を参照されたい。
固定ホライズン法は、固定時間でサンプリングを行うため、市場が活発な時間帯と閑散時間帯で同じ扱いになり、分散が不均一となりやすい。このためには、市場活動も含めたドルバー、ボリュームバーを適用する。または、観測値にバー期間の推定ボラティリティで標準化した値を使う方法もある。
しかし、この解決法はともに、バーの開始時点と終了時点のみの情報を扱っているため、期間内での値動きは無視されてしまうことになる。閾値を超える正確な時間バーを知ることが重要なのではなく、この期間内での閾値超えを予測することの方が現実的である。
トリプルバリア法
固定ホライズン法と同じく、手法と実装コードに関しては過去記事を参照されたい。
トリプルバリア法は、売りか買いかのポジションの選択が成功であったか失敗であったかのラベリングを行う。
最初にバリアに達した時間は$${t_{i,1}}$$として記録され、
利益目標に達し、成功でポジションをクローズ:$${y_i=1}$$
損失限度に達し、損失でポジションをクローズ:$${y_i=1}$$
保有期間の最大バー数を超えて保持し、成功でも失敗でもなくポジションをクローズ:$${y_i=0 or sig[r_{t_{i,0},t{i,1}}]}$$
利食いと損切りの水平バリアを決めるには、サイドが決まっていなければならないので、サイドが決まっていない場合は、水平バリアは推定ボラティリティの関数として決める。
この方法には、バリアに触れるか触れないかの離散化事象を扱っていることである。触れないけれども、そこでポジションをクローズすれば利益になったかもしれないイベントを見過ごしている可能性がある。
これを補うのが、次記事のトレンドスキャン法である。
この記事が気に入ったらサポートをしてみませんか?