【W7】活性予測のための機械学習モデル_11_Step3_05_(ハイパー)パラメ(ー)タ(ー)
機械学習のスタンダード手法とも思えるランダムフォレスト(RF)を勉強しております。
【スタンダードな手法とはいいつつも】
RFでの予測は、深層学習での化合物プロファイル予測研究でもベースラインというか、従来手法との比較対象として用いられたりします。皆さん機械学習検討の最初にRFでの予測はやってみるのではと思います。今もなおスタンダードな手法の一つと思います。
船津研究室の「ケモインフォマティクスのオンライン入門書。」より
とありました。KNIMEでの実装例をいくつか見てもパラメータ(あるいはハイパーパラメータなどとも言われます)は
n_estimators: 決定木の数 (100~数百をよく見かけます)
Tree_depth(max_depth): ツリーの深さ (3~10くらいを見たことがあります)
の2種だけを変えるぐらいの例が多いと思います。
下記の記事を参考にしてもう少し書きますと、
前々回に紹介した通りです。
前回取り上げたRandom Forest Learnerノードの日本語化されたディスクリプションでは、
とあるので、このノード単独では固定で変更できなさそうです。
前々回で最深で20は深いのではと書きました。
学習に用いるデータ数やその内容で違うようなので、チューニングを行うことが多いそうです。t-kahiさんの下記記事は必見です。
Accuracyを指標に、予測精度が上げどまった深さでなるべく小さい値の「3」を採用した理由は
からということです。
【過学習の学習】
過学習と汎化性については優れた記事がネットにいっぱいあるのですが金子先生の記事を紹介いたします。
平易に説明して下さってます。初心者に優しい!
RFは比較的過学習しにくいし、汎化性が高いから初心者から使いやすく各種機械学習の研究で比較対象に置かれるのではと思います。
人間も過学習しちゃうんじゃないと言う記事が読み物として面白かったので紹介して今回はここまでとします。蛇足かも。
次回から、ニューラルネットワークなんですよね。初心者向きかなぁ…。
おまけ:
【ビジネスでランダムフォレストを検討した例】
初心者にも手軽に試せるRFと紹介してきましたが、玄人さんが扱うとまた違って見えました。
ケモインフォマティクスからは外れますが、ゲーム内で発生する不正行為の対策にRFを検討した例が面白かったので紹介します。
RF選定の理由以外にも問題設定やハイパーパラメーターのチューニングも興味深い記事でしたが、この精度が出せる秘訣はむしろ特徴量の選定にあるのではと思いました。
あと、さらに余談ですが
とコメントされており、ハイパーパラメーターとパラメーターは厳密には使い分けなくっていいんだと思ったことも書き添えておきます。
あと、パラメターとか、パラメータとかいわゆるSynonymが多いんですよね。
最後に、こんなにもRFにパラメーターが存在すると知って驚いた記事もリンクだけ引用しておきます。
もう機械学習研究という富士より高い山麓の樹海で遭難しそうです。