dataikuを使って第2回 金融データ活用チャレンジに挑戦してみる vol2
はじめに
前回の投稿で第2回 金融データ活用チャレンジに挑戦してみたことを書きましたが、コンペ期間終了して今回あれこれDataikuをいじってみて便利だと思った機能を備忘録的に残しておきます。
多彩かつ便利なデータクレンジング(前処理)
データクレンジング機能が豊富なのは知っていましたが、簡単にクレンジングできる機能を知って驚きました。
今回のコンペでまずクリアしないといけない、$付きの文字列のデータとか文字列の日付をクリックだけで数値や日付にクレンジングできるのは本当に便利です(金額の知らなかったので関数作ってゴリゴリやってましたがこんなに簡単にできるなんて)
Prepareの処理でたくさんSTEPを作っていると、どれが何だったのか分からなくなってくるけど、STEPを複数選択して、グループ化すれば後から見直したときまとまってくれているのはとても便利でした。
今回は使わなかったのですが、Codeを記述できるので、関数組み合わせてやってもいいけど、プログラム書いたほうが楽な処理は今後はコードでクレンジングしてみたいです
モデル作成
これに関しては他の方が多数ブログに書かれているのと、不勉強であまり使いこなせなかったところもあるのですが、便利だと思ったのがConfusion matrixの閾値の変更が簡単にできるのが面白かったです。
今回のコンペとは少しずれるけど、どんなモデルを作りたいか、再現率を高くしたいのか適合率を高くしたいのか。にあわせて簡単にチューニングできるのではないかと思い、いい機能だと思いました。
こんなのあったらいいな
以前から思ってはいたけど、こんなのあったらいいなだとADD A NEW STEPで追加するSTEPを選択するときには説明が表示されているのだけど、選択した後には表示されなくなるので「どうやって使うのだっけ?」が分からなくなるので(英語表記だからそう感じるのかも)こんな感じに入力すればいい。のサンプルを常に参照できるともう少し使いやすくなるかと。
あと、バージョンの管理で以前作成したバージョンに戻れるけど、手が滑って計算式を消してしまった。とかのときに簡単に戻れる機能があるともっと便利になる気がしました。
まとめ
DataikuのML Practitionerをとりあえずとってはみたけど、機械学習の初学者で右も左もよくわからないという状態ですが、今回のコンペに参加していろいろと調べてみたり、チャレンジしたりをできたのでいい体験になりました。上位層があまりに接戦だったので上を狙うのはやめてDataikuをあれこれいじってみるを主軸にしましたが、次回はハイスコア狙えるように精進していきたいです。
最後までお読みいただき、ありがとうございます。