見出し画像

dataikuを使って第2回 金融データ活用チャレンジに挑戦してみる

はじめに

「Everyday AI」を目標に掲げたAIプラットフォームの『dataiku』
2023年の夏に初めて知って触ってはみたけど、細々と資格を取ってみたりはしていたけどコンペ参加でもしてみようかと思っていたら知ったのが「第2回 金融データ活用チャレンジ」勢いでとりあえずエントリーしてみました。

まずは始めてみる

テーマは「ローンに関連したデータを基に、企業が返済不能になるかどうかの予測」。公式からもアナウンスがあったけど、まずはデータのクレンジングで、日付情報のフォーマットが”22-Sep-06,2006”となっているのを日付として認識できるようにしたり、金額が先頭に”$”がついた文字列になっているのを分析できるようにクレンジングして、あまり考えずにdataikuのVisual MLをとりあえず回してみてとりあえず投稿。スコアがいまいちだったのでもう少しまじめにやってみようかと。

データを読んでみる

やっぱり真面目にデータを読まないといけないと思い、普段使いなれているTableauを使ってデータ全体を下読み(dataikuのStatistics機能だと統計分析とかもできるけどまずは慣れているツールで)


UrbanRural(都会or田舎)とNewExist(新規ビジネスかどうか)を縦横にして返済不能になる割合を可視化してみると田舎の新規ビジネスは返済不能になる割合が高いので特徴量として使えるかも。

次にTerm(融資の期間)とNoEmp(融資を受ける前の事業の従業員数)を債務不履行/完済でプロット。うーん、何かが見えそうで見えないけどこれも特徴量で使えるかも。

視聴していなかった今回のコンペ用dataikuのチュートリアルも見てみる。
データクレンジングの基礎は見ないでいいかと思ったけど、我流のごり押しでクレンジングしていた作業をもっとエレガントに実施するTIPSもあって、最初から見ておけばよかった。モデルのDesignも今回のコンペにあわせてどう設定をすればいいかのアドバイスがあって勉強になる。


もう少し頑張ってみる

色々と策を行ってみたところ、何も考えずに実施したのと比べて暫定評価をだいぶ上げることができました。が、こういうコンペの上位は僅差を競い合っているので初参加としてはビビってます。
締切が2024年2月15日 23時59分59秒なのであと4日。もう少しトライしてみる予定です

最後までお読みいただき、ありがとうございます。

いいなと思ったら応援しよう!