【Dataiku】第2回金融データ活用チャレンジに参加してみた

【Dataiku】第2回金融データ活用チャレンジに参加してみた | Tableau-id Press -タブロイド-
img_65d01834a67ae

こんにちは。m.fujitaです。
JTUG総会での[データポップカルチャー:AIによるTableauの進化]
での佐藤豊さん・松島七衣さんによるDataikuの紹介や
金融データ活用チャレンジに向けたYoutubeでのハンズオンの動画(2/15公開終了)から、Dataikuの盛り上がりを感じています。

というわけで、私もコンペに参加しよう!と思い立ちました。
そして、そのムーブは社内にも拡がっております。
スゴイ嬉しい動き!

金融データ活用チャレンジとは

詳しくはこちらをご覧ください。
(2024/2/16現在サーバーダウンで見られない可能性があります。)

https://signate.jp/competitions/1325

▼課題

今回は企業向けローンの返済可否予測というテーマを通して、ローンに関連したデータを基に、企業が返済不能になるかどうかの予測に挑戦して頂きます。このデータを活用することで、どの業種や地域が成長の機会を持っているか、あるいはどのような要因がビジネスの成功に影響を与えるかなど、金融機関は効果的な企業支援の戦略を立てることができます。

コンペ投稿時のフローとモデルについて

私は業務でDataikuを使用していないので、ほぼ初心者状態です。
というわけで、忠実にYoutubeのハンズオンの通りにフローを編集した上で
Dataiku社の方々の研究結果(?)も学びつつ、金融データコンペに投稿してみました。

■前処理

1.日付カラム を文字型からDate型にする
Approval Date(米国中小企業庁の承認日)
Disburse Date(融資の支払日)

2.金額カラムを$と数値に分ける
 DisbursementGross(銀行によって支払われた金額)
GrAppv(銀行によって承認されたローンの総額)
SBA_Appv(SBAが保証する承認されたローンの金額)

3.LowDoc(15 万ドル未満のローンを 1 ページの短い申請で処理できるプログラムか)
Y/N以外のカラムはNULLにする

4.Approval Date(米国中小企業庁の承認日)
Disburse Date(融資の支払日)の差異(期間)を計算する

この3つの処理をprepareツールで設定しました。

フィールドごとに分析できる機能がとても分かりやすい!

LowDocフィールドにYが何%、Nが何%入っているか・・・など
割合を俯瞰して見られるのは特徴量を考えるときにとても参考になります。

■モデル

モデルは2パターン試しました。
1つは、LightGBM
2つ目がEnsamble です。

1.LightGBM

Dataikuのハンズオンを参考に、まずは何も考えずにMetrics→F1 Scoreを選択しました

また、機械学習のアルゴリズム選択としてメジャーだと言われているLightGBMとXGBoostをオンにしてみて実行してみました。
根拠はこちらをご参考いただければ幸いです。
https://upura.hatenablog.com/entry/2019/10/29/184617
https://www.dskomei.com/entry/2021/04/16/111422

実行後、LightGBMが一番高いスコアを出したので採用してみました。

2.Emsenble
モデルのアンサンブルをすると評価が上がりやすいと金融データ活用チャレンジのSlackで拝見し、早速やってみました。
下記のように、1度作ってみたモデルを複数選択しアンサンブルモデルを作成できます。

■後処理

後処理ですが、Predictionに不均衡が起きるので、整えたほうが良いとのこと。
なるほど!というわけで、調整してみました。
ここも、もう少し深掘りして勉強してみたいところです。不均衡が起きる原因とか、なぜ調整したらスコアが上がるのか・・・

修正した場所はこちらのPrepareツールです。

 

■作成したフロー

結果こんな感じになりました。

■Tips

フローを整理したいけどどうやっていいか分からない・・・と思っていたら弊社たまるが、このような発信をしてくださってなるほど!となったのでシェアします。

結果

私としては、0.676ものスコアを出せて大満足していました。
途中経過では434位でした。

そして2024/02/16に最終結果を確認したところ、323位になっていて驚きました。
最終評価って途中評価とは異なるのですね。

まとめ

SIGNATEのコンペにDataikuを使用して参加してみて投稿できた!
さらにスコア上げたい!なんていう意欲がどんどん湧いてきたので
また凝りずに参加したいと思います。
どのような特徴量が結果を左右するか、試してみるところからやってみたかったのですが
まだその域には達していませんでした💦

今回このような機会をいただきありがとうございました。
今後はDataiku資格のコンプリートを目指します!