見出し画像

【擬人化してみた】GBDT御三家 vs TabNet & 新星TabM

お久しぶりです。かーまたです。
最近、Kaggleにどハマりして時間を溶かしまくっています。
気づいたらチューニングやEDAに没頭し、「あと少しでスコア上がるかも…!」 という期待に駆られて夜更かしする日々…。

そんなKaggle漬けの毎日を送っているうちに、テーブルデータでよく使われる GBDT御三家(XGBoost, LightGBM, CatBoost) や、ディープラーニング勢の TabNet, そして新星TabM のキャラクターが頭の中で勝手に擬人化され始めました。

せっかくなので、ChatGPTの力を借りつつ(いい時代になりました)、彼らの特徴や最新動向を 擬人化して紹介 してみます!


テーブルデータ界で活躍する最強の機械学習モデルたち。
特に GBDT御三家(XGBoost, LightGBM, CatBoost) は、長年にわたってその圧倒的な実力を見せつけてきました。

しかし近年、ディープラーニングを活用したTabNetや、「バッチアンサンブル」を搭載したTabM などの新勢力が登場し、GBDTの牙城を崩そうとしています。

GBDT御三家:歴戦の猛者たち


XGBoost(通称:XGB)

「職人肌のオールラウンダー」

• 30代前半のストイックな男性。短髪で無駄のないスーツスタイル。
「最適解を出すには努力が必要だ」 と言いながら、ハイパーパラメータチューニングをこなす。
• どんなタスクでも 安定したパフォーマンスを発揮 するが、計算コストをあまり気にしない性格。
「遅くてもいい。確実にベストを尽くす」 と言って、しっかり学習を積むタイプ。
• 若いころは独走状態だったが、最近はLGBMやCatBoostに押され気味。

🔗 XGBoost公式ドキュメント
🔗 GitHubリポジトリ

LightGBM(通称:LGBM)

「最速を求める天才肌」

• 20代後半のクールな青年。白衣を着たエンジニア風。
「スピードが全てだ」 と豪語し、最速の学習を誇る。
• メモリ効率を極限まで追求し、 大規模データでも余裕の表情
「XGBは頑張りすぎ。俺は効率を求める」 と、Leaf-wise戦略を駆使する。
• ただし、過学習を制御しないと暴走する一面も。

🔗 LightGBM公式ドキュメント
🔗 GitHubリポジトリ

CatBoost(通称:Cat)

「データの特徴を知り尽くした策略家」

• 30代前半の知的な女性。眼鏡をかけた分析官タイプ。
「カテゴリ変数は私に任せなさい」 と言い、エンコーディング不要でデータを処理する。
• XGBとLGBMを横目に 「君たちはまだ生データの本質を理解していない」 とクールに笑う。
• ただし、「学習には少し時間をかけさせてもらうわ」と計算コストが高めなのが難点。

🔗 CatBoost公式ドキュメント
🔗 GitHubリポジトリ

ディープラーニング勢:革命の波


TabNet

「革命を夢見るアウトロー」
• 20代前半のワイルドな青年。フードをかぶり、AI時代の申し子のような雰囲気。
「GBDTばかりの世界、俺が変えてやるぜ」 とディープラーニングで挑戦を続ける。
• Attention機構を駆使して特徴量の重要度を可視化。
• しかし、実戦ではGBDT勢に押され気味で 「理論は完璧なのに…なぜだ」 と悩むことも。
「GPUを活かせば勝てるはず」 と信じているが、計算コストが重いのが弱点。

🔗 TabNetの論文
🔗 GitHubリポジトリ

TabM(通称:M)

「新たなる希望、だが実力は未知数」

• 20代前半の無邪気な少年。最新技術を詰め込まれた実験体のような存在。
「僕、新しいんだ!すごいんだよ!」 と自信満々だが、実績はまだ少ない。
• TabNetの弟分のような存在で、「兄貴よりすごいって証明する!」 と意気込む。
「バッチアンサンブル」を活用し、GBDTを超える場面も増えてきている。
• GBDTのベテラン勢とディープラーニングの兄貴分に挟まれ、「どっちの道を行くべき?」と悩むことも。

🔗 TabMの論文
🔗 GitHubリポジトリ

GBDT vs Deep Learning:覇権争いの行方は?

これまで、 GBDTモデルはテーブルデータの王者 だった。
だが最近、TabMの「バッチアンサンブル」によって、GBDTを超える場面が現れ始めている。

とはいえ、計算コストや実装のしやすさでは依然としてGBDTが優勢。
XGB、LGBM、CatBoostが築いてきた盤石の体制を崩すには、さらなる改良が必要だろう。

ディープラーニング勢がこの戦場で 「GBDT超え」を本格的に果たせるのか?
それとも、GBDTが 「最適化とチューニングの力」でディープラーニングを圧倒し続けるのか?

今後の進化を見守っていこう。

…とまあこんな感じです。TabMは使用感としても、GBDTを凌ぐ性能が出やすいように感じます。テーブルデータに対しても深層学習が優位に立つ時代がそう遠くはないのかもしれませんね。

いいなと思ったら応援しよう!