
20241012_Rist Meetup 2024「Kaggleは業務の役にたつ」参加レポート
こちらのイベントに参加してきました。
端的に言って神イベントで、非常に良い刺激をもらえました。
イベントについて
「Kaggleが業務にどう役に立つのか」をテーマにKaggle Grandmasterの方々による発表、Masterの方々によるLTが実施されました。

主催のRist社について
Rist社は画像AI事業とデータ分析事業をドメインとしている2016年に設立した受託分析会社です。
Ristでは「AI開発は“一騎当千”である」という考えのもと、エンジニアの技術力向上のための取り組みに力を入れています。
会社のホームページにあるように、特筆すべきはその技術力の高さとそのための組織設計です。
2020年1月にRist Kaggle チームを立ち上げ、Kaggle Grandmasterの小野寺さんをアドバイザーとして迎えたことを皮切りに、現在は社員67名のうち、Competition GrandMasterが9名、Masterが3名在籍しています。
Kaggler枠採用が用意されていたり、業務時間の最大50%をKaggleに充てて良いというルールを設けており、Kagglerにとって最高の福利厚生が実現されています。
こういった背景から、特にKagglerの中では圧倒的知名度を誇っている企業だと思います。
Kaggler GrandMasterによる発表
ここからはGM陣の発表を振り返ります。
身も蓋もない言い方になりますが、実力者が語るその様には圧倒的な言葉の分厚さと説得力があり心に響く内容ばかりでした。
参加者の皆さまもKaggleに一生懸命取り組んでいたり圧倒的な成果を出している方々しかいなかったので、会場は常に一体感があったように思います。
X/Twitterのハッシュタグ #rist_meetupでも大いに盛り上がっていたので、そちらも取り上げながら書いていきます。
※ もし本ブログにて何か引っかかったり、誤解を招く表現があった場合には、ブログ執筆者である私に起因するものです。
GM発表①:とある事業会社にとってのKagglerの魅力 hakubishin さん
まず最初は、ハクビシンさんことWantedlyの合田さんの発表です。
「データサイエンティストという職業は企業によって役割や業務が異なる」ということを前提に、あくまで自社であったり合田さんの立場から見てこう考えている、ということは強調されていたように思います。

機械学習モデルの性能とサービスのコア価値が強く相関するような事業で働くのって機械学習エンジニアにとっては幸せなことですよね
— Hidehisa Arai (@kaggle_araisan) October 12, 2024
#rist_meetup



このあたりの話は特に共感を覚え、手前味噌で恐縮ですが、効果検証の文脈でも同じ話をした/聞いたことがあります。
白金鉱業FM ep.86:https://shirokane-kougyou.github.io/episode/86
効果検証で結局使うのはシンプルで説明しやすい手法。ただそのような結論になっても、選択肢を知ったうえでより最適な選択肢をとれることに価値がある
DS X Meetup:https://brainpad.connpass.com/event/310103/
仕事で価値を発揮している人は専門スキルとソーシャルスキルの両方を兼ね備えている人
また、発表内で「真の科学的理解」という惹きのあるワードが使われていました。

ほかにも、
Kaggleは質の高い試行錯誤をする獲得できるプラットフォームであること
Kaggleが特に役立ちそうなML業務の分類
Kaggleを通じて獲得できるスキルの代替可能性
そのうえで「Kaggle が楽しい!」となるなら、Kaggle はあなたにとっての最高の成長機会
といった内容が語られていました。
ほかの方の発表もそうですが、私の文章ではその魅力を伝えきれないのでぜひ資料をご覧ください。
GM発表②:Competitionsだけじゃない! Kaggle Notebooks Grandmasterのすすめ
次はcorochannさんこと、Preferred Networksの中郷さんの発表です。
CompetisoinsとNotebooksの両方のGrandmaster、かつ日本人初のNotebooks Grandmasterの方です。
発表資料にある通り、2024年10月現在、日本人NotebookGMは6名とのことです。



Notebookの魅力について、特に口頭ではCompetitionsでの対比も含めて語られていました。
また、「UpvoteをもらいやすいNotebookのカテゴリ」という戦略的な話も語られていました。
Quick start
EDA
Tutorial
Model Training
Model Inference
小ネタ系
データ生成系
また、これらはどれかのカテゴリで特化して書くよりも、特定のコンペに深く入り込んで複数のNotebookを書く方が効率的と考えているというお話もされていました。
また、NotebookとCompetitionsのメダル狙いの並走は可能という説明の際に
(Notebookを)公開した上でやっぱり自分が一番先をいけばよい。
と語られていました。本当にかっこいいですね。
ほかにもマナーや協調についても語られており、このあたりもKaggler陣の良い文化だと思いました。


Notebookでメダルを獲得することの魅力、そのための知見、戦略などがとてもよくまとまったスライドでした。
ここまでKaggleのNotebookに向き合ったスライドは日本初ではないでしょうか。
(もしかしたら世界初だったりしますでしょうか?)
せっかくなので、資料に記載されていた関連記事も置いておきます。
GM発表③:なぜKaggleでベストを尽くさないのか RabotniKuma さん
続いてはくまさんことYoshiharaさんの発表です。
2024年10月13日執筆時点では資料は公開されていないようですので、私の手元のメモベースでの記載になります。
発表タイトルはドラマTRICKの作中に出てくる書籍のオマージュとのことです。

Kaggleが業務の役に立つのか?という論争が起きる際の意見に対して、俯瞰的かつユーモラスに回答していました。
月刊Kaggleは業務に役に立たないへのアンサーが始まった #rist_meetup
— charm (@charmq00) October 12, 2024
ユーモラスな表現については私の文才ではニュアンスが伝えられないため、割愛して真面目な文章をメインに書きます。
批判的意見①:問題設定が理想的すぎるため、実務では役に立たないのではないのでしょうか?
コンペを開催するためには、Kaggleに5万US$以上を払う必要があり、複数回開催している会社も少なくない。つまりその会社には役に立っているはずと回答していました。
(ほかにも理由を回答していた気がしますが、特に印象に残った内容を断片的にメモしている関係で省略しています)
批判的意見②:0.1%の精度改善にはビジネス的な意味がなかったり、巨大なアンサンブルモデルは現実では使えなかったりしませんか?
コンペにおける真の成果物は「モデルの重みファイル」ではなく、「その集合知である」と回答されていました。
また、「KaggleはF1」と例えており、フラッグシップで争い、実験を繰り返して精査することで、そこからの集合知こそが成果になると語られていました。
※ F1スコアではなく、モータースポーツのF1です。
これについては、言い回しは違えど、最初のハクビシンさんからの発表からも同様のメッセージが伝わってきました。
批判的意見③:Kaggleってパラメータチューニングしているだけだったりしませんか?
一言でパラメータチューニングと言っても考える範囲は広く、「パラメータチューニングに求められるレベルの高さ」についての認識にギャップがあるという旨を語られていました。
ほかにもKaggleの価値は「競争」と「共創」にあるなど語られていました。
Kaggleの価値は競争と共創
— HIROSE Tomoki(広瀬 友貴) (@nakakiiro) October 12, 2024
こういうの行政の人好きですよねは草#rist_meetup
特に競争の部分について印象に残っている内容を書きます。
Kaggleで身につく様々なスキル
・データを見る力
・モデリング力
・結果を批判的に見る力
ひとつのコンペを完走する=教科書数冊分の学び
一個のコンペでどれくらい時間を使っているのか
→charmさんは300時間
KaggleだとトップKagglerでもつぎ込む時間は1コンペに数百時間。これを5~10ぐらいやると金メダルとかある程度の成績を残せる期待値かも。
— カレーちゃん (@currypurin) October 12, 2024
これがビデオゲームの世界だと、そうはいかないので、割とコスパの良いゲームなのかもと思った。#rist_meetup
会場も「そのくらい時間を使うよね~」という雰囲気だったのと、知り合いのGMやMasterからも同じような話をよく聞きます。
しっかりコミットして200点のパフォーマンスを出すやり抜く力みたいなのは、Kaggleで成果を残している人に共通する能力のひとつだなと思います。
・Kagglerは実務や研究を行っているだけでは触れることのない、多様なデータのモデリングに触れられる
・Kagglerはリークを許さない
「リークをさせない」というのはその言葉から受ける印象以上に難易度が高いと思っています。
そして最後に「Kaggleは業務の役に立つか」ではなく「自分は業務の役に立つか」で考えることが大事といった旨の言葉で発表を締めくくっていました。
GM発表④Kaggle駆動ソリューション / プロダクト開発 ishikei
最後はishikeiさんことRistの石さんの発表です。
2024年10月13日執筆時点では資料は公開されていないようですので、私の手元のメモベースでの記載になります。
ほかの発表とは少し毛色が違い、組織目線でKaggleがどう業務に役に立っているかというお話でした。
Ristは現在社員67名で、Grandmasterが9名、Master3名が在籍しています。(何回聞いてもすごすぎて「ちょっと何言っているかよくわからない」という気持ちになります)
Kaggle チームの活動として、解法を解説し合うワークショップや業務内でのコンペ参加が認められています。
はじめは、「Kaggleの問題解決能力」を組織として業務でフルに活用するための工夫について語られていました。
資料公開がされていないので、念の為少し粗めの粒度で記載しますが、
一言でいうとトランザクティブメモリー(誰がどういうスキルを持っているか)を管理・共有する仕組みを整えているとのことでした。
また「精度勝負では他社に負けない」ということ自体が売りになったりもするとも語られており、これは本当に素敵だと思いました。
よくあるAIツールの実績はドメインや環境にも大きく依存するため、横並びに評価するのは不可能だと考えています。しかし、Rist社のKaggleの実績は会社としてのケイパビリティを客観的に示せるため非常に説得力があります。
ほかにも具体的にKaggleで得たスキル、どういった損失関数やモデル設計が実務に役立ったかなどについても語られていました。
単位根がある非定常な過程を予測するな定期。 #rist_meetup
— y-Carbon (@yCarbon_jpn) October 12, 2024
ほかにも発表や質疑応答で印象に残ったワードを記載します。
・「ただ知っているだけ」と「実際にモデルをつくる経験」は違う
・瞬発力や考える深さ、どこに気をつけるポイントがあるかわかる
・Kaggleでの経験から、ここまでで精度として十分という切り上げ方もできる
発表後にRist社がこの世界観や文化を実現した経緯が気になって調べました。その際に参考にしたサイトを置いておきます。
多くの会社が実現したい一方で、投資対効果の納得感をはじめ、会社単位でこういう意思決定するのはとても大変だと思います。これを実現しているの本当にすごいですね…。
Master陣のLT
LTという短い時間にも関わらず濃密かつ三者三様のテーマでこちらも魅力的な発表でした。
LTはダイジェスト的にハッシュタグ#rist_meetupがついているポストを記載します。
LT①:Kaggle は業務の役にたつ ビジネスコンテンツ情報を活用する BtoB 事業編 - Taro Masuda さん
キャーkaggleフットサル-! #rist_meetup
— ころんびあ (@colum2131) October 12, 2024
業務でadversarial validation強い #rist_meetup
— charm (@charmq00) October 12, 2024
human-in-the-loopでラベリングとモデリングが進んでいる開発いい #rist_meetup
— ころんびあ (@colum2131) October 12, 2024
継続的な学習データの品質向上、いいな。 #rist_meetup
— y-Carbon (@yCarbon_jpn) October 12, 2024
wandbでconfusion matrixだせるんか知らなかった #rist_meetup
— ishikei (@ishikei4) October 12, 2024
LTと思えないくらい密度高い内容だった #rist_meetup
— charm (@charmq00) October 12, 2024
LT②:Kaggleはデータサイエンティストになるために役に立つ Kento Okumura さん
キャーオクムラサンー! #rist_meetup
— ころんびあ (@colum2131) October 12, 2024
趣味でkaggleを始めたら結果的にデータサイエンティストになった #rist_meetup
— charm (@charmq00) October 12, 2024
バックグラウンド物理学のkaggler、基礎体力が違う勝手な思い込みある 強い #rist_meetup
— ころんびあ (@colum2131) October 12, 2024
kaggleは業務の役に立つし業務はkaggleの役に立つ、いい話 #rist_meetup
— charm (@charmq00) October 12, 2024
kaggleは宣伝にも役に立つ! #rist_meetup
— ishikei (@ishikei4) October 12, 2024
大きい会社でも会社がちゃんと広報打ってくれるの素敵#rist_meetup
— HIROSE Tomoki(広瀬 友貴) (@nakakiiro) October 12, 2024
LT③:kaggle notebook での LLM 推論高速化 Kota Iizuka さん
キャーイイヅカサン-! #rist_meetup
— ころんびあ (@colum2131) October 12, 2024
LLM推論高速化は今知りたい!#rist_meetup
— HIROSE Tomoki(広瀬 友貴) (@nakakiiro) October 12, 2024
wandb Fully ConnectedでもLLMの高速化の話あったので割とホット #rist_meetup
— y-Carbon (@yCarbon_jpn) October 12, 2024
6時間から7分15秒!? #rist_meetup
— Rabotni(kuma|熊) (@analokmaus) October 12, 2024
Hugging face->vLLM 置き換えで6時間以上->7分15秒に高速化。
— すえ (@sue1242) October 12, 2024
そんなに速くなるのか。
#rist_meetup
やっぱvLLM採用するか......#rist_meetup
— Dakuon (@_Dakuon) October 12, 2024
皆さん色々バリエーションに富んだ話をしてくれて非常にありがたい #rist_meetup
— ishikei (@ishikei4) October 12, 2024
感想
本当に神イベントでした。
Kaggleの一側面を取り上げた意見に対して、明確にポジションをとったアンサーを聞けたこと
GM陣という超絶な実力者による主観・客観を切り分けた意見、とても説得力があった
「Kaggleで身につくスキル」と「実務で求められるスキル」を抽象化・構造化して、どう関連性があるかを説明していた
Ristは組織設計や受託分析のビジネスモデルにまで適用しており、そのノウハウを聞けた
Master陣のLTも、「実務への活用」「DSキャリアのきっかけとなったKaggle」「LLM推論高速化」とバラエティに富んでいた。LTという短い時間でありながらも密度は非常に濃かった
発表者の実力が高いのはもちろん、コンテキストが共有されているイベントというのもよい
などなど、色んな観点での楽しさや学びがありました。
今まで一緒に働いたことのあるKaggleが強い方は業務でも圧倒的バリューを発揮しているので、「Kaggleは業務の役に立つ」に何も疑いはなかった(というか自分は面と向かってそう言っている人をまだ見たことがない)のですが、その裏付けとなるような発表を聞けて興味深かったです。
※ 「Kaggleが強い人は業務でもバリューを発揮している」の裏には「その人が優秀である」という交絡がある話だとは思います。
あと今日の発表でも改めて思ったのですが、Kaggle強い方々ってみなさん利他的というか、周囲の役にも立ちたいという気持ちが伝わってきて素敵だなと思いました。
ほかの方の参加レポート
こちらもぜひお楽しみください!
追記
主催者のcharmさん、登壇者のNakagoさんからも暖かいフィードバックをいただけて嬉しいです!
何人かの方がイベントのまとめ記事書いてくださってありがたい...(運営者冥利に尽きます)(一番凄いのは登壇者の方々)
— charm (@charmq00) October 13, 2024
#rist_meetup のまとめ書いてる方々丁寧ですごい。
— Kosuke Nakago (@corochann) October 13, 2024
Kaggleコンペ終わるたび出てくるコンペソリューションのまとめブログ記事とかも毎回クオリティ高くて感動して思うけど、あとは英語に翻訳してKaggle上で投稿すれば世界の人が嬉しいと思う。