Kaggleは研究の役に立ってる:ソリューションとコンペデータのその後 (医用画像を中心に)
「Kaggleは実務の役に立つか?」と並んで論じられるのが「Kaggleは研究の役に立つか?」ではないでしょうか。
Kaggleで学んだ技術や知見が研究の役に立つのは、既に多くで語られている事実であり、こちらでは多くを述べません。
ここで述べるのはKaggleというプラットフォームをきっかけに世に放たれたデータセットが、大いに研究の役に立っているという事例です。
私はCTやMRIといった医用画像から病気の診断をする放射線科医として勤務しながら、Kaggleに参加しています。自分の専門分野である放射線科領域でのKaggleの貢献について論じていきたいと思います。
RSNA コンペティションの貢献
Kaggleと医療データセットについて、外して語れないのがRSNAによるコンペティションのシリーズです。そもそもRSNAはRadiological Society of North Americaの略で北米に拠点を置く放射線科の学会です。RSNAは放射線科領域の最高のジャーナルであるRadiologyのほか、AIに特化した姉妹誌であるRadiology: Artificial Intelligenceも出版しています。
RSNAコンペはこれまでに他学会との共催を含めて、9回行われています。
上のテーブルで示すように、肺炎や肺塞栓(血栓が肺動脈に詰まってしまう状態)、頚椎骨折の検出、腰椎変性症の重症度分類、マンモグラフィ(乳がんを見つけるためのX線検査)からの良悪性の判別…など様々なテーマ、CT、MRI、レントゲンなどの多岐に渡るモダリティを扱って開催されてきました。
通常の学会コンペティションは参加チームが10チームに満たないこともザラにありますが、RNSAコンペは784〜1874チームと規模の大きさも伺えます。
コンペティションの開催には多施設で収集されたデータセットが同時に公開され、そのデータセットについて概要を記した論文も出版されてきました。
特に"Lessons Learned in Building Expertly Annotated Multi-Institution Datasets and Hosting the RSNA AI Challenges"という論文は自身もKaggle Masterであり、RSNAコンペの開催に携わってきたFelipe KitamuraさんがRSNAコンペティションの開催についてをまとめたレポートです。
このレポートでは、データ収集やアノテーション、評価指標の選定などコンペティション開催の裏側が紹介されています。この工程はコンペティションの開催だけでなく、研究や実務でも参考にできるのではないでしょうか?
さらにレポート内では、
と、コンペティションで得られた手法が臨床や研究に活用されることへの期待が述べられています。( ただし、"We should not take for granted that AI models will improve clinical outcomes. Underreliance and overreliance of humans in AI can undermine the benefit of AI" と、AIを過大評価も過小評価もしてはならないと指摘している点は示唆に富んでいます)
コンペのソリューションが研究に用いられた事例
医学分野のトップジャーナルとして知られるLancetのオープンアクセス誌であるeBioMedicineに掲載されたAnnotation-free multi-organ anomaly detection in abdominal CT using free-text radiology reports: a multi-centre retrospective studyは、既存の読影レポートを活用することで追加のアノテーションの手間を省いて臓器ごとの異常検出を行うパイプラインを構築したとする論文です。(詳細は論文や阪大のプレスリリースをご覧ください)
この研究では、読影レポートから臓器別の異常所見の有無について構造化ラベルを構築した上で、教師あり学習を行うことによりCTの異常所見を検出することに成功しています。この教師あり学習のステップにおいては、関心臓器のセグメンテーションを行い周囲をマスクするといったRSNAコンペの常套手段が採用されています。
と具体的に述べられているように、RSNAのCervical Spine Fracture Detectionで用いられた手法にヒントを得たことが明言されています。
ちなみにCervical Spine Fracture Detectionコンペのソリューションの詳細な性能評価は論文化されています。Performance of the Winning Algorithms of the RSNA 2022 Cervical Spine Fracture Detection Challenge、もはや研究の役に立っている、というよりは研究そのものになっている…と言った方がよいのかもしれません(上記論文の引用部分の参考文献でもあります)。
コンペデータのその後
Felipeさんのレポートで、
と述べられているように、医用画像は管理方法や撮像機器が異なる上、アノテーションは放射線科医の多大なマンパワーを必要とし、また基準も各医師の主観に依存する部分もあるため、統一的なラベルが付加されたデータセットは非常に貴重です。これらをクリアした上に、自由度の高いライセンスで公開されているデータセットは、かけがえのない財産です。実際にRSNAコンペティションをきっかけに公開されたデータセットはさまざまな研究に活用されています。
汎用CTセグメンテーションモデル開発への活用
ML系のトップカンファレンスである、ICLR 2024で採択された"How Well Do Supervised 3D Models Transfer to Medical Imaging Tasks? "では、CTセグメンテーションタスクを主眼とした事前学習済みの3Dモデル群「SuPreM」が提案されています。
この論文では多数の公開データセットにセグメンテーションマスクを付加し、AbdomenAtlasというデータセットを構築してセグメンテーションモデルである「SuPreM」を構築しています。
以下のテーブルでは由来となったデータセットがまとめられていますが、RSNAのAbdominal Trauma Detectionのデータが4,714と大部分を占めていることがわかります。また詳細は省きますが、その他のデータセットもMICCAI Challengesといったコンペティション発のデータセットがほとんどです。コンペに出れば、こういうデータセットをクリエーターを除けば、世界で初めて触れることができるわけです。
余談ですが、このSuPreM、実感としてはかなり強いです。モデルも配布されているので、ぜひ試してみてください。
結局コンペデータはどれくらい研究に使われている?
実際にRSNAコンペティションがその後の研究でどのくらい活用されているかというと、論文化されているデータセットの引用数を調べることで、かなり多いということがわかります。
- Construction of a Machine Learning Dataset through Collaboration: The RSNA 2019 Brain CT Hemorrhage Challenge
Intracranial Hemorrhage Detectionのデータセット論文。被引用数は201回に上ります(2024/12/15時点、Googleで調査)。
- The RSNA Pulmonary Embolism CT Dataset
Pulmonary Embolism Detectionのデータセット。被引用数は96回とこちらもかなり多くなっています。
- The RSNA Cervical Spine Fracture CT Dataset (被引用数8回)
- The RSNA Abdominal Traumatic Injury CT (RATIC) Dataset(被引用数はまだ表示がないが、2024/10/23に出版されたばかり)
これらの論文は公開から日が浅く、まだ被引用数は少ないが、これから広く使用されることが予想されます。
また、↑のようにRSNAコンペティションで公開されたデータセットが拡充されている例もあります。"Augmentation of the RSNA Pulmonary Embolism CT Dataset with Bounding Box Annotations and Anatomic Localization of Pulmonary Emboli"では、Pulmonary Embolism Detectionコンペのデータセットに新しくbboxと解剖の局在が付与されたデータが提案されています。
Pulmonary Embolism Detectionの元々のデータにはスライスレベルで、肺塞栓の存在についての構造化ラベルが付けられていました。この研究では、それに加えて、血栓にbounding boxが付加され、解剖学的情報も加えられています。
とRSNAコンペの貢献を認めつつ、
と、bounding boxを付加することで医学的な価値がさらに高まるデータセットが構築できたことを強調しています。コンペ終了後もなお、データセットは進化し続けており、研究コミュニティ、ひいては医学の発展に貢献し続けているのです。
おわりに
Kaggleをはじめとする機械学習コンペティションは放射線科領域においても、データセット公開の絶好の場になっています。特にRSNAコンペティションは巨大かつ高品質なデータセットを公開し続けており、極めて貴重なリソースとなっています。作成者を除いて、世界で初めて貴重なデータセットに触れられるのは大変有意義なことではないでしょうか?
Kaggleを通じて、パイオニアになれますよ。つまり、みんな、Kaggleやろう。
著者情報
最近は研究比率が高くなり、Kaggleからはやや遠ざかっていますが、これからも地道に続けていきたいと考えています。Xもやっています。どうでもいいことをポストしがちですが、気軽にフォローしてやってください。
Xアカウント、Kaggleアカウント