Kaggleは研究の役に立ってる：ソリューションとコンペデータのその後 (医用画像を中心に)

2024年12月15日 01:44

「Kaggleは実務の役に立つか？」と並んで論じられるのが「Kaggleは研究の役に立つか？」ではないでしょうか。
Kaggleで学んだ技術や知見が研究の役に立つのは、既に多くで語られている事実であり、こちらでは多くを述べません。
ここで述べるのはKaggleというプラットフォームをきっかけに世に放たれたデータセットが、大いに研究の役に立っているという事例です。
私はCTやMRIといった医用画像から病気の診断をする放射線科医として勤務しながら、Kaggleに参加しています。自分の専門分野である放射線科領域でのKaggleの貢献について論じていきたいと思います。

RSNA コンペティションの貢献

Kaggleと医療データセットについて、外して語れないのがRSNAによるコンペティションのシリーズです。そもそもRSNAはRadiological Society of North Americaの略で北米に拠点を置く放射線科の学会です。RSNAは放射線科領域の最高のジャーナルであるRadiologyのほか、AIに特化した姉妹誌であるRadiology: Artificial Intelligenceも出版しています。
RSNAコンペはこれまでに他学会との共催を含めて、9回行われています。

上のテーブルで示すように、肺炎や肺塞栓（血栓が肺動脈に詰まってしまう状態）、頚椎骨折の検出、腰椎変性症の重症度分類、マンモグラフィ（乳がんを見つけるためのX線検査）からの良悪性の判別…など様々なテーマ、CT、MRI、レントゲンなどの多岐に渡るモダリティを扱って開催されてきました。
通常の学会コンペティションは参加チームが10チームに満たないこともザラにありますが、RNSAコンペは784〜1874チームと規模の大きさも伺えます。
コンペティションの開催には多施設で収集されたデータセットが同時に公開され、そのデータセットについて概要を記した論文も出版されてきました。

RSNAコンペのデータセットやソリューション、開催から得られた知見についての論文. 先述のRadiology: Artificial Intelligence誌で複数公開されている.

特に"Lessons Learned in Building Expertly Annotated Multi-Institution Datasets and Hosting the RSNA AI Challenges"という論文は自身もKaggle Masterであり、RSNAコンペの開催に携わってきたFelipe KitamuraさんがRSNAコンペティションの開催についてをまとめたレポートです。

Lessons Learned in Building Expertly Annotated Multi-Institution Datasets and Hosting the RSNA AI Challengeshttps://t.co/mxspUPvsMs @Radiology_AI @lmprevedello @BFlanksteak @MonganMD #ErrolColak pic.twitter.com/5Q1rCUzbAx
— Felipe Kitamura (@FelipeKitamura) March 15, 2024

このレポートでは、データ収集やアノテーション、評価指標の選定などコンペティション開催の裏側が紹介されています。この工程はコンペティションの開催だけでなく、研究や実務でも参考にできるのではないでしょうか？

さらにレポート内では、

"One of the deliverables of an AI competition is a set of usually state-of-the-art models that can be used in the next step of model validation: clinical testing. Although clinical use requires regulatory approval, clinical research about the effect of AI in radiologic workflows can be done with AI models from competitions (AIコンペティションの成果物の一つは、通常、次の段階であるモデル検証、すなわち臨床試験に使用できる、最先端のモデル群である。臨床使用には承認が必要だが、AIが放射線診断のワークフローに与える影響についての臨床研究は、コンペティションから得られたAIモデルを用いて行うことが可能である)"

https://pubs.rsna.org/doi/full/10.1148/ryai.230227

と、コンペティションで得られた手法が臨床や研究に活用されることへの期待が述べられています。（ただし、"We should not take for granted that AI models will improve clinical outcomes. Underreliance and overreliance of humans in AI can undermine the benefit of AI" と、AIを過大評価も過小評価もしてはならないと指摘している点は示唆に富んでいます）

コンペのソリューションが研究に用いられた事例

医学分野のトップジャーナルとして知られるLancetのオープンアクセス誌であるeBioMedicineに掲載されたAnnotation-free multi-organ anomaly detection in abdominal CT using free-text radiology reports: a multi-centre retrospective studyは、既存の読影レポートを活用することで追加のアノテーションの手間を省いて臓器ごとの異常検出を行うパイプラインを構築したとする論文です。（詳細は論文や阪大のプレスリリースをご覧ください）
この研究では、読影レポートから臓器別の異常所見の有無について構造化ラベルを構築した上で、教師あり学習を行うことによりCTの異常所見を検出することに成功しています。この教師あり学習のステップにおいては、関心臓器のセグメンテーションを行い周囲をマスクするといったRSNAコンペの常套手段が採用されています。

"Organ segmentation is effective for efficiently training anomaly detection models by extracting organs from large images, such as abdominal images. This approach has performed well in previous AI tasks for estimating cervical spine fractures (臓器セグメンテーションは、大きな画像（例えば腹部画像）から臓器を抽出することで、異常検知モデルを効率的に訓練するのに有効である。このアプローチは、頸椎骨折を推定する過去のAIタスクにおいても良好な成果を上げている)"

https://www.thelancet.com/journals/ebiom/article/PIIS2352-3964(24)00499-7/fulltext

と具体的に述べられているように、RSNAのCervical Spine Fracture Detectionで用いられた手法にヒントを得たことが明言されています。
ちなみにCervical Spine Fracture Detectionコンペのソリューションの詳細な性能評価は論文化されています。Performance of the Winning Algorithms of the RSNA 2022 Cervical Spine Fracture Detection Challenge、もはや研究の役に立っている、というよりは研究そのものになっている…と言った方がよいのかもしれません（上記論文の引用部分の参考文献でもあります）。

コンペデータのその後

Felipeさんのレポートで、

"Substantial planning is required to construct a database that minimizes bias and is appropriately diverse in representation. Because of heterogeneity in how imaging data are collected and organized across and even within different medical centers, creating a high-quality dataset requires careful curation, normalization, and cleaning of the data to ensure consistency and comparability of each element of the dataset (バイアスを最小限に抑え、適切に多様性を備えたデータベースを構築するには、綿密な計画が必要だ。画像データの収集や整理の方法は医療施設によって、また同じ医療施設内でも異なるため、高品質のデータセットを作成するには、データセットの各要素の一貫性と比較可能性を確保するために、データの慎重な管理、標準化、クレンジングが必要だ)"

https://pubs.rsna.org/doi/full/10.1148/ryai.230227

と述べられているように、医用画像は管理方法や撮像機器が異なる上、アノテーションは放射線科医の多大なマンパワーを必要とし、また基準も各医師の主観に依存する部分もあるため、統一的なラベルが付加されたデータセットは非常に貴重です。これらをクリアした上に、自由度の高いライセンスで公開されているデータセットは、かけがえのない財産です。実際にRSNAコンペティションをきっかけに公開されたデータセットはさまざまな研究に活用されています。

汎用CTセグメンテーションモデル開発への活用

ML系のトップカンファレンスである、ICLR 2024で採択された"How Well Do Supervised 3D Models Transfer to Medical Imaging Tasks? "では、CTセグメンテーションタスクを主眼とした事前学習済みの3Dモデル群「SuPreM」が提案されています。
この論文では多数の公開データセットにセグメンテーションマスクを付加し、AbdomenAtlasというデータセットを構築してセグメンテーションモデルである「SuPreM」を構築しています。
以下のテーブルでは由来となったデータセットがまとめられていますが、RSNAのAbdominal Trauma Detectionのデータが4,714と大部分を占めていることがわかります。また詳細は省きますが、その他のデータセットもMICCAI Challengesといったコンペティション発のデータセットがほとんどです。コンペに出れば、こういうデータセットをクリエーターを除けば、世界で初めて触れることができるわけです。

"How Well Do Supervised 3D Models Transfer to Medical Imaging Tasks? "より抜粋. 色付きの「Trauma Detect.」はRSNAのAbdominal Trauma Detectionコンペのデータ.

余談ですが、このSuPreM、実感としてはかなり強いです。モデルも配布されているので、ぜひ試してみてください。

結局コンペデータはどれくらい研究に使われている？

実際にRSNAコンペティションがその後の研究でどのくらい活用されているかというと、論文化されているデータセットの引用数を調べることで、かなり多いということがわかります。
- Construction of a Machine Learning Dataset through Collaboration: The RSNA 2019 Brain CT Hemorrhage Challenge
Intracranial Hemorrhage Detectionのデータセット論文。被引用数は201回に上ります（2024/12/15時点、Googleで調査）。
- The RSNA Pulmonary Embolism CT Dataset
Pulmonary Embolism Detectionのデータセット。被引用数は96回とこちらもかなり多くなっています。
- The RSNA Cervical Spine Fracture CT Dataset （被引用数8回）
- The RSNA Abdominal Traumatic Injury CT (RATIC) Dataset（被引用数はまだ表示がないが、2024/10/23に出版されたばかり）
これらの論文は公開から日が浅く、まだ被引用数は少ないが、これから広く使用されることが予想されます。

Augmentation of the RSNA Pulmonary Embolism CT Dataset with Bounding Box Annotations and Anatomical Localization of Pulmonary Emboli https://t.co/DeNPAckdB2 @UnityHealthTO @UofTMedIm #ChestRad #PE #MachineLearning #IPMI2023 pic.twitter.com/fQBEXxBrhe
— Radiology: Artificial Intelligence (@Radiology_AI) June 22, 2023

また、↑のようにRSNAコンペティションで公開されたデータセットが拡充されている例もあります。"Augmentation of the RSNA Pulmonary Embolism CT Dataset with Bounding Box Annotations and Anatomic Localization of Pulmonary Emboli"では、Pulmonary Embolism Detectionコンペのデータセットに新しくbboxと解剖の局在が付与されたデータが提案されています。
Pulmonary Embolism Detectionの元々のデータにはスライスレベルで、肺塞栓の存在についての構造化ラベルが付けられていました。この研究では、それに加えて、血栓にbounding boxが付加され、解剖学的情報も加えられています。

"A common obstacle facing ML model developers is the availability of large, high-quality, representative datasets. To help address this issue, the Radiological Society of North America (RSNA) curated and released the largest publicly available dataset of CTPA studies. (MLモデル開発者が直面する共通の障害は、大規模で高品質な代表的なデータセットの入手可能性である。この問題に対処するために、RSNAは、CTPA研究における最大規模の公開データセットを管理し、公開した。)"

https://pubs.rsna.org/doi/full/10.1148/ryai.230001

とRSNAコンペの貢献を認めつつ、

"Additionally, the adopted label schema included only a single image-level label that indicates the presence of PE, while the remaining labels were applied at the study level. As a result, the precise localization of PE within the pulmonary arterial tree and burden of thrombus cannot be easily inferred. We aimed to further improve potential uses of the RSPECT dataset by providing additional granular annotations in the form of PE bounding boxes while indicating precise PE location within the pulmonary arterial tree. (さらに、採用されたラベルスキーマには、肺塞栓の存在を示す画像レベルのラベルだけが含まれており、残りのラベルはスタディレベル（※ CTのボリューム単位）で付与されていた。そのため、肺動脈内の正確な位置や血栓による負荷を簡単に推測することはできなかった。そこで、塞栓の正確な位置を肺動脈内で示すとともに、塞栓のbounding boxという形でより詳細な注釈を追加し、RSPECTデータセットの潜在的な利用価値をさらに高めることを目指した。)"

https://pubs.rsna.org/doi/full/10.1148/ryai.230001

と、bounding boxを付加することで医学的な価値がさらに高まるデータセットが構築できたことを強調しています。コンペ終了後もなお、データセットは進化し続けており、研究コミュニティ、ひいては医学の発展に貢献し続けているのです。

おわりに

Kaggleをはじめとする機械学習コンペティションは放射線科領域においても、データセット公開の絶好の場になっています。特にRSNAコンペティションは巨大かつ高品質なデータセットを公開し続けており、極めて貴重なリソースとなっています。作成者を除いて、世界で初めて貴重なデータセットに触れられるのは大変有意義なことではないでしょうか？
Kaggleを通じて、パイオニアになれますよ。つまり、みんな、Kaggleやろう。

著者情報

最近は研究比率が高くなり、Kaggleからはやや遠ざかっていますが、これからも地道に続けていきたいと考えています。Xもやっています。どうでもいいことをポストしがちですが、気軽にフォローしてやってください。
Xアカウント、Kaggleアカウント