見出し画像

医用画像AIの実力は?世界初のメタアナリシスから読み解く

この記事の目的と背景

医療現場での深層学習(Deep Learning)の活用はここ数年、急速に進歩しています。
個別事例の報告は多くありますが、深層学習、特に画像領域の深層学習、の医療現場での実用性・実力を網羅的に調べた文献(メタアナリシスやシステマティックレビュー)は限られていました。
ここで、Lancet Digitalに掲載された世界初の医用画像AIのメタアナリシスを要約してご紹介したいと思います。
メタアナリシスは、既存文献を網羅的に探索しその断面での科学的エビデンスを集約する研究手法であり、メタアナリシスの結果は最も信頼性が高いとされています。

非常に興味深い内容なのでお楽しみに!

文献名

”A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta analysis" Liu, et al 2019

研究背景

医学診断においてディープラーニングは大きな期待がされる。医療画像におけるディープラーニングアルゴリズム対医療従事者の診断精度を検証する目的でシステマティックレビュー・メタアナリシスを行った

手法

・2012~2019年6月までの間にMedline, Embase, Science Citation Index等主要医療文献データベースに掲載された研究成果をレビュー
ディープラーニングモデル対医療従事者の医療画像における診断精度(病名は問わない)を比較した文献を抽出
・波形診断(心電図等)やセグメンテーションタスクでの精度比較は除外した
・精度データが抽出できる文献ではデータを抽出し、各文献についての「感度」と「特異度」を計算した

ファインディングス

・31587文献がヒット、うち82文献が基準に該当しシステマティックレビューに採用された
・これらの文献は眼疾患(18文献)、乳がん(10)、整形外傷(10)、皮膚ガン(9)、肺がん(7)、呼吸器疾患(8)、消化器がん(5)、甲状腺癌(4)、心疾患(2)、他、を対象疾患としていた
・そのうち、69文献から精度データを抽出可能だった
・そのうち、25文献でディープラーニングと医療従事者の精度比較を行っておりこれらの文献はメタアナリシスに採用された
・これらの文献のうち、医療従事者とDLモデルを同じサンプルデータで比較していた文献は14文献であった
・この14文献において全精度データを集計したところ、ディープラーニングは平均で感度87.0% (95%CI 83.0-90.2)特異度92.5% (CI 85.1-96.4)、医療従事者は感度86.4%(CI 79.9-91.0)特異度90.5%(CI 80.6-95.7)であった

スクリーンショット 2019-09-25 22.48.24

(Figure 3, 同一サンプルデータでの医療従事者vsDL比較14文献の集計、文献より抜粋)

スクリーンショット 2019-09-25 23.01.54

(Figure 2, 医療従事者とDLモデルを比較した全25文献の集計結果、文献抜粋)

結論

当研究によりディープラーニングモデルは医療従事者と同等の診断精度があることが判明した
・しかし、当研究により生データを公表している文献や医療従事者とディープラーニングを同じサンプルデータで比較している研究は希少であることも判明した
・加えて、ディープラーニング研究は正しく文献報告されないケースも多く、今後ディープラーニング研究のための新たな評価基準が必要である

感想とディスカッション

本研究で提示されたエビデンスから、眼科から整形外科に至るまでの多様な診療科でのディープラーニングモデルは医療従事者に対して同等程度の精度があることが判明しました
また、抜粋のROC分布を見てもわかるように、極めて精度の高いモデルの報告も多数あります。
しかし、文献中で著者も述べているように、医療従事者vsDLモデルの単純比較は医療現場の現実と異なり、実際には医療従事者がDLモデルを活用・ダブルチェックする体制で使用されています。同等程度の精度が示されてもDLモデルが単独で医療従事者に取って代われることが示唆された訳でも示された訳ではありません。
また、当文献のファインディングスとして医療AI周りの文献は一般的に質が悪く、第三者によって検証できる文献や研究デザインは希少だったことが挙げられます(31000文献中、わずか25がメタアナリシスに適合した)。
医療AI研究のエビデンス基準づくりや、研究デザインの洗練が求められています。

引用文献

Xiaoxuan Liu, A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis, The Lancet Digital Health, 2019,



この記事が気に入ったらサポートをしてみませんか?