使える医療AIって何だろう?
この記事に立ち寄っていただき、ありがとうございます。
最近、「医療AI」という言葉を様々なニュースで見ることが増えてきました。では、どんな医療AIが良い医療AI、つまり使える使われるAIなのか判断することができますか?それとも医療AIというだけで、何でも良いだろうと思いますか?
今後、医療AIが臨床で使われる前に、このようなシチュエーションに遭遇することになると思います。
「先生、このデバイスは医療AIが搭載されていて、正解率も95%を超えているんですよ。」
学会の展示ブースや勉強会などで、こんな営業を受けた場合、どう判断しますか?
今回の記事ではNEJM AIの論文を読み込み、日本の少し先の世界である「アメリカ」で使われている医療AIデバイスについて学び、「どんな医療AIが使える、使われるのか?」を解き明かそうと思います。
皆さん、ぜひ最後までお付き合いください。
Researchmapはこちら
論文紹介
Characterizing the Clinical Adoption of Medical AI Devices through U.S. Insurance Claims | NEJM AI
要約:FDA(Food and Drug Administration, USA)に承認されたAIを使用した医療機器は500以上あるが、実際にどこでどのくらい使われているのか知られていない。このため、この論文ではCPT code(Current Procedual Terminology:いわゆる日本でいうレセプトコードみたいなもの)と診療報酬が発生した住所を用いて調査した。その結果、いくつかの医療用AIデバイスが主に使用されていることが分かった。また住所の情報から、医療用AIデバイスが使用されるのは、主に収入が高く、都市部で大学病院がある地域のほうが積極的に使用されていることが分かった。
論文はここから
論文のキーポイント
アメリカで実際に使われている医療AIの紹介
まだ医療AIがアメリカで利用されるようになってから日が浅く、多くの医療AIは2021年から保険請求が可能になっているため全体の保険請求件数は多くはありませんでした。また医療AIデバイスが利用されているは、ごく一部でした。具体的には冠動脈疾患に関する医療AIで、次が糖尿病性網膜症に関するものです。以下に具体的なサービスを紹介します。
1.冠動脈CTから冠動脈の3Dモデルを作成する医療AI
HeartFlow FFRCTで代表される冠動脈CTから3Dモデルを作成するサービス。CT画像をクラウドにアップロードした後、AIを用いたアルゴリズムで再構成される。そして、各血管のFFRCT値(Fractional Flow Reserve derived from Computed Tomography value)を計算する。FFRCT値が0.75以下で冠動脈の閉塞が疑われます。
背景:アメリカでは心筋梗塞の罹患率が高く、多くの患者が救急外来に受診します。心臓カテーテル検査を行って冠動脈の血流を調べるのが一番確実な診断方法ですが、コストが高く、すべての患者に行うことはできません。そこで、その代用を冠動脈CTで評価するという研究が盛んに行われました。留学したUBCでも、胸痛を訴える患者の診断アルゴリズムを作ったり、診断ユニットを作って経過観察したり、様々な心筋梗塞を見逃さない対策を行っていました。この冠動脈CTを利用した医療AIサービスは様々な臨床研究を元に開発したサービスなんです。現場のニーズ→臨床研究→商品開発という流れが非常に美しいと個人的には思っています。
2.糖尿病性網膜症を診断する医療AI
圧倒的一位が冠動脈CTの医療AIですが、第2位は糖尿病性網膜症を診断する医療AIです。代表的な商品はLumineticsCoreです。人の手を必要とせずに自動的に糖尿病性網膜症(黄斑浮腫を含む)を診断します。また様々な臨床研究でLumineticsCoreの中程度以上の糖尿病性網膜症に対する診断の正確さが証明されています。
背景:糖尿病の罹患率の上昇に伴い、糖尿病性網膜症によって失明する患者が増えています。ガイドラインでは年1回の網膜のスクリーニングが推奨されています。しかし、アメリカだと専門医を受診することが難しく、医療費も高額になります。このため、このLumineticsCoreなどのサービスが開発され、眼科専門医も必要なく自動的に糖尿病性網膜症を診断し、早期発見が行うことが可能になりました。
その2つの医療AIに続き、冠動脈の動脈硬化を評価するAI( Cleerly’s Coronary Computer Tomography Angiography algorithmなど)や肝臓MRIの画像から肝疾患を診断するAI(Perspectum LiverMultiScanなど)がありますが、まだ臨床での使用は限られているようです。
使えない医療AIの例
さて、ここまでで医療AIがFDAに500近く承認されているにも関わらず、実際に使用されているのは一握りであることが分かりました。では、なぜこのようなことが起こっているのでしょうか?医療AIが実際の臨床に使われる際に様々な問題に遭遇します。ここでは論文内で紹介されていた参考文献を元に代表的な事例を紹介します。
使えない早期Sepsis発見アラート
Epic Systems Corporation(最も大きな電子カルテ会社の一つ)が提供しているEpic Sepsis Modelというものがあります。(これは電子カルテの一機能として提供されているので、今回の論文で扱った保険請求ができるAIではないです。)電子カルテに登録されるバイタル等を利用してSepsisの発症を予測するモデルです。これは405,000人の患者数で3つの医療圏からの医療データを用いて作られています。この時点ですごいですね。しかし、特許の関係から、その詳細が明らかにされていませんでした。そこでミシガン大学の研究者がValidation study(本当に正しいのか確認する研究)を行いました。
論文紹介:External Validation of a Widely Implemented Proprietary Sepsis
Prediction Model in Hospitalized Patients | JAMA Internal Medicine
2018年から2019年にミシガン大学病院に入院した27697人の成人の入院患者を対象に15分毎にEpic Sepsis Model scoreを計算し、Sepsisの発症を予測できたか検討しました。結果は、Sepsisの予測に対するAUCは0.63で、67%のSepsisの患者を見逃しており、18%の患者にはSepsisではないのにEpic Sepsis Modelでハイリスクとして間違ってアラートがされていました。
ちなみにAUC(Area Under the Curve)とは、ROC曲線の下にある領域の面積を指します。AUCは0から1までの値をとり、値が1に近いほど判別能が高いことを示します。AUC 0.5では、判定がうまくできる確率が五分五分、つまりコイントスで決めるのと同じ確率になります。なので、AUC 0.63はコイントスより判別能が高いけど、使えないよねという性能です。
なぜ、こんな結果になったのか?
もともとEpic社はEpic Sepsis ModelのAUC 0.76~0.83と報告しているが、今回の研究結果とは非常にかけ離れていました。その理由は、「Sepsisの発症のタイミング」だと著者は述べています。Epic Sepsis Modelの先行研究では、Sepsisが臨床的に発症してからモデルに予測された症例を除外していなかったことが明らかになっています。また、今回の研究でSepsis発症してから3時間後にされた予測も含めると、AUCが0.8まで上昇しました。
使える医療AIについてのまとめ
①臨床で困っている問題を解決できる
先ほどの論文でみてきたように、「心筋梗塞の疑いのある患者をうまく診断できない」「眼科専門医へのアクセスが悪く検査ができない」というアメリカの医療特有の問題がありました。ちなみに日本では上記はあまり問題になりません。
例えば、「モニターをつけると誤嚥性肺炎を90%の正確さで診断できる」というような医療AI機器があったとします。でも、誤嚥性肺炎の診断に困ってはいないですよね(訪問診療なら多少ニーズがあるかもしれませんが)。CT撮ればすぐにわかります。それにCTなら肺炎かどうか以外の情報を得ることができます。このように「医療現場で困っていないこと」を解決する医療AIは使われなくなります。そう、要らんのよ、そんな医療AI。
とはいうものの、僕も良くやってしまうのですが、医療AIを開発する際に「技術的に・・・できる」「データがあるから・・・できる」など、自分ができることをベースに企画することが多く、その結果、使われない、意味のない医療AIが爆誕することになります。みなさん、気を付けましょう。
②Validationが正しく行われ、汎化性能が検証されている
企業が医療AIを開発する場合、その詳細な性能に関してすべてを報告しない可能性があります。また、性能を報告するにしても、今回のEpic Sepsis Modelのように、「すでに臨床的にSepsisが発症している」症例を除外するという現場の医師なら気が付くような基礎的なことを検討せず、モデルが作成される可能性もあります。臨床医が誰もアドバイスをしていないのでしょうか?また、アラートが間違っていた時に、どんなに面倒なことが起こるかってことを企業側が理解していなかったために、いわゆるFalse Positiveを減らす必要があることを検討していなかった可能性もあります。
それと、これは別の記事で詳しく述べたいのですが、医療に関する予測は一般的に機械学習を用いても非常に難しいです。それはアウトカムの頻度が非常に低いことが多く、データが不均衡であるからです。例えば、100人中40人が発症する病気を予想するのはできても、1万人中に5人発症するような病気を予測するモデルを作るのは難しい。モデルを複雑にすることで対応しようとすると、いわゆる過学習(学習時のデータに対してはよい精度を出すが、未知データに対しては同様の精度を出せないモデルが構築されてしまうこと)が起きてしまい、汎化性能(未知のデータに対して適切な分類や予測を行う性能)が落ちることになってしまいます。「わが社の事前の検証で、98%の正答率を誇り、、、」という営業トークを聞いたらすぐに、「過学習を起こして、実際は使えないんじゃないかな?」と疑う習慣を持ちましょう。
Validation studyって聞くと、「そ~いや、エビデンスにうるさい人(いわゆる、エビ中)の人が口酸っぱく言っていたな。」と思い出す人もいると思います。そうなんです。医療AIといっても、実臨床で使えるか?を精査する場合には、基本的には今まで臨床研究で行われてきたことと同じ検証を行うことになります。ちゃんと臨床研究が分からないと、だまされちゃいますよ~(という、ポジショントーク)。
ということで、ここまでありがとうございました。
このNoteでは、医療AIが今後の臨床で日常的な存在になる前に十分な知識を持ってもらうことを目的に書いています。また、医療AI機器の開発を考えている企業に向けて、何か良い知見をお届けできたらと思っています。
では、次回のNoteをご期待ください。