生成AIの医療活用 2024年 医療現場での仕事効率を向上させる事例5選
ちょうど1年ほど前にAIの医療現場での活用例記事を作成しました。当時はAI, 特にChatGPTで出来ることを網羅することを目的に作ったため, 実際の仕事で役に立たないことも含まれており文字数が膨大でした。
今回, あれから1年経ちましたので多くの便利なAIがリリースされたこともあり, 実際の活用例, 便利と思ったツールをダイジェスト版でまとめたいと思います。AI一般の話, 前置きが長いかもしれませんので, 目次から
実践編 Chapter3へリンク
することをぜひともお願いします。
1. 医療現場で使用する際の問題点
1.1 個人情報保護
AIに入力した個人情報が外部に漏洩する可能性は常に存在します。以下は実際にGPTに入力した個人情報が他者にリークしたと思われるニュースです。
入力した情報が一定期間 (30日) 後に消去されAIのトレーニングに使用されないという『一時チャット』という機能があります。
一方, マルウェアによりAIのセキリュティを破壊しuserが入力したデータが盗み取られるという危険性もあります。
AI自体にそのような危険なマルウェアを作らせるというニュースもありました。
一時チャットを使用していても, 安全性は完璧ではなく, 例えば30日以内にバグが生じたり, マルウェアに攻撃されると終わりです。
よって, 特に患者情報という個人情報保護の観点から扱いを極めて慎重に行わないといけない, 情報をAIに入力することは基本的には推奨されません。
1.2 著作権侵害, 倫理的問題
生成AIが出力する生成物 (文章, 画像, 動画) は著作権侵害があるかどうか常にuser側で見極める必要があります。userに悪意がなく, 意図しなかったとしても偶然, 著作物や特定の作品に類似したものが出力される危険性があります。たとえば下の画は画像生成AI Midjourneyにホワイトハウスの爆破シーンを生成するように指示したものです。
Independence dayとプロンプトに含めても含めなくても同じような画像が出力されました。また, 『眼と角を持つ宇宙人』とプロンプトしても結局『エイリアン』が出力されていまいました。
このように通常の使用法では著作権侵害のリスクが高いと考えられます。AI自身に賛成, 反対の意見を聞いてみます。文化庁によせられた『AIと著作権に関する考え方』通称パブリックコメントをAIに読ませます。
AIの考えとしても『画像生成』AIの使用に関して否定的な意見でした。
1.3 技術的問題 (実用面, 効率化)
① ハルシネーションの存在
AI使用を躊躇する技術的問題点の一つとしてハルシネーション (AIが誤った情報を生成する。通称, 幻覚≒嘘) が挙げられます。例えば下の例は実在しない新惑星『ゼロポリス』に関して質問した時のハルシネーションです。関係ない他の惑星に関する英語のページリンクとともに壮大な嘘を述べています。
しかし, 近年急速にハルシネーションの対策が進んでおり, 1-2年で実用レベル, 気にならないレべルの発生頻度になるのではないかと思われます。
② 効率性の問題
AIを用いたからと言って時間短縮が出来るのかという疑問は日々あります。これまでAIで学会スライド作成, プレゼン資料の作成がどこまで活用できるかのレポートをネットに投稿してきましたが, 実際いざ自分が学会発表したときにAIがどれだけ作業時間の短縮に役立ったかを振り返ってみると, 残念ながら「微妙だった」と言わざるを得ない結果でした。
AIの原則として, 『得意なことをさせる』と良く言われます。要約作業, 翻訳作業がこれに当たります。
落とし穴として, 基本的にAIはuserの要求した難しいタスクに対して『できない』とは言わず, 改善案を出してトライアンドエラーを繰り返し最終的には出来てしまうことが多く, 時間を大きく浪費してしまいがちです。
結局手作業でやったほうが効率的ということが多々あります。
本記事では特に勤務医の仕事効率化の観点から生成AIの利用法を★の数で評価します。
1.4 使用する際の問題点注意点 まとめ
公の場 (学会など) で生成AI, 特に画像生成AIを使用する場合は以下の点に注意することが必要と考えます。
2. 背景
2.1 現代のAIは実用的か?
1990年代に流行った漫画で以下のような笑い話がありました。
確かこんな話でした (間違ってたらごめんなさい)。博士が世界最高のIQのロボットを作りギネスにのりました。
そのロボットがさらに自分より高性能なロボットを作り博士がギネスブックに載る期間が短くなるという皮肉的な話でした。
当時この話を見た時は, そんな馬鹿なことがあるかと笑い話で済まされていました。AIといえば, 人間の思考には全くかなうわけがなく, このような話は夢物語とだれもが考えていました。某国産ゲームのAIキャラクターはカウンターを持っているラスボスに即死魔法を唱えて自分が死ぬというなんとも使えないものでした (トレーニングすれば頻度は減りますが…)。
しかし, ChatGPTの出現で局面は大きく変わりました。
一部では検索エンジン以来の発明と言われています。
現在のAIは組織全体の業務を遂行するレベルをLevel 5とすれば, Level 1 の『チャットボット 会話能力を持つAI』の段階にあるとのことです。
このまま順調に開発が進めば数年後には汎用人工知能 (AGI: Artificial General Intelligence) が実現し人間の行うことはほぼ全て置き換え可能になるかもしれません。また, 自律的に進化し, SFの世界のような, 技術的特異点 Singularityが到来し, 爆発的にAI, robotが生産, 思考を行う未来がやってくるかもしれません。
2.2 AIにより医師の仕事, 働き方, 効率性は変わるのか?
AIの登場により多くの仕事が奪われると予測されています。米マッキーンゼーアンドカンパニーが予測した, ここ数年での雇用需要ではカスタマーサービス, オフィスでのサポート業務が減少, 一方, 法律, 医学, 工学などの専門性の高い仕事は増加するのではないかとのことです。
ChatGPT自身にも同じようなことを聞いてみました。結果はマッキンゼーと非常に似ていました。また, 仕事が増える理由についても聞いてみました。
理由としてはデータ解析によって医学の情報量が増える (疾患そのもの, 検査法, 治療法が発見される), 診断の技術 (早期診断, 画像診断の精度上昇, 見落としが少ないなど), 逆説的ですが効率化によって (処理) 出来る仕事量が増えるなどです。
しかし, これらの理由はAIの登場に限ったことではなく, これまでの医学業界で緩やかに体感できていた, 例えば, CTや血液検査の項目が増えることによって, 新たな疾患を定義, 診断できる (=仕事が増え) などです。今後はAIによって速度が加速度的に上昇するという考えとのことです。
2.3 現時点での生成AIの医療 (特に勤務医) への応用
生成AI特にChatGPTで可能なタスクをまとめました。Chat (会話) しつつ, アドバイスをもらう, 文章や画像, グラフ, プログラムコードなどを作成してもらう。 他言語の翻訳, 学習など幅広いです。
これらのタスクから医師, (特に勤務医) で応用が可能, 相性のよいタスクを以下にまとめました。これらの医師の仕事のうち, 最も効率化したいのは, 個人的にカルテの作成ですが, 残念ながらChatGPTなど生成AI単独で電子カルテの作業を行うことはできませんので, 本記事でははそれ以外の利用法について述べたいと思います。
ちなみに日常でどれくらいの人が生成AIを使用しているかですが, 日本は先進国のなかでは比較的利用率が低い (9.1%) といった結果です。
医師に限っては21.7%と5人に1人との結果でした (m3.comのアンケート) 。勤務医の具体的な使用例としては英文抄録の作成, 原稿の作成, 語学の勉強など, 翻訳, 書類作成が主でした。
3.【本編】 実践編 活用事例
3.1 文献要約, 和訳 ★★☆
文章の要約, 英語論文を和訳して要約してもらいます。長文の内容を読む必要が無い場合, 英語を分かりやすく日本語で概要で知りたいときなどに利用します。Pubmedで英語論文を適当にダウンロードしてみます。
Rice basde gluten free foodsに関する総説です。1万語位ある長文です。
PDF fileをChatGPTのチャット欄にドラッグアンドドロップします。自然な日本語で分かりやすく全体を要約してくれました。
従来のAI要約ソフトと大きく異なる点は, 論文の内容に関して, userからの『高度な』質問に対して的確に解答してくれることです。
さらに, 論文内の図表 Figure, Table をGPTに読み込ませることで画像データの内容も正確に解説してくれます。
ここで注意点ですが, 現在のChatGPT4oは1万文字もの文章を隅々まで読んで要約しているわけではありません。
日本語でいうと2500文字を超えると, 要約の性能が極端に下がります。
数万文字ともなる超長文, 教科書などは, 文章の一部 (目次や要約部分のページ) を要約しているのにすぎず一見全体の内容を要約しているように錯覚してしまいます。
Anthrotopic社のClaude (クロード) 3はこの問題を解決しており, 一度に数万文字もの長文を安定して全体の要約が行えます。
その他, 翻訳のみの機能でいえばDeepL (ディープエル) が有名なAIです。7月のアップデートで有料Pro版にLLMを搭載したモデルが発表されました。従来のAIとくらべて2倍程度の体感的な好ましさが得られているとのことです。
DeepL翻訳を使用するときはShaperの併用がお勧めです。DeepL翻訳で悩まされています『改行問題』が改善されます。
Google翻訳 (旧エキサイト翻訳) はPDFのレイアウトを保持したまま, 日本語への変換が可能です。しかし, LLM非搭載のため, 対話, 質問の解消が不可能, 翻訳性能自体も他のツールより低めというデメリットがあります。
3.2 和文英訳 ★★★
最も仕事効率化となるAI利用の一つと考えています。以前なら正確な英文を書くためには, その文章が正しい表現かどうか辞書や文法書などで一つ一つ確認するなど極めて労力の割く仕事ではなかったでしょうか。そうして最終的に出来た文章はネイティブにお金を払って校正依頼するか, ネイティブ級の知り合いに添削を依頼していました。
ChatGPTでは瞬時にuserの希望する英文を作り上げてくれます。また, 表現に関してもこちらの希望する細かい表現に従って作成してくれます。たとえば下の文は先ほどの文の内容を維持したまま書き出しを『With』から始めるように指示しました。
このようにAIにテキストプロンプトで指示することで, 実際にネイティブにお願いするような形で, 直感的な操作, やりとりで対話しているような英作文が行えます。
その他, 医学英語論文で適した表現など相談することもできます。essential for 以外に意味を維持したまま論文で使われる表現で適した言葉はどのようなものがあるかを尋ねています。
※AI特有の間違った表現, 直訳をしてしまうことなどがありますので 既往歴 medical history, previous historyの使い分け, 手術 surgery, operationの使い分けなど文脈に合わず直訳的に使用することが良く確認されていますので, 実際出力された 文章が使えるかどうか人間のチェックは必要です。
3.3 情報検索 リサーチ ★★☆
個人的には最も恩恵を受けているAIの活用法です。現在, Google検索とChatGPTのbrowsing mode (web pageを参照して検索+解説するモード) は体感半々くらいの利用率になっています。
主な利用法はGoogleなどの検索エンジンで検索できないような情報を引き出す場合, 検索した情報を整理してその場でまとめ, 要約する方法です。
3.3.1 情報を整理して回答
降圧薬の種類, 作用機序, 副作用を整理して回答してもらいます。
3.3.2 文脈を理解して回答
単なる知識の一対一対応の検索ではなく, こちらから複数の情報を時系列で提示し, それらの文脈をAIに考えさ答えを聞くというものです。
3.3.3 複数の情報を統合して回答
3.3.2とも少し似ています, 複数の情報を与えそれらを統合して考察し回答を出させます。例えば『皮疹 関節痛 日光過敏 疾患』とだけAIにプロンプトすると, 皮疹 関節痛 日光過敏を『来す』疾患を考えSLE 全身性エリテマトーデスと回答します。
同じワードで検索エンジンで検索すると『光線過敏症』のホームページしかでてきません。これは検索エンジンには思考が伴わないため, 『皮疹 関節痛 日光過敏 疾患』というワードを並列処理し, それらの単語が含まれるページのなかで良く読まれるページが選ばれる傾向があるためです。
3.3.4 質問のあいまいさを解消
これまでの検索はuser側に明確な疑問点がある場合でしたが, それとは逆に質問者がどのように質問して良いかわからない, そもそも自分が何を分かっていないかなどあいまいな状況下でAIがそれをアシストするというものです。
AI側が質問者userの疑問点を予想したり, 解決するために必要な情報を質問者から引き出すために追加の情報を要求してきます (明確化の要求)。このようにAIと対話することでインタラクティブ (双方向) に疑問の解決に近づいていきます。
これらの検索法を組み合わせると, これまで通常の検索エンジンではたどり着くのが困難な情報を得られる可能性があります。
3.4 論文検索 ★☆☆
たまに論文を書く, 学術活動をするという一般的?な勤務医に話を限定します。今回この記事を書くにあたって内科医で比較的論文を書いている, かつAIに詳しい先生に個別アンケートを取ったところやはり, 自分と同じようにAIの有用度は限定的という結果になりました。★☆☆の活用度とさせていただきます。
ChatGPT (web browsing mode)
GPTのWeb browsing (ネット検索機能) で論文検索した場合, やはりいまだにハルシネーションが多い印象があります。カスタム機能でハルシネーションを抑え, かつ, 目的の論文を探すことができれば理想ですがなかなかうまくいかない印象です。GPTs (ジーピーティーズ) のScholar AIが有名どころですが, これによって劇的に検索作業が捗ったということは今のところありません。
しかし, 運よく目的の論文が見つかれば, AIの機能を生かし, 要約や自動で表作成が可能などポテンシャルは秘めていると考えます。
Perplexity AI
論文検索AIといえばPerplexity AIが有名です。解答にリンク, 根拠がある場合はつけてくれます。
Connected Papers
特定の論文を検索するとその論文に関連した論文を視覚的に表示してくれるツールです。
以上が現時点での活用事例となりあます。アカデミックでバリバリ研究など行う先生は違った評価になると思われ, AI上級者, 論文執筆を量産している方はPubmed Resercher など構築しているという噂です。
3.5 自己研鑽, 学習補助 ★★★
医学生~医師になっても生涯学習が続きます。今回の記事で最大の発見ですが, 学科試験, 卒業試験, 医師国家試験, 専門医試験, 生涯学習のセルフトレーニング問題など多肢選択式 (multiple choice) の試験問題を解くときにAI活用でかなりの効率化が見込まれます。
医師国家試験
GPTが医師国家試験を突破したのはつい最近のようなイメージがあります。
AIの進歩はものすごく, ここ数か月で正答率が『劇的に』上昇しています。今年の国家試験50問をランダムに解かせたところ, 97%程度でした (ChatGPT4o, Claude 3.5 Sonnet それぞれ2 set, 他の検証報告と比べやや高めですので今回の問題は難易度が低めの50問と考えます。)。間違えた問題は割れ問で人間でも解くのが難しいと考えます。
医師国家試験はたまに単純な医学知識の丸暗記と言われ, 知っていれば即答できるような問題も多いですが, 合格点を取るには人間が行うような推論能力がないと困難です。
良い活用として, 自分が解けなかった問題の解説, 正解の根拠を聞いたり, 解けた問題でも他の選択肢がダメな理由など考え方, また医師国家試験で重要かつ, 通常の検索エンジンでは時間がかかる『病態生理』を調べさせるなどです。
認定内科医資格認定試験
難易度を少し上げて, AIに解かせてみます。
50問一気にとかせて, 間違えた問題を再度, 一問ずつ解かせる方式です。初めは画像も渡さずに文章だけで解かせたところ8割程度でした, 最終的に9割程度の正答率でした。
総合内科専門医試験レベル
さらに難易度を上げてみます。自分が手元にある書籍で一番難しい問題と思われます。自分が解いたときはAIなど高価なものが無くて, 間違えた問題も全てyearnoteなどの本で調べるという非効率?な 勉強法でした。体感, 半分も解けなかったような…
各分野からランダムに5問, 計50問を何回か複数のAIに解かせたところ正答率は8割程度でした (4 set行いました)。
あたりまえですが, AIなのでかなりの知識を有しており, こちらのマニアックな質問にも的確に答えてくれて, 間違えた問題に対して納得する理由をもらえたりします。
AIの便利な使い方として, これは医師ではなく, 特に医学生の卒業試験, 学科試験で絶大な威力を発揮すると思いますが, 正解枝以外の周辺情報をまとめて整理するというものです。AIのない時代は一個一個, 本や検索エンジンで手作業で調べていたと思います。
例えば結核菌の検査法ともっとも感度の高い方法に関する問題。正解はd. 抗酸菌培養 (液体培地) ですが, 他の選択肢の感度を調べるとき全てのワードを検索エンジンに手打ちで検索し, そのページを都度吟味するという非効率な方法を取っていました。
※ 番外編 AIのみで正答率100%に近づくことができるのか
AIが単独で8割程度の正答率の比較的難しい専門試験でも, AIを複数利用すれば『飛躍的に』正答率が上昇します (他の高難易度試験では検証していないので断定するのは危険かもしれませんが…)。この検証はだれも正解を知らないという体で行っています。まず, 異なるAI二者に問題を解かせ, 以下のように定義しました。
① 正答率が8割位の難易度でかつ, 同じ答えを選んでいる場合はとりあえず正解としときます。(同じ選択肢を選び二人とも不正解はなかったです. 厳密に100%を目指すならNGですが…)
② 違う答えを選んだ場合は少なくとも, 片方が誤りです。二人とも間違いの選択肢を選んだ問題は議論しても最終的に正解にはつながりませんでした。
以下の問題はGPTが誤りの選択肢を選び, Claude Sonnetが相手 (GPT) の論理の誤りを指摘し, GPTが最終的に間違いを認めた場面です。
ここでこつとして, userが事実と異なる主張をしてもAIに『〇〇と思います』と言い切ってしまうとAIは人間の主張を間違いと分かっていても命令として受け取ってしまうため, 断定ではなく, 『この考えはどう思いますか』と聞くことです。
駄目な聞き方: オセルタミビルは腎排泄型の薬剤ですが, 腎不全患者では減量は不要ですよね?
良い効き方: ChatGPTは『オセルタミビルは腎排泄型の薬剤ですが, 腎不全患者では減量』といっています。 あなたはどう考えていますか? 誤りであればその根拠を述べて下さい。
異なる解答を出した問題を議論させ, それぞれのAIお互いが納得した答えを採点したところ, 最終的に正答率は96%に上昇しました (単独では80%のところ)。
なぜこのような現象が起きたかという考察ですが, 単独ではケアレスミスが多く, それを片方のAIが指摘する, 事前学習でそれぞれのAIの得意分野がそもそも異なり, 不得意な領域が極端に減るなどです。二つのAIが協力して解けなかった問題は, 基本的に『(答えを知っている人が出すような) 大きなヒント』を与えない限り解答できませんでした。
脱線しますが, 当方はもともとGPT userでしたが, 軽い気持ちでClaude3も使い始めました。初めはClaude3の紹介記事を書いたら解約しようと思っていましたが (月額20$+20$は痛いです…) , 今では二つが無いと執筆活動が成り立たないレベルになってしまいました。その理由は以下です。正しいかどうかはさておき, 以下の質問をしてみました。
専門医試験を解いてもらい単独のAIでは正答率が80%でした。
二人協力すれば正答率が96%に上昇しましたた。それぞれのAIは単独でIQ90と仮定します。
この事実のみで二人が協力すれば見かけのIQはどれくらいになったと考えますか?
両者のAIが同じ答えを出し, 協力時にはIQが108にまで上昇するとのことです。IQの定義がそもそも間違っていますが, 体感的にIQが20の差, (月額 20$)の価値はあると個人的には考えています。
内科セルフトレーニング問題
単独AI 80%→複数AI 92%の正答率でした。プロンプトの工夫に関して以下記事でまとめています。
おまけ 学会発表補助 ★☆☆
医学系の学術研究, 症例報告など高度な考察が必要な学会発表, プレゼン資料の作成は効率化という点ではまだまだ先と考えています。
現在のスライド作成AI toolでは簡単なキーワードから, 自動でレイアウト文章, 挿絵画像を作成してくれますが, 文章の内容はWebから得られる一般的な情報をAIが要約し出力するといったレベルで学会で使うような高度な考察を含む文章はやはり手書きの方が早いといった印象です。
AIが自動で作ることができるスライドの要素は限られます。
現時点でのAIの良い利用方法は発表内容の『相談』や情報 (文章, 数字, 表などへ) 整理, 英訳などにとどまると考えています。
公 (学会など) の場で画像生成AIを使用する方法や生成AI使用に関する各学会のスタンスを以下にまとめています。
おまけ 病歴要約の自動作成 ★☆☆
自分自身, 病歴要約を作成していた時は完全な手書きでChatGPTなど高価なものはこの世にありませんでした。ChatGPTを触ったときに真っ先にやってみたかったことがJOSLERなどで必要な病歴要約を完全自動で出来るかという試みです。
実用性があるかどうかは置いといて, プロンプトのみで出来上がるか興味本位で作ってみました。
乱雑な紙カルテ (退院サマリー) を再現し, スキャナで読み込みクリックのみで作ってみます。
参考文献もChatGPTの手作り (嘘論文) です。
AIにこれらのファイルをドラッグアンドドロップするだけです。
完成度はさておき 普通に出来ました。
J-OSLER (専門医機構?) 公式もAIを使うことを完全に禁止しているわけではなさそうですので。プロンプトを参考にしていただき是非GPTsなどで病歴要約作成ツールなど役立ててもらえたら幸いです。