【論文紹介】モデル評価における「ChatGPTが医師国家試験に合格した」論文から見えた問題点
みなさん、はじめまして。
私は現在、大学院に通いながら、医療AIのスタートアップ、Cubecでデータ
サイエンティストとして働く塚川です。
4月には大手企業に就職が決まっている私が、なぜCubecで働くのか、もし興味があれば下記noteを読んでみてください。
Cubecでは、かかりつけ医が意思決定するための関連情報を、認められたエビデンスから提供するLLM(大規模言語モデル)の開発に取り組んでいます。そのLLMの評価として、日本医師の登竜門のような試験である医師国家試験をベースにしたIgakuQAを用いています。そのため、改めてIgakuQAを提唱している論文とそのGitHubを詳細に調査してみました。
「日本の医師国家試験におけるGPT-4とChatGPTの評価」は、結構読まれている論文なのでご存じの方もいるかと思います。概要をさらっと読むと「GPT-4は人未満、合格ライン以上」ということになるのですが、じっくり読んでみると新しい発見がありました。
本論文
📌 本論文の概要
医師国家試験(2018年~2022年)をベースにしたベンチマーク問題(IgakuQA)を用いて、GPT-3・GPT-3.5・GPT-4を評価した。
GPT-4のみ、どの年度においても合格点を超えることができた。しかし、大半の受験者には点数が及んでいない。
背景・対象
LLMの活用の幅は広がっており、英語以外の言語圏や専門領域においても利用が進んでいるが、LLMの学習・ベンチマークは英語を中心に行われている。そのため、英語ベースのデータセットは、ターゲットとする言語での利用と大きく乖離していることがある。例えば、日本では安楽死は違法であり、医師は安楽死を勧めてはならない、といったことである。
そのため、本論文では非英語である日本語由来かつ医療という専門領域でのベンチマークとして日本の医師国家試験(2018~2022年)をベースとしたIgakuQAを提案し、代表的なLLMであるGPT-3・GPT-3.5・GPT-4の評価を行った。
実験と分析
評価対象:
4つのモデルをAPIを通じて利用
・GPT-3
・ChatGPT(gpt-3.5-turbo)
・ChatGPT-EN:英語に翻訳された問題と選択肢で推論する
・GPT-4
プロンプトと出力:
・モデルのパラメータはデフォルトを使用
・2006年の医師国家試験からランダムに3つ選択した問題をin-context exampleにする
・CoT(Chain of Thought)を試してみたものの性能が変わらなかったと記載があった
・試験本番では適切でないとされた削除問題も含む
・画像を含む問題については、画像の添付なしで検証
・長文問題は2問目以降に最初の条件などが付与されていない
▼ 詳細
評価方法:
出力をアルファベット順に並べ替えした後に文字列の完全一致によるコードでの成否判定を行っていた。
結果:
表の見方について
・Req. Gen.はそれぞれ
Required Section : 必修(大問B・E)
General Section : 一般(大問B・E以外)
を示しており、高ければ高いほどよい
・比較として、問題のメタデータにおける受験者の回答率が最も高い選択肢を選んだ際の得点をStudent Majorityとして示す。
・成績順は、GPT-4>ChatGPT-EN>ChatGPT>GPT-3
GPT-4とChatGPT-ENは5年間で3つより多くの禁忌を選択していない。
・GPT-4は5年とも合格しているが、Student Majorityより大幅に下回っている。
・ChatGPT-ENはほとんどのケースでChatGPTをある程度上回っており、翻訳が行われない場合のLLMの多言語性の限界を示唆している。
分析・考察:
・英語よりもおよそ2倍のトークンが必要
・特に長文において重要ではないかと考えられる
・禁忌の問題について選択することもあり、医学・金融・法学などではその利害が大きい
▼ CatGPTが選択した問題の例
・地理的・時間的コンテキストを含む問題に対して日本固有の知識が必要
▼ ChatGPTが選択した問題の例
・下の図の縦軸は正答率を示しており、GPT-4が正解できた問題は緑・できなかった問題は赤色になっている。 受験生の正答率が低い問題において、GPT-4も間違っていることから、ChatGPTが人間にとっても難しい問題で苦戦していることがわかる。
5. 結論
2018年〜2022年までの日本の医師国家試験におけるGPT APIの評価を行った。GPT-4は他のモデルを凌駕し,試験に合格することができた。
制限:
・APIの利用のためブラックボックスになってしまうこと
・データ漏れが考えられるため最新の2023年の結果も掲載した
・画像入力をサポートしていないためマルチモーダルなモデルの開発が必要である
この論文からの新しい発見
この論文を詳細に読んでみて、GPT-4が人未満、合格ライン以上という事実以外の新しい発見は大きく分けて3つあります。
LLMに不利な問題設定
LLMに問題を解かせるにあたって人間と比較してやや不利な状況で解いている問題
画像を含む問題(全問題の約25%)において画像情報がない状態
長文問題(全問題の約7.5%)の2問目以降に症例の情報が付与されていない状態
プロンプトによる影響
記載については短く、具体的にどのような処理を行ったか不明だが、「CoTを試したもののあまり効果がなかった」と記載されていた。そのような結果を出すにしては、検証が足りていないと思う。
加えて、新しいメタ認知プロンプティングを用いることでの性能の向上は考えることができるのではないかと考えられる。評価方法
医師国家試験の問題が基本的には選択肢問題から構成されているため、人間の目視ではなくコードを用いた完全一致によってLLMの出力の評価を行っていました。そのため[a]と回答しないといけないところ[aの選択肢です]のような回答は不正解となります。このような回答はほとんどなかったと論文には記載されていましたが、コードを用いた評価ならではの弊害だと考えられます。
今後の開発に向けて
いかがだったでしょうか?
日本での医師への登竜門である医師国家試験をベンチマークに用いており、LLMを医師の卵のように育てている私たちと、とてもマッチしているベンチマークだと感じました。ですが、上記の『この論文からの新しい発見』であげたように、そのままのIgakuQAの利用では問題があることもわかりました。そのため、Cubecでの評価では以下のような改善を行っています。
フェアな問題設定
IgakuQAを元にしながら長文問題において不足情報を補ったり、画像を含む問題を除くこと、難しいと考えられる一般問題を使った検証を行うことでフェアな評価に取り組んでいます。そして、これからマルチモーダルに進むにあたり画像の補完を行いたいと考えています。メタ認知プロンプティングも考慮
論文で述べられていたCoTに加え、新しく提唱されているメタ認知プロンプティングについても検証を行っています。評価方法の工夫
Cubecでは人間の目視による評価を行っています。それに加えて、結果に至る推論過程についても評価を行うことを試みており、答えだけでなく質についても注目しています。そのような評価に言語モデルを利用し、大量の問題において評価できる状況を整えようとしています。
さらに、かかりつけ医の支援をするにあたりLLMが循環器領域の専門医と同じような思考ができるようにオリジナルな学習データを用意してLLMを作成しています。
このような取り組みについて興味があり、一緒に働いてみたいと思う方を募集しています。興味がある方は、こちらからカジュアル面談をお申込みください。
参考文献
Cubec論文リサーチ
【論文紹介】医療AIの新たな評価軸MultifacetEval(前編)
【論文紹介】医療AIの新たな評価軸MultifacetEval(後編)
【論文紹介】専門用語に強いRAGにするGolden-Retriever