【論文紹介】言語の壁に挑むAI：CT・MRI読影レポート翻訳の現状

2025年1月26日 21:00

CT・MRI読影レポート翻訳の最前線

近年、医療のグローバル化が進み、異なる言語で書かれた医療レポートを目にする機会が増えています。しかし、言語の壁は、正確な診断や適切な治療を妨げる大きな障壁となっています。特に、専門性の高い医療用語が飛び交う放射線科の読影レポートの翻訳は、容易ではありません。
そんな中、AI、特に大規模言語モデル（LLM）が、この問題を解決する救世主として注目を集めています。

CTやMRIの読影レポート、多言語で翻訳する精度を検証！

移動の増加や遠隔医療の台頭により、患者が外国語で書かれた医療レポートを提出するケースが増加しています。これらのレポートを効果的に活用するためには、正確な翻訳が不可欠です。しかし、医療専門知識を持つ翻訳者は不足しており、特に専門性の高い医用画像レポートの翻訳は大きな課題となっています。

この課題を解決する可能性を秘めているのが、AI、特に大規模言語モデル（LLM）です。LLMは、膨大なデータから学習し、人間が書いたような自然な文章を生成する能力を持つAIモデルです。近年、様々な分野で活用が進んでいますが、医療分野における、特に多言語間での翻訳性能は十分に検証されていませんでした。

そこで、ある研究チームは、10種類の代表的なLLMを用いて、CTやMRIの読影レポートを9つの言語（高リソース言語：英語、イタリア語、フランス語、ドイツ語、中国語、低リソース言語：スウェーデン語、トルコ語、ロシア語、ギリシャ語、タイ語）間で翻訳し、その精度と品質を評価しました。

GPT-4がトップの成績！言語によって得意なモデルも

研究の結果、LLMは放射線科レポートの翻訳において、高い精度と品質を示すことが明らかになりました。特に、GPT-4は、英語からドイツ語、ギリシャ語、タイ語、トルコ語への翻訳で最も優れた性能を発揮しました。また、GPT-3.5は英語からフランス語への翻訳、Qwen1.5は英語から中国語への翻訳、Mixtral 8x22Bはイタリア語から英語への翻訳で、それぞれトップの成績を収めました。
この結果から、翻訳する言語ペアによって、最適なLLMモデルが異なることが示唆されます。

医療現場で使える？ LLM翻訳の強みと課題

研究チームは、LLMの翻訳品質を、定量評価（BLEUスコア、chrF++、TER）と定性評価（放射線科医による5段階評価）の二つの側面から評価しました。
その結果、LLMは、明確さ、可読性、元の意味との一貫性において高い評価を得た一方で、医学用語の正確さにはばらつきが見られました。これは、LLMの学習データに、一般的なテキストデータが多く含まれていることが一因と考えられます。
また、異なる言語間での評価指標の比較には限界があることも課題として挙げられました。例えば、タイ語はロシア語よりも定量的なスコアが低かったものの、定性的評価ではタイ語の方が翻訳品質が高いと評価されました。

医療翻訳の未来を切り開くAIの可能性

本研究は、LLMが放射線科レポートの翻訳において、高い可能性を秘めていることを示しました。しかし、実用化に向けては、医学用語の正確性の向上や、異なる言語間での評価指標の確立など、さらなる研究開発が必要です。

参考文献

Meddeb A, Luken S, Busch F, et al. Large Language Model Ability to Translate CT and MRI Free-Text Radiology Reports Into Multiple Languages. Radiology. 2024 Dec;313(3):e241736. doi:10.1148/radiol.241736.

専門家向け解説

already known（既知の知見）:

放射線科の読影レポートは、患者ケアを最適化するために不可欠である。
医用画像処理に特化した人材の不足により、人間による翻訳の利用が制限される。
大規模言語モデル（LLM）は、様々なアプリケーションで有望な結果を示している。

unknown（未解明の点）:

LLMが放射線科の読影レポートを高リソース言語（英語、イタリア語、フランス語、ドイツ語、中国語）および低リソース言語（スウェーデン語、トルコ語、ロシア語、ギリシャ語、タイ語）間で正確に翻訳できるかどうか。
様々なLLMの翻訳精度と品質を、多言語で比較した場合の性能。

current issue（現在の問題）:

移動の増加と遠隔医療の台頭により、患者は外国語で書かれたレポートを提示することがあり、言語の壁が効果的な利用を妨げ、患者管理を損なう可能性がある。
医療専門知識を持つ人間の翻訳者が常に利用できるとは限らず、特に医用画像分野では、診断の遅延や潜在的なエラーにつながる可能性がある。

purpose of the study（本研究の目的）:

様々なLLMを高リソース言語（英語、イタリア語、フランス語、ドイツ語、中国語）および低リソース言語（スウェーデン語、トルコ語、ロシア語、ギリシャ語、タイ語）間で放射線科の読影レポートを翻訳する際の精度と品質を評価すること。

Novel findings（新規な発見）:

LLMは放射線科レポートの翻訳において高い精度と品質を示したが、モデルと言語ペアによって結果は異なる。
GPT-4は、特に英語からドイツ語、ギリシャ語、タイ語、トルコ語への翻訳において、全体的に最高の翻訳品質を示した。
GPT-3.5は英語からフランス語への翻訳で最も高い精度を示し、Qwen1.5は英語から中国語への翻訳で優れており、Mixtral 8x22Bはイタリア語から英語への翻訳で最も優れた性能を示した。
定性評価では、LLMは明確さ、可読性、元の意味との一貫性において優れていることが明らかになったが、医学用語の正確さにはばらつきが見られた。

Agreements with existing studies（既存研究との一致点）:

医用画像レポートの翻訳に構造化レポーティング技術を使用することの有用性を評価した過去の研究と一致し、LLMがこれらの障壁を克服するのに役立つ可能性を示唆している。
多言語構造化レポートツールを用いて、エストニア語またはリトアニア語のレポートを作成し、デンマーク語に自動翻訳した既存研究と方向性が一致する。
多言語テンプレートを用いて非ドイツ語話者の放射線科医が作成した構造化レポートをドイツ語に翻訳し評価した既存研究とも類似しており、自動翻訳されたレポートが、ネイティブスピーカーが書いたレポートと質的に同等であることを示している。

Disagreements with existing studies（既存研究との相違点）:

過去の多くの研究が一つの言語ペアのみを対象としていたのに対し、本研究は複数の高リソース言語と低リソース言語を対象とし、LLMの翻訳能力をより包括的に評価している。
本研究は、構造化レポートだけでなく、自由記述の放射線科レポートを対象としている点で、従来の多くの研究と異なる。