A Novel Corpus of Annotated Medical Imaging Reports and Information Extraction Results Using BERT-based Language Models

Ikemen Mas Kot

2024年4月3日 14:12

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

本研究は、医学画像の報告書と情報抽出結果に関する学術論文です。この論文では、BERTベースの言語モデルを使用して、医学画像の報告書をアノテーションし、情報抽出を行っています。先行研究では、特定の臨床的なタスクや医療状態に焦点を当てた研究が行われてきましたが、本研究では、より包括的な情報を網羅的に捉えるためのアノテーションスキーマを導入し、複数の画像モダリティにわたる報告書を対象としています。
本研究の目的は、医学画像の報告書を構造化された意味的表現に変換するための手法を提案することです。医学画像の報告書は、放射線科医が画像を解釈し、その評価を文章で表現したものですが、これらの報告書は主に非構造化のままです。本研究では、報告書をイベントベースのスキーマでアノテーションし、クリニカルな情報を捉えるためのトリガーと複数の引数を含むイベント構造を提案しています。また、アノテーションされた報告書を用いて、BERTベースの言語モデルを活用した情報抽出手法を検討しています。
本研究で用いられたデータは、医学画像の報告書のコーパスである「Corpus of Annotated Medical Imaging Reports (CAMIR)」です。このコーパスには、Computed Tomography（CT）、Magnetic Resonance Imaging（MRI）、Positron Emission Tomography-Computed Tomography（PET-CT）の3つの画像モダリティに関する609件の報告書が含まれています。これらの報告書は、イベントベースのスキーマに基づいてアノテーションされており、クリニカルな情報を捉えるためのトリガーと引数が含まれています。CAMIRは、イベント構造と概念の正規化を組み合わせた独自の特徴を持っています。
本研究で用いられた手法は、BERTベースの言語モデルを活用した情報抽出手法です。具体的には、既存のアーキテクチャであるmSpERTと、CAMIRスキーマに適用するために拡張したPL-Marker++の2つのアーキテクチャを検討しています。mSpERTは全てのイベント情報を同時に抽出するアーキテクチャであり、PL-Marker++はCAMIRスキーマに適用するために拡張したマルチステップのアプローチです。これらの手法は、CAMIRで訓練および評価され、イベント抽出の性能が高いことが示されています。
本研究によって明らかになったことは、医学画像の報告書を構造化された意味的表現に変換するための手法として、BERTベースの言語モデルを活用した情報抽出手法が有効であることです。CAMIRコーパスを用いた実験結果から、提案された手法が高い性能を示し、イベント抽出の精度が高いことが確認されました。これにより、医学画像の報告書をより効果的に利用するための基盤が提供されることが期待されます。

この記事が気に入ったらサポートをしてみませんか？