
Weak Supervision and Clustering-Based Sample Selection for Clinical Named Entity Recognition
この研究の学術的背景および問いは、医療文章の分析の一つとして、一般的なクリニカルドキュメントから有意義な情報を抽出し、構造化することです。具体的には、名前付き実体認識(NER)という情報抽出の一部で、非構造化フリーテキストから事前に定義されたエンティティ(例:病名、薬名、症状など)を識別することにあります。このNERモデルは多くの人間によるラベル付けされたデータを必要としますが、人間によるアノテーションは費用がかかる上、労働集約的であり、しばしば医学的な訓練を必要とします。そこで研究者は、既存の医学オントロジーを用いてエンティティに弱いラベルを付け、ドメイン特異的なモデルの適応を強化するためのトレーニングスキームを導入することで、人間によるアノテーションデータの不足を克服することを試みました。
この研究の目的は、人間によるアノテーションデータがほとんど無い状況、つまり、フィンランド語のクリニカルノートからカスタマイズした医療エンティティを抽出するための新しいフレームワークを提案することです。学術的な独自性と創造性は、フィンランド語の医学辞書とフィンランド語の依存関係解析パイプラインを統合し、弱くラベル付けされたデータを提供する「Hybrid Annotation Mechanism (HAM)」モジュールを作成するところです。
この研究の着想は、専門家による手動アノテーションに頼ることなく、既存の医療オントロジーと強化学習を利用してNERモデルを訓練するというアイデアからきています。関連する研究動向としては、過去に知識ベースの遠隔監督、事前トレーニングモデルからの転移学習、辞書ベースの方法などが用いられてきました。
フィンランドの病院のデータレイクからクリニカルレコードを取得し、それらを4つのテキストクラスタに分けることにより、恣意的な医療エンティティを抽出する「HAM-net」の妥当性を検証しました。また、人間によるアノテーションの効率を高め、アノテーションコストを削減するために、代表的なサンプルを人間によるアノテーションのために選択する「Sample Selection Module(SSM)」も開発しました。
テストセットのアノテーションに、診療者を招待することにより、フレームワークの有効性を検証しました。さらに、提案した手法の効果性を評価するために、病院のデータレイクから取得した臨床レコードに基づく2つのフィンランドの医療NERデータセットを構築しました。