Clinical Text Classification to SNOMED CT Codes Using Transformers Trained on Linked Open Medical Ontologies
https://aclanthology.org/2023.ranlp-1.57.pdf
以下は、上記の論文のアブストラクトをChatGPTに解釈させたものです。解釈の正確性について保証はいたしません。
1 本研究の学術的背景には、医療コーディングの自動化が不十分であるという現状があります。医療オントロジーには多数のコードが存在し、自然言語処理システムの訓練に使用する医療テキストのアクセスが非常に限られています。研究課題の核心は、SNOMED CTコードを対象値とする臨床テキスト分類のタスクです。
2 本研究の目的は、SNOMED CTを使用して臨床テキストのコーディングを行う手法を提案することです。学術的独自性と創造性は、公に利用可能なオントロジーおよび用語のリンクしたオープンデータをトレーニングデータとしてアルゴリズムに使用するという点にあります。短いテキストスニペットからなる小規模なトレーニングコーパスでも、与えられたタスクのためのモデルを訓練することができると主張しています。さらに、クラスタリングと候補のフィルタリングを組み合わせたtransformersに基づく手法を提案しています。また、transformerの埋め込みを使用したサポートベクトル分類(SVC)という古典的な機械学習手法を採用しています。結果として、当該タスクの予測よりも正確な結果を得られる手法を開発しました。
3 本研究の着想は、医療オントロジーのコード数が非常に多いため、メディカルコーディングが課題であることから得られました。また、医療テキストの正しい情報抽出が困難であるという問題もあります。関連する国内外の研究動向としては、生物医学分野における手法の採用が増えていることや、大規模な言語モデルの効果などが挙げられます。
4 本研究では、SNOMED CTコードに関連する形態学と位置情報のデータセットに基づいて評価を行いました。提案したtransformersベースの手法は、形態学のコードに対してF1スコア0.82、位置情報のコードに対してF1スコア0.99を達成しました。さらに、モデルのトレーニングに使用しない実際の臨床データを使用して、本手法の適用可能性を検証しました。
5 本研究の有効性は、実際の臨床データを使用した評価によって検証されています。また、大規模な言語モデルと比較してもより正確な結果を示していることも有効性の一つです。