Medical Text Simplification: Optimizing for Readability with Unlikelihood Training and Reranked Beam Search Decoding
本研究の学術的背景には、AIの応用がますます重要視される中で、テキストの簡略化が特殊分野(医学など)におけるコミュニケーションの障壁を取り除くための有用な応用として台頭しています。医学のような分野では、専門用語や複雑な構造が一般的に使用されるため、テキストの簡略化は特に重要です。しかし、医学の簡略化の方法は、生成されたテキストの品質や多様性が低下することがあるため、改善の余地があります。
本研究の目的は、医学領域におけるテキスト簡略化の可読性をさらに向上させる方法を探求することです。そのために、(1) よりシンプルな用語の生成を促す新しい非確率的損失関数と、(2) 簡潔さを最適化する再ランキングビームサーチのデコーディング手法を提案しています。これらの手法によって読みやすさの指標が改善され、有望な結果が得られました。
本研究の着想は、医学領域におけるテキスト簡略化のさらなる向上を目指して生まれました。過去の研究では、事前学習済み言語モデルや強化学習、ゼロショットプロンプティングなどが医学領域におけるテキスト簡略化に活用されてきました。しかし、簡略化には品質や多様性の低下という課題があります。本研究では、既存の手法がソースから文をコピーするため、十分な改善を達成できていないことも明らかにしました。
本研究では、医学のテキスト簡略化をさらに改善するために、2つの新たな手法を提案しています。まず、有名な可読性指標を使用して、単語の読みやすさに比例してペナルティを与える新しい非確率的損失関数を提案しています。次に、デコーディング時に中間候補を再ランキングするための改良されたビームサーチ手法を提案しています。これらの手法により、自動化された指標(FleschKincaid上で最大2.43ポイント)と人間の評価に基づいて可読性が改善されました。また、事実の一貫性や総合的な簡略化においても同様のパフォーマンスを維持しました。
本研究では、3つのデータセットにおける可読性と事実の一貫性に関する先行研究の評価結果を提供しています。具体的には、医学のテキスト簡略化において可読性を向上させるための新しい非確率的損失関数とデコーディング手法の有効性を示しています。このような成果が得られたことで、医学分野におけるテキスト簡略化の改善に向けた有望な方向性が示されました。