定量データ分析だけでは見えない心不全の実態を明らかにする、テキスト分析モデルとは?
こんにちは。株式会社ユカリア データインテリジェンス事業部の城前です。
これまで、医療データによる心不全の臨床実態の分析を行ううえでは、大きな課題がありました。
一般的な定量データは構造化されており、電子カルテやレセプトから取得することができます。
しかし、例えばHFpEFやHFrEFなどの医師の診断や、LVEF(左室駆出率)といった画像から読み取られた検査値などの重要な情報は、電子カルテのテキスト記載欄に自由記述で書かれていることが多く、抽出や構造化が難しかったのです。
学会などで管理されているレジストリの中には、テキストデータが構造化されているものも存在しますが、一般企業がアクセスし活用することは現実的に難しい状況です。
弊社では独自の中小病院電子カルテデータベース「ユカリアデータレイク」をもとに、それらのテキスト情報の抽出・構造化に取り組んでおり、今回はその概要をご紹介したいと思います。
【ポイント】
電子カルテのテキストデータ構造化で分析の幅が大きく広がる
NER(固有表現抽出)モデルでテキストデータを構造化できる
心不全分析に有用なキーワード選定が重要
テキストデータを含む分析で、患者背景や治療経過の解像度が上がる
①テキストデータの活用
テキストデータは、医師をはじめとした医療従事者が患者の状態や所見を詳細に記述した内容であるため、臨床や処方の実態を把握するにあたって有用な情報を多く含んでいます。
しかし、非構造化データのため取り扱いが難しいという課題がありました。
②NER(固有表現抽出)モデルを使用した構造化データへの変換例
NER(Named Entity Recognition)モデルとは自然言語処理の一種で、テキスト中の固有名詞を自動的に識別するためのアルゴリズムです。
大量のテキストデータを学習し、テキスト中の各単語がどのようなタイプの固有名詞であるかを判断します。
このモデルを用いると、例えば
「BW 54.7kg, BP 114/69 P 70自宅で転倒して肋骨骨折し、…」
「○○の病院から紹介受診した。血圧142/80。2型糖尿病、アクトス、グラクティブ、アマリール…」
といった表記ゆれのあるテキストデータが、以下のような構造化データとして整理されます。
③心不全分析のために情報抽出を行うキーワード例
今回の取組みにおいては、例として心不全に関連する以下のようなキーワードを選定しました。
病状の把握や改善効果を把握するうえで欠かせないHFpEF、HFrEFや、患者の主訴である動悸や息切れなどの情報も含んでいます。
④テキストデータを活用した心不全症例のアウトプット例
NERモデルの活用により、例として以下のような形で、具体的な患者の症例情報を取得することができます。
合わせて抽出した、この患者さんの通院開始以降5年間における検査値の推移と処方状況です。
ユカリアデータレイクは中小病院のデータであるため、一人の患者さんの長期間にわたる治療経過を連続的に確認できるのが特徴の一つです。この点は、大学病院などのデータには無いメリットです。
⑤テキストデータを活用した心不全の分析例
アウトプットを元に行う具体的な分析の切り口としては、例えば以下のようなものが考えられます。
5-1 左室駆出率(LVEF)を使った分析
診断タイミング
・LVEFの推移とHFpEF、HFrEFの診断タイミング
症状の変化
・LVEFの推移と症状の変化
投薬実態
・基本薬、併用薬の選択
・LVEFの推移と薬剤の切り替えタイミング
5-2 HFpEF(収縮機能が保たれた心不全)とHFrEF(収縮機能が低下した心不全)に関する分析
従来はレジストリのような特殊なデータベースを活用できる一部の方しかできなかった以下のような分析を、タイムリーに行えるようになります。
患者背景の比較
投薬の違い
弊社の保有する電子カルテデータベース「ユカリアデータレイク」は、特に今回スポットを当てた「テキストデータ」の保有量という観点では、他のデータベースと比較して明確な強みがあります。
本記事内容、また、電子カルテのテキストデータ分析についてご関心があれば、お気軽に以下メールアドレスまでご連絡ください。
株式会社ユカリア
データインテリジェンス事業部 pharma.biz@eucalia.jp
【製薬企業の方へお知らせ】
薬剤の「ポジショニング」「市場規模」「患者像」「競合品とのスイッチ状況」の把握に役立つ分析データやレポートなどの情報を無料でご覧いただける製薬企業様向け情報提供サービス
Patient Visualizer(ペイシェントビジュアライザー)を開始しました。
情報収集のため、よろしければ会員登録のうえご利用ください。
Patient Visualizer サービスページ
※会員登録は製薬企業にご勤務の方のみを対象としております
掲載している分析データのサンプルはこちら(2型糖尿病領域)
Patient Visualizerの魅力のご紹介