見出し画像

臨床医のためのnetwork meta-analysisチュートリアル

NMA(network meta-analysis)への依存が増している現代では、医療従事者がNMAの適切な使用方法を理解し、臨床判断を下す際に公開されたエビデンスを批判的に評価することが特に重要である。本レビューでは、COPD薬物療法の分野におけるエビデンス統合手法としてのNMAの概要を提供するとのこと

Haeussler, Katrin, Afisi S. Ismaila, Mia Malmenäs, Stephen G. Noorduyn, Nathan Green, Chris Compton, Lehana Thabane, Claus F. VogelmeierとDavid M. G. Halpin. 「Assessing the comparative effects of interventions in COPD: a tutorial on network meta-analysis for clinicians」. Respiratory Research 25, no. 1 (2024年12月21日): 438. https://doi.org/10.1186/s12931-024-03056-x.

患者の転帰を最適化するために、医療の意思決定は最新かつ高品質なエビデンスに基づくべきである。ランダム化比較試験(RCT)は介入の有効性を示すために重要であるが、介入が既存の治療法と比較してどのように位置づけられるか、または治療アルゴリズムにどのように適合するかに関する情報は限られている場合がある。慢性閉塞性肺疾患(COPD)の治療にはさまざまな治療クラスが利用可能であるが、それらの治療法の相対的な有効性を評価することは困難である。複数のRCTからのエビデンスをメタアナリシスで統合することで、利用可能なエビデンスを包括的に評価し、所見の「グローバルサマリー」を提供できる。

ペアワイズメタアナリシスは、2つの治療法が直接比較された臨床試験で検討されている場合に使用できる確立された手法である。しかし、COPD治療における単一吸入器を用いた三剤併用療法の有効性など、いくつかの比較では直接比較試験が存在しない場合がある。このような場合、ネットワークメタアナリシス(NMA)が利用され、複数の研究データを用いて共通の比較対象に対する効果を評価することで、治療法を間接的に比較することができる。ただし、方法の選択や適用が誤っている場合、所見の解釈が妨げられるか、無効なサマリー推定が導き出される可能性がある。そのため、エビデンスの確実性を評価するためにGRADE報告フレームワークを使用することが重要である。

NMAへの依存が増している現代では、医療従事者がNMAの適切な使用方法を理解し、臨床判断を下す際に公開されたエビデンスを批判的に評価することが特に重要である。本レビューでは、COPD薬物療法の分野におけるエビデンス統合手法としてのNMAの概要を提供する。NMAを実施しその結果を解釈する際の重要な考慮事項を論じ、利用可能なデータに最も適した方法論と、方法の誤用がもたらす潜在的な影響についてのガイダンスを提供する。最後に、シミュレーションデータを用いたNMA方法論の簡単な例を示し、正しく適用された場合、選択された方法論にかかわらず分析結果が類似するべきであることを示す。


序文

  • COPD患者の転帰を最適化するためには、保健技術評価(HTA)機関や支払者が治療の有効性に関する徹底的な評価に基づいて資金および償還の決定を行う必要がある。

  • 医療従事者(HCP)の決定および国内外のガイドラインにおける管理推奨は、最新かつ高品質なエビデンスに基づくべきである。

  • ランダム化比較試験(RCT)は治療の有効性を示すが、すべての治療法を比較するわけではなく、治療アルゴリズムにおける位置づけに関する情報も限られている。

  • 複数のRCTからのエビデンスを統合することで、包括的でバランスの取れた評価や全体的な結論を得ることができる。これにより、HTA機関やガイドライン作成者が情報に基づいた意思決定を行える。

  • 証拠統合にはさまざまな方法があり、HTA機関や支払者は特定のアプローチを好むことが多いが、利用可能なデータに応じた適切な方法を選ぶ必要がある。

  • メタアナリシスはRCTの統合によって治療の効果を要約し、比較的高いレベルのエビデンスを提供できる。

  • ペアワイズメタアナリシスは、直接比較試験が行われた2つの治療法を比較するための確立された方法であり、統計的手法を用いて「統合治療効果」を計算する。

  • COPD治療において、単一吸入器を用いた三剤併用療法など、一部の治療比較に関する直接試験が存在しない場合がある。

  • ネットワークメタアナリシス(NMA)は、共通の比較対象を基準に複数の研究データを用いて治療法を間接的に比較する手法である。

  • NMAは直接および間接データを同時に分析でき、観察研究よりも交絡バイアスの影響が少ない。

  • ITC(間接治療比較)は、HTA機関や支払者に治療アルゴリズム全体のコストおよび効果に関する情報を提供し、治療間の相対効果を評価できる。

  • HCPは公開されたNMAの分析を批判的に評価し、適切に解釈する能力を持つことが重要である。

  • 本チュートリアルでは、NMAを用いたエビデンス統合の概要を示し、COPD薬物療法を例に計画、実施、解釈の際の重要な考慮点を説明する。

  • また、NMA方法論の影響を示すために、シミュレーションデータを用いた簡単な例を提示する。


エビデンス統合の基本

ステップ1: 系統的文献レビュー(SLR)

  • メタアナリシスを行う前に、研究分野の関連するすべてのRCTを系統的文献レビュー(SLR)を通じて特定する必要がある。これにより、分析に含める研究と除外する研究を系統的に識別できる。

  • SLRは、**International Prospective Register of Systematic Reviews(PROSPERO)**への事前登録や、PRISMAガイドラインに準拠した報告が推奨される。

  • Cochraneでは、あらかじめ定義された検索文字列を使用して各データベースを検索し、すべての記録を選択基準に基づいて評価することを推奨している。

  • 研究質問は、PICOS(対象者、介入、比較対象、アウトカム、設定)フレームワークを用いて定義する。加えて、研究期間や言語などの基準も事前に指定する必要がある。

  • 非系統的レビューはバイアスのリスクを高める。例えば、特定の設計や地域、期間に限定することで分析結果に大きな影響を与える可能性がある。

ステップ2: データ抽出とメタアナリシス

  • 関連するすべての研究が特定された後、データを抽出し、バイアスリスクの評価を行う必要がある。

  • RCTのバイアスリスクを評価するための標準的なフレームワークとして、**Revised Cochrane risk-of-bias tool for randomized trials(RoB 2)**がある。

  • バイアスは設計や実施、分析、報告の欠陥によって生じる可能性があり、結果の過大評価または過小評価につながる。

  • データ抽出と質の評価は、少なくとも2人のレビュアーが独立して行うことが推奨される。


ネットワークメタアナリシス(NMA)の概要

NMAの特性

  • NMA(または複数治療比較)は、複数の治療法や研究における直接的および間接的エビデンスを同時に評価できる手法である。

  • 各治療法(例:異なる用量や併用療法)の特性を保持しつつ、他の治療法を「接続」する共通の比較対象を利用してエビデンスを補完できる。

  • すべての治療法は、直接的または間接的に接続されている場合、比較が可能である。

  • 接続がない治療法を比較する場合、**MAIC(適合調整間接比較)**などの他の手法を利用する。

NMAの主要仮定

  1. 類似性(Similarity)

    • NMAに含まれる研究は臨床的および方法論的に類似している必要がある。

    • 研究間の類似性を確認するため、患者の年齢や性別、疾患重症度などの特徴をサマリーテーブルや散布図で視覚化することが有効である。

  2. 推移性(Transitivity)

    • 比較対象以外に系統的な違いがないことが必要である。

    • 例えば、治療Aが「A対B」および「A対C」試験で類似していなければ推移性が損なわれる可能性がある。

  3. 一貫性(Consistency)

    • ネットワーク内の直接的エビデンス(RCT)と間接的エビデンス(共通比較対象に基づく)が一致していることが求められる。

    • 不一致がある場合、結果がバイアスの影響を受ける可能性がある。

  4. 均質性(Homogeneity)

    • NMAに含まれる研究間のばらつきを最小限に抑える必要がある。

    • 選択基準を満たしている場合でも、治療群やアウトカム、デザインの違いによって間接推定がバイアスを受ける可能性がある。


NMA手法の概要

NMAの2つの主要な枠組み

  • **頻度主義(Frequentist)ベイズ(Bayesian)**の2つが主流である。

  • 文献ではベイズNMAが最も多く使用され、次いで頻度主義NMA、最後に**Bucher間接治療比較(ITC)**が利用される。

  • Bucher ITCは単純な方程式に基づき、頻度主義およびベイズNMAはより複雑な一般化線形モデルを使用する。


Bucher ITC

  • 1997年にBucherらによって提案されたITC手法で、統計モデルを必要とせず、単純な方程式で計算する[47]。

  • 治療A対治療Bの間接比較は、共通の比較対象(治療C)に対する治療AおよびBの効果を比較することで推定される[47]。

  • 原始RCTのランダム化を保持しつつ、直接比較試験が存在しない治療法の比較が可能である。

  • 特に限られたエビデンス(例: 2つの治療法間の比較)では有効だが、多腕試験や複雑なネットワークには不向きである。

  • この手法は複数のHTA機関で推奨されており、単純で実行が容易である一方、多段階での比較は不確実性を増大させる。


頻度主義NMA

  • 観察データに基づき、仮説検定を通じて統計的有意差を評価する。

  • **一般化線形モデル(GLM)**を使用し、重み付き最小二乗法(LSR)に基づいて計算を行う。

  • 結果は平均差、オッズ比(OR)、95%信頼区間(CI)として提示され、Pスコアを用いて治療法をランク付けできる。

  • シンプルであるため、RやStata、Pythonを使用して容易に実装可能である。

  • 主な利点は、エビデンスが少ない場合や、従来の統計解釈に馴染みがある場合に適している点である。

  • 欠点としては、既存のデータや観察研究の知識を分析に組み込むことができない点が挙げられる。


ベイズNMA

  • ベイズNMAは、不明な量(例: FEV1の治療間差)が確率分布を持つという前提に基づいている。

  • ベイズの定理を使用し、事前分布(Priors)と観察データを組み合わせて事後分布を生成する。

  • 仮説検定は行わず、治療の比較可能性や優劣を直接的に示す。結果は、事後分布の平均値や中央値、95%信用区間(CrI)として提示される。

  • SUCRA(累積ランクの面積)を用いて治療の順位を数値化する。高いSUCRA値はネットワーク内で高い順位を意味する。

  • 事前分布を利用できる点がベイズ法の利点であり、意思決定の場面では自然な解釈が可能である。

  • しかし、計算が複雑で、事前分布の選定が主観的になりやすい。データが少ない場合には広範なCrIが生じる可能性がある。


NMAの比較結果の提示

  • 比較介入効果の推定値は、リーグテーブルとして提示され、95% CIまたはCrIとともに示される。

  • 森プロットを使用し、95% CIまたはCrIで効果推定値を視覚的に表現することも可能である。


固定効果モデルとランダム効果モデル

NMA(ネットワークメタアナリシス)は、固定効果(FE)モデルまたはランダム効果(RE)モデルのいずれかに基づいて行われるのが一般的である(表3参照)。

  • 固定効果モデル(FEモデル)
    固定効果モデルでは、特定の治療間の相対的な治療効果が、これらの治療を含むすべての試験で同じであると仮定する(すなわち、試験間での効果サイズの変動は、試験内の推定誤差によるものと考えられる)。

  • ランダム効果モデル(REモデル)
    ランダム効果モデルでは、効果サイズが試験間で異なると仮定する(すなわち、試験は効果サイズの分布を表しており、分析の目的はその分布の平均を推定することである)[64]。

NMAでは、各試験に「重み」が割り当てられる。この重みは、個々の試験の推定値の精度を反映しており、それぞれの試験が全体の統合結果に与える相対的な寄与を示す(すなわち、精度の高い試験ほど全体の推定に大きく貢献する)。

  • FEモデルの重み付け
    固定効果モデルでは、重み付けは試験内の分散(誤差)にのみ基づいて計算される。

  • REモデルの重み付け
    ランダム効果モデルでは、試験間の分散および試験内の分散の両方を考慮して重み付けが行われる。このため、REモデルでは、個々の試験の相対的な重みがFEモデルよりも均等になる傾向がある[64]。

多くの場合、REモデルの方が適切である。これは、統合される試験間や患者特性に違いがあることが多いためである。



異質性またはエビデンスベースの不足への対応方法

  • カイ二乗検定の使用

    • カイ二乗検定は、研究間の結果の違いが偶然のみによるものかを評価するために使用される。

    • 低いp値(通常 <0.10)は、異質性の存在を示唆する[65]。

    • ただし、小規模なサンプルサイズや少数の研究を含む分析では、カイ二乗検定の検出力が低いため、結果の解釈には注意が必要である。

    • 逆に、多数の研究を含む分析では、臨床的に重要でないわずかな異質性でも検出される可能性がある。

  • I2統計量の使用

    • メタアナリシスでは、ある程度の異質性が不可避であり、I2統計量は、効果推定値の変動が偶然ではなく異質性によるものである割合を示す[65, 66]。

    • I2はカイ二乗統計量から導出されるが、研究数や治療効果指標には依存しない。

    • I2の解釈:

      • 0%~40%:異質性は重要でない可能性がある。

      • 30%~60%:中程度の異質性を示唆する。

      • 50%~90%:顕著な異質性を示唆する。

      • 75%~100%:かなりの異質性を示唆する。

  • ランダム効果(RE)モデルの検討

    • ネットワーク内で研究間の異質性が疑われる場合、REモデルの使用を検討すべきである[67]。

  • メタ回帰の使用

    • 多数の研究がある場合、メタ回帰を用いて、特定の共変量(例:患者の年齢などの効果修飾因子)が治療効果の異質性を説明するかどうかを調査できる[68]。

    • **多層ネットワークメタ回帰(ML-NMR)**は比較的新しい手法であり、集計データと個々の患者データを組み合わせて、研究間の効果修飾因子の違いを調整する[11]。

  • 固定効果(FE)モデルの使用

    • 少数の研究(ただしサンプルサイズが大きい場合)では、FEモデルの使用が適切とされる。

    • REモデルは、研究数が少なく、研究間の分散を正確に推定できない場合には推奨されない[64]。


NMA結果の信頼性評価

GRADE

  • GRADE(Grading of Recommendations, Assessment, Development, and Evaluation)フレームワークは、NMAにおける主な比較ごとのエビデンスの信頼性(または質)を評価するために推奨されている[26, 69, 70, 71]。

  • GRADEは、個別の研究レベルではなく、アウトカムレベルでエビデンスを評価する[70, 71]。

  • エビデンスの確実性は、アウトカムごとに「高い」「中程度」「低い」「非常に低い」に分類され、結果は「所見の要約」表で報告される[69, 71]。

  • GRADE評価の5つのドメイン

    1. バイアスのリスク(個別研究の設計や実施における制限が全体の治療効果への信頼性を低下させるかどうか)

    2. 効果の一貫性(研究間で未解明の異質性や結果の変動が全体の効果推定に影響するかどうか)

    3. 間接性(間接比較のみが行われている、または研究対象患者が推奨対象患者と異なるかどうか)

    4. 不精密性(研究に含まれる参加者やイベントが少ないかどうか)

    5. 出版バイアス(選択的報告が行われた可能性があるかどうか)[26, 69, 70, 71]

  • 評価の透明性

    • GRADEは、エビデンス評価の透明性と再現性を提供する枠組みであり、「高い」以外の確実性に関する判断は、要約表の注釈を用いて正当化されるべきである[71]。


CINeMA

  • **CINeMA(Confidence in Network Meta-Analysis)**は、NMAの結果の信頼性を評価するための別の方法論的フレームワークである[72, 73]。

  • GRADEフレームワークを基にしているが、いくつかの概念的な違いがある[72, 73]。

  • CINeMA評価の6つのドメイン

    1. 研究内バイアス

    2. 報告バイアス

    3. 間接性

    4. 不精密性

    5. 異質性

    6. 不整合性

  • 評価方法

    • 各ドメインに対して「懸念なし」「いくつかの懸念」「重大な懸念」のいずれかを割り当てる。

    • 6つのドメイン全体の評価を統合し、各治療効果の信頼性レベルを算出する。これらのレベルはGRADEの「高い」「中程度」「低い」「非常に低い」と対応する。

  • 適用性

    • CINeMAは、無料で利用可能なウェブアプリケーションを通じて任意のNMAに適用可能である[73]。


NMAモデルの適合性

  • 頻度主義(frequentist)とベイズ法の手法を比較した表は表4に、各手法の主要な入力と出力の要約は表5に示されている。

  • 表6では、NMAにおける主要なステップを要約し、図3では、研究の堅牢性および利用可能なデータに基づいた手法の適合性を評価する枠組みを示している。


用語解説 CI(Confidence Interval): 信頼区間 CrI(Credible Interval): 信用区間 NICE: 英国国立医療技術評価機構 NMA: ネットワークメタアナリシス SUCRA(Surface Under the Cumulative Ranking Curve): 累積ランク曲線下面積

表5

用語解説 FE(Fixed Effects): 固定効果 G-BA(Federal Joint Committee): 連邦共同委員会(ドイツ) NICE(National Institute for Health and Care Excellence): 英国国立医療技術評価機構 PBAC(Pharmaceutical Benefits Advisory Committee): オーストラリア医薬品給付諮問委員会



用語解説
CI(Confidence Interval): 信頼区間
CrI(Credible Interval): 信用区間
FE(Fixed Effects): 固定効果
GRADE: 勧告のグレーディング、評価および開発
NICE(National Institute for Health and Care Excellence): 英国国立医療技術評価機構
NMA(Network Meta-Analysis): ネットワークメタアナリシス
PICOS: 対象者、介入、比較対象、アウトカム、設定
PRISMA: システマティックレビューとメタアナリシスの報告項目
PROSPERO: 国際系統的レビュー登録
RE(Random Effects): ランダム効果
RoB(Risk of Bias): バイアスリスク
SUCRA(Surface Under the Cumulative Ranking Curve): 累積ランク曲線下面積



コンセプト

  • 研究課題は明確に定義されているか?


系統的文献レビュー (SLR)

  • SLRのプロトコルは記述されているか?

    • データソース、検索語句、PICOS、その他の含排除基準が明確に示されているか?


系統的文献レビュー結果の報告

  • PRISMAフローチャートが含まれているか?

    • 検索で特定された研究数、メタアナリシスに含まれた研究数、各段階で除外された研究数とその理由が記載されているか?

  • バイアスリスクの評価が行われ、結果が報告されているか?


データ抽出


エビデンス合成は可能か?

  1. すべての試験における患者が、意思決定または推論の対象となる集団と一致しているか?

    • (例:類似性の仮定が成り立つか)

はい:

  • 直接的および間接的エビデンスに一貫性があるか?

    • はい → NMAに統合可能

    • いいえ → 関連試験に限定したNMA、またはサブグループ解析/メタ回帰

いいえまたは部分的に一致:

  • 治療効果において集団の不一致による差が考えられるか?

    • はい → MAICまたはML-NMR

    • いいえ → 関連試験に限定したNMA


適切な方法論がデータや目的に基づいて選択されているか?

  1. 国固有の要件/推奨事項があるか?

    • 適切であればこれらの方法を使用すべき

  2. ネットワークが大きく、介入間のリンクに複数の試験が含まれているか?

はい:

  • 事前分布が利用可能か?

    • はい → ベイズ法が適切

    • いいえ → 頻度主義が適切

いいえ:

  • 高い異質性(高い I2値)が存在するか?

    • はい:

      • 試験間の分散を正確に推定できる試験が十分にあるか?

        • はい → REモデルを検討

        • いいえ → FEモデルが最適

    • いいえ → FEモデルが最適

いいなと思ったら応援しよう!