うつPHQ-9スコア・カットオフ値→小規模研究での取り扱いに注意を！

2024年11月24日 08:53

ChatGPT4によると、わかりやすく言うと

大きなデータセット（IPDMA）を「みんなのデータの代表」として使い、その中でPHQ-9のカットオフスコア「8以上」がどのくらい正確に診断できるか（感度と特異度）を計算した。その値を基準に、小規模な研究での精度がどう違うのかを比較するための土台を作った、ということで、Youden指数やブートストラップやカーネル推定など提示が必要となる。

あらゆる研究のカットオフ値取り扱いにも通用する話では？

Levis, Brooke, Parash Mani Bhandari, Dipika Neupane, Suiqiong Fan, Ying Sun, Chen He, Yin Wu, ほか. 「Data-Driven Cutoff Selection for the Patient Health Questionnaire-9 Depression Screening Tool」. JAMA Network Open 7, no. 11 (2024年11月22日): e2429630. https://doi.org/10.1001/jamanetworkopen.2024.29630.

重要点

質問
患者健康質問票9（Patient Health Questionnaire-9, PHQ-9）のスクリーニング精度研究において、データ駆動型で最適なカットオフスコアを選択する手法は、母集団レベルのカットオフスコアと異なるスコアを生成し、精度を過大評価しているのか？

発見
44,503人の参加者を含む100件の一次研究から得られた横断データを用いた本研究では、PHQ-9の最適なカットオフスコアは母集団レベルの最適スコアと異なり、PHQ-9スクリーニング精度は過大評価されていた。サンプルサイズが増加するにつれて感度の過大評価は減少したが、特異度は1パーセントポイント以内に収まった。

意義
本研究の結果は、診断精度の証拠を利用する際には慎重に評価し、カットオフスコアの推奨が適切な規模の研究または十分に実施されたメタ分析に基づいていることを確認すべきであることを示唆している。

要旨

重要性
診断テストの精度研究では、テスト精度を最大化する最適なカットオフスコアを選択しつつ、精度推定値を生成するために小規模なデータセットが使用されることが多い。

目的
データ駆動型の手法を用いてPHQ-9の最適なカットオフスコアを同時に選択し、精度を推定する際に、(1)最適カットオフスコアが母集団レベルの最適スコアと異なるか、(2)精度推定が偏っているかを評価する。

デザイン、設定、参加者
本研究は、PHQ-9スクリーニング精度に関する個別参加者データメタ分析（IPDMA）データベースを使用した横断データ研究であり、仮想的な母集団を表している。このデータベースでは、PHQ-9スコアと大うつ病の分類を比較した研究が含まれる。この母集団から、各100、200、500、1000人の参加者を対象とした1000の研究を再サンプリングした。

主なアウトカムと指標
IPDMA母集団全体およびシミュレーション研究ごとに、Youden指数を最大化することで最適なカットオフスコアを選択した。シミュレーション研究での最適カットオフスコアの精度推定値を母集団全体の精度と比較した。

結果
IPDMAデータベースには44,503人の参加者（大うつ病例4,541人［10%］）を含む100件の一次研究が含まれた。母集団レベルの最適カットオフスコアは「8以上」であった。
シミュレーション研究では、100人のサンプルでは「2以上」から「21以上」、1000人のサンプルでは「5以上」から「11以上」と範囲が広がった。
最適スコア「8以上」を正しく特定したシミュレーション研究の割合は、100人のサンプルで17%、1000人のサンプルで33%であった。母集団でのカットオフスコア「8以上」における推定値と比較すると、感度は100人のサンプルで6.4（95%信頼区間5.7-7.1）パーセントポイント、200人で4.9（同4.3-5.5）、500人で2.2（同1.8-2.6）、1000人で1.8（同1.5-2.1）パーセントポイント過大評価されていた。
特異度は全サンプルサイズで1パーセントポイント以内であった。

結論と意義
横断データを用いた本研究では、データ駆動型手法を用いて最適なカットオフスコアを選択し精度を推定した場合、最適スコアおよび精度推定値が母集団値と大きく異なることが示された。診断精度の証拠を使用する際には慎重な評価が必要であり、カットオフスコアの推奨が適切な規模の研究または十分に実施されたメタ分析に基づいていることを確認する必要がある。

序文要約

うつ病スクリーニングツールの精度研究では、データ駆動型アプローチと少数のサンプル、少数のうつ病症例を用いて最適なカットオフスコアを設定し精度を推定することが多い。
最近のレビューでは、172件の研究の中央値サンプルサイズが194、うつ病症例数の中央値が約20であることが示された。研究の76%が標準カットオフスコアと異なる最適スコアを特定し、40%の研究がその最適スコアの使用を推奨していた。
過去の研究では、データ駆動型のカットオフスコア選択が特に小規模なサンプルにおいて精度推定を過度に楽観的にすることが報告されている。ただし、これらの研究の多くは仮想的なテストスコア分布に基づくシミュレーションデータセットを使用していた。
エジンバラ産後うつ病尺度（EPDS）の研究では、1万3,255人のデータを用いて1000件のシミュレーションまたは再サンプリング研究を実施し、最適カットオフスコアがサンプルサイズにより大きく異なることが確認された。100人のサンプルでは「5以上」から「17以上」、1000人では「8以上」から「13以上」に範囲が広がった。
この研究では、感度の過大評価が100人のサンプルで7パーセントポイント、1000人では1パーセントポイントであり、特異度はすべてのサンプルサイズで1パーセントポイント低く評価された。
PHQ-9の標準カットオフスコアは「10以上」である。個別参加者データメタ分析（IPDMA）では、セミストラクチャードインタビューを使用した研究ではカットオフスコア「10以上」が感度と特異度の両方を最大化することが確認された。一方で、完全構造化インタビューを使用した場合には、最適スコアが「8以上」であることが示された。
多くのPHQ-9精度研究は、データ駆動型の最適カットオフスコアの結果を強調しているが、この手法で精度がどの程度過大評価されているかは明らかではない。
本研究の目的は、データ駆動型手法でPHQ-9の最適カットオフスコアを選択し精度を推定する際にどの程度のバイアスが生じるかを評価することである。
本研究では、異なるサンプルサイズでデータ駆動型スコア選択が、(1) 母集団レベルの最適スコアと異なるサンプル特有の最適スコアの発生、(2) 精度推定のバイアスにどの程度寄与するかを推定した。また、母集団レベルの最適スコアを用いた場合の精度推定と母集団の精度を比較した。

研究方法：

本研究は、事前に収集された匿名化データのIPDMA（個別参加者データメタ分析）を用いており、ユダヤ総合病院の研究倫理委員会によって倫理審査とインフォームドコンセントの免除が認められた。
各データセットについて、元の研究が倫理承認を受け、参加者がインフォームドコンセントを提供していることを確認した。
研究はSTROBE（観察研究報告の強化）ガイドラインに従って報告した。
IPDMAのデータは、2000年1月1日から2018年5月9日までの文献検索によって特定され、PROSPERO（登録番号CRD42014010673）に登録された既存の研究から得られた。
本研究のプロトコルは、Open Science Frameworkリポジトリに事前登録されている。
使用された方法は、過去のEPDS再サンプリング研究と類似しており、テキストリサイクリング研究プロジェクトのガイドラインに従って方法を記述した。

統計解析

IPDMAデータセットを仮想的な母集団として用い、PHQ-9カットオフスコアの母集団レベルの感度と特異度を定義した。
本研究では、クラスタリングとサンプリングウェイトを無視して、統一的な分析アプローチで母集団データとシミュレーション研究データを解析した。
母集団データのYouden指数を最大化するカットオフスコアは「8以上」であった。
IPDMAデータセットに含まれる各一次研究について、サンプルサイズ、大うつ病症例数、Youden指数で最大化された最適カットオフスコアを記述した。複数のカットオフスコアでYouden指数が同じ場合はランダムに1つを選択した。
主な分析では、異なるサンプルサイズ（100、200、500、1000人）を持つ1000のランダムサンプリング研究を生成し、Youden指数を最大化するサンプル固有の最適カットオフスコアを特定した。
各サンプルサイズで、(1) サンプル固有の最適カットオフスコアとその精度推定値の変動をグラフ化し、(2) 母集団のカットオフスコア「8以上」と比較して感度と特異度の平均差を計算した。
感度と特異度の推定は2×2表を用いて計算した。
追加分析では、結果を最適カットオフ値で層別化し、感度分析ではDSM疾患の構造化臨床面接を基準とした研究のみを含む再サンプリングを行った。
全ての分析は、Rソフトウェア（バージョン4.2.2）を使用して実施した。

結果：

IPDMAデータベースの全体像

IPDMAデータベースには、100件の一次研究と44,503人の参加者（大うつ病例4,541人［10%］）が含まれている。
各研究の中央値（IQR）は、サンプルサイズが194（134-386）、大うつ病例数が28（14-60）である。
研究固有の最適カットオフスコアは「3以上」から「18以上」（中央値は「10以上」）の範囲であった。
PHQ-9スコアは、大うつ病例では正規分布（平均13、中央値13）、非病例では右偏分布（平均4、中央値3）を示した。
PHQ-9スコア「8以上」の感度と特異度は、それぞれ80.4%と82.0%であった。

箱の端は第25パーセンタイルと第75パーセンタイルを表し、箱の内部の水平線は中央値を表します。破線の水平線は、Patient Health Questionnaire-9（PHQ-9）の個別参加者データメタ分析全体のデータセットにおける真の母集団レベルで最適なカットオフスコア（カットオフスコア ≥8、感度=80.4%、特異度=82.0%）の正確度を表します。
点は外れ値を示します。

シミュレーションにおけるサンプル固有の最適カットオフスコアの変動

シミュレーション研究（各サンプルサイズで1000研究）では、サンプルサイズが増加するにつれ最適カットオフスコアの変動が減少した。
サンプルサイズ100では、最適カットオフスコアの範囲は「2以上」から「21以上」で、スコアが「8以上」の割合は17%であった。
サンプルサイズ1000では、最適カットオフスコアの範囲は「5以上」から「11以上」で、スコアが「8以上」の割合は33%に増加した。

感度と特異度のバイアスと感度分析

サンプルサイズが増加すると、感度の過大評価は減少し、特異度は全体で1パーセントポイント以内に収まった。
サンプルサイズ100では、感度は6.4パーセントポイント（95% CI, 5.7-7.1）過大評価され、特異度は0.6パーセントポイント（95% CI, 0.0-1.2）過大評価された。
サンプルサイズ1000では、感度は1.8パーセントポイント（95% CI, 1.5-2.1）過大評価され、特異度は0.6パーセントポイント（95% CI, −1.0 to −0.3）過小評価された。
各研究で「8以上」のカットオフスコアを使用した場合、感度と特異度の推定値は母集団の値に近似した。

カットオフスコアの偏りに伴う影響

カットオフスコアが「8以上」から乖離すると、バイアスが増大した。
スコアが「8未満」の場合、特異度は過小評価され（例：「6以上」で6ポイント、「5以下」で16-17ポイント過小評価）、スコアが「8以上」を超えると特異度は過大評価された（例：「9以上」で5-6ポイント、「11以上」で9-11ポイント過大評価）。
感度は、特異度と逆のパターンを示したが、スコアが「8以上」の場合でも平均的に過大評価された。

補足分析

DSM障害の構造化臨床面接を基準とした研究のみを含めた感度分析でも、最適カットオフスコアの変動および感度と特異度のバイアスは主結果と同様であった。

Discussion要約

主な研究結果

本研究は、データ駆動型で選択されたPHQ-9の最適カットオフスコアが母集団レベルの最適スコアと異なり、精度推定にバイアスを生じることを初めて評価した研究である。
サンプルサイズが100から1000人に増加すると、最適カットオフスコアの範囲は「2以上～21以上」から「5以上～11以上」に減少し、感度の過大評価は6.4から1.8パーセントポイントに減少した。特異度の変動は1パーセントポイント以内に収まった。
母集団のカットオフスコア「8以上」を事前に指定した場合、精度推定は母集団全体の推定値と一致した。

他の研究との比較

小規模サンプルでのデータ駆動型カットオフスコア選択が精度推定を過大評価することは、これまでの分布ベースのシミュレーション研究でも確認されている。
多くのうつ病スクリーニング精度研究は、小規模サンプルを対象としており、最適スコアや精度推定の範囲が広い。
本研究およびEPDS再サンプリング研究の結果は、小規模サンプルによる偶然性と精度の不確実性が研究間の結果のばらつきを説明できることを示している。
本研究での結果は、大規模IPDMA研究と一致し、参加者特性に基づく精度の大きな違いはなかったことを示唆している。

感度と特異度のバイアスの傾向

感度のバイアスは特異度よりも大きかった。これは、大うつ病症例が非病例より少ないことや、PHQ-9スコアが症例では正規分布、非病例では右偏分布を示すためである。
EPDSの再サンプリング研究でも類似の結果が確認され、感度の過大評価は100人サンプルで7ポイントから1000人サンプルで1ポイントに減少し、特異度は1ポイント過小評価された。

臨床および政策的含意

小規模研究で特定されたPHQ-9の最適カットオフスコアを解釈する際には慎重を期すべきである。
最適カットオフスコアの選択は、大規模で適切に実施されたメタ分析や十分なサンプルサイズの研究に基づくべきである。
臨床現場では、感度と特異度を同等に考えるのではなく、目的に応じて高感度または高特異度を優先するカットオフスコアを選択すべきである。

研究者への推奨

精度研究を実施する際は、事前にサンプルサイズ計算を行い、十分な症例数と非病例数を確保するべきである。
研究者は、選択的カットオフ報告バイアスを回避するために、すべてのカットオフスコアの精度推定値を報告すべきである。
バイアスを軽減する統計手法（例：カーネル推定やブートストラップ）を用いることが推奨される。
最適カットオフスコアの不確実性を評価する方法（例：信頼区間や内部検証）を用いるさらなる研究が必要である。

研究の強みと限界

本研究の強みは、大規模サンプルと実際の参加者データを使用したことである。
限界として、最近のPHQ-9精度研究のデータが含まれていないが、新しい研究も同様のサンプルサイズと異質性を持つと考えられるため、結果に大きな影響はないと考える。
最適カットオフスコアの選択にYouden指数のみを使用した点が限界であり、他の方法を使用した場合に結果が異なる可能性がある。

1. 小規模研究の解釈と活用への注意

影響: 小規模な研究で特定されたPHQ-9の最適カットオフスコアや精度推定値にはバイアスが含まれている可能性が高い。そのため、小規模研究を根拠にカットオフスコアやスクリーニングの精度を評価するのは不適切である場合がある。
実践への影響:
- 小規模研究を利用する際には、報告された結果を鵜呑みにせず、そのスコアが適切かどうかを慎重に評価する必要がある。
- 他の研究との統合やメタ分析を通じて、より信頼性の高い結果を得ることが重要である。

2. サンプルサイズ計算の必要性

影響: 小規模なサンプルでは、偶然性やばらつきによって最適カットオフスコアが過大または過小評価されやすい。特に感度の過大評価が起こりやすい。
実践への影響:
- 研究開始前に十分なサンプルサイズを確保する計画を立てることが求められる。
- 特に、うつ病のように症例が少ない疾患では、症例数と非症例数のバランスを考慮したサンプルサイズ計算が必要である。

3. カットオフスコア選択の方法論の改善

影響: データ駆動型のカットオフスコア選択は、小規模研究では結果にバイアスを生じやすい。選択的カットオフ報告バイアスも問題となる。
実践への影響:
- Youden指数だけでなく、他の信頼性の高い方法（例: ブートストラップやカーネル推定）を併用し、スコア選択のバイアスを減らす方法を採用する。
- すべてのカットオフスコアの精度推定値を報告し、最適スコアだけに注目したバイアスを避ける。

4. 大規模メタ分析の重要性

影響: サンプルサイズが大きい研究やメタ分析は、偶然のばらつきが少なく、信頼性の高い結果を提供する。
実践への影響:
- 大規模で質の高いメタ分析を根拠に、PHQ-9のカットオフスコアや精度を評価するべきである。
- メタ分析結果に基づき、異なる臨床環境や人口に応じた適切なカットオフスコアを選定することができる。

5. 臨床現場での柔軟な運用

影響: 感度や特異度は目的に応じて優先順位が変わるため、万能なカットオフスコアは存在しない。
実践への影響:
- 例えば、重大なうつ病を見逃したくない場面では感度を重視し、スクリーニング後に追加評価が難しい場面では特異度を重視する、など臨床の文脈に応じた柔軟なカットオフスコアの使用を検討すべきである。

6. 精度研究の設計と報告の改善

影響: サンプルサイズ計算やすべてのカットオフスコアの報告が推奨される。また、精度研究は予測モデルの一般化可能性を高めるための内部検証（例: ブートストラップ）を含むべきである。
実践への影響:
- 精度研究を実施する際には、事前に検討された方法論を用いて計画し、バイアスを最小化する設計が求められる。
- 報告においては、診断精度のガイドライン（例: Standards for Reporting of Diagnostic Accuracy Studies）に従い、透明性を確保すべきである。

まとめ

この研究は、PHQ-9をはじめとするうつ病スクリーニングツールのカットオフスコアの選択や解釈に対し、小規模研究やデータ駆動型手法に依存することのリスクを明らかにした。今後の研究と臨床実践では、大規模で厳密に計画された研究やメタ分析を基に、カットオフスコアや精度の評価を行う必要がある。また、臨床の文脈に応じた柔軟な適応が重要である

Youden指数とは、診断テストの有効性を評価するための統計指標であり、感度（Sensitivity）と特異度（Specificity）を統合してテストの全体的な診断性能を示すものです。以下にその詳細を説明します。

定義

Youden指数（Youden's J）は以下の式で計算される：

$${J=Sensitivity+Specificity−1}$$

ここで、

Sensitivity（感度）: 真の陽性率（疾患がある人を正しく陽性と判定する割合）
Specificity（特異度）: 真の陰性率（疾患がない人を正しく陰性と判定する割合）

解釈

Youden指数の値は0から1の範囲をとる。
- J = 0：テストが完全に無作為（無効）であることを示す。
- J = 1：テストが完璧である（感度も特異度も100%）ことを示す。
値が高いほど、そのテストは感度と特異度のバランスが良く、有効であると評価できる。

用途

最適なカットオフスコアの選択
- 診断テストでは、スコアや基準値を設定する必要がある場合が多い（例: 血糖値の閾値）。
- Youden指数を最大化するカットオフスコアを選択することで、感度と特異度のバランスが最も良いポイントを見つける。
診断性能の比較
- 複数の診断テストやカットオフスコアの性能を比較するために使用される。

例

例えば、あるスクリーニングテストのカットオフ値が以下のような結果を示したとする：

感度（Sensitivity）: 0.85（85%）
特異度（Specificity）: 0.80（80%）

この場合、Youden指数は次のように計算される：

J=0.85+0.80−1=0.65

この値はテストが有用であることを示しているが、必ずしも完璧ではない。

注意点

限界:
- Youden指数は感度と特異度を等しく重視するため、臨床現場の目的（例: 感度を優先する場合や特異度を優先する場合）には完全に適応しないことがある。
- 症例数が少ない場合や偏りがあるサンプルでは、指数が正確でない可能性がある。
他の指標との比較:
- 感度と特異度だけでなく、陽性的中率（PPV）や陰性的中率（NPV）なども併用することで、より包括的な診断性能の評価が可能。

まとめ

Youden指数は、感度と特異度を統合して診断テストの性能を簡潔に示す便利な指標である。ただし、その限界を理解した上で、臨床の目的に合わせた補助的な利用が推奨される。

ブートストラップやカーネル推定は、統計学でよく使われる手法で、どちらもデータ分析や推定の際に非常に役立つ技法です。それぞれ簡単に説明します。

ブートストラップ

ブートストラップは、再サンプリングというアイデアに基づいています。つまり、手元にあるデータから新しいデータセットを何度もランダムに作り出すことで、不確実性を評価したり、推定値を安定化させる方法です。

具体的な流れ

手元のデータセット（母集団のサンプルと仮定）から同じサイズのデータを、**復元抽出（元のデータを戻しながらランダム抽出）**で何度も作成。
作成した複数のデータセット（これをブートストラップサンプルと言う）を使って、目的の統計量（平均、分散など）を計算。
これを繰り返すことで、統計量の分布を得られる。

何に使う？

信頼区間の推定
モデルの予測性能評価（交差検証の代替など）
標準誤差の推定

例

例えば、10人のテスト得点があり、その平均点の信頼区間を知りたいとします。

10人の得点を元に何度も復元抽出で新しいデータセットを作成。
各データセットの平均点を計算し、その分布から信頼区間を推定する。

カーネル推定

カーネル推定は、データの分布をスムーズに近似する方法の一つです。特に、ヒストグラムの滑らかな代替として使われるカーネル密度推定（Kernel Density Estimation, KDE）がよく知られています。

基本のアイデア

データ点ごとに「カーネル」という滑らかな関数を割り当て、すべてのカーネルを足し合わせることで密度分布を推定します。

カーネル関数: 基本的に滑らかな形状（例: ガウス分布）を持つ。
バンド幅（帯域幅, Bandwidth）: カーネルの幅を調整するパラメータ。バンド幅が小さいと細かく、大きいと滑らかな推定になる。