臨床研究者のための生物統計学:生存時間解析の基礎
こんにちは。今回は、京都大学大学院医学研究科で行われた「臨床研究者のための生物統計学」講座の第4回「生存時間解析の基礎」について、詳しくお伝えします。この講義は、医療統計学の専門家である米本氏によって行われました。
1. はじめに:生存時間解析とは
生存時間解析は、臨床研究において非常に重要な統計手法です。特に、がん研究や心臓病研究など、患者の生存期間や特定のイベント(例:再発、死亡)までの時間を分析する際によく使用されます。
この講義は、全10回シリーズの4回目にあたります。これまでの講義では以下のトピックが取り上げられました:
なぜランダム化が必要なのか
リスクの指標と治療効果の指標
仮説検定とP値の誤解
今回の講義では、生存時間解析の基本的な概念から、実際のデータ分析まで幅広くカバーしています。
2. 生存時間解析の事例
講義の冒頭で、米本氏は最近のNew England Journal of Medicineに掲載された臨床試験の例を紹介しました。この研究は、1型糖尿病の若者を対象に、ACE阻害薬とスタチンの効果を調べたものです。
この研究では、生存時間解析の手法を用いて、微量アルブミン尿の初回発生までの時間を分析しています。論文の統計解析の部分には、以下のような記述がありました:
Time-to-event変数として分析
Censoring(打ち切り)を考慮
Kaplan-Meier生存曲線を作成
Cox比例ハザードモデルを使用してハザード比を推定
これらの用語や手法について、講義の中で詳しく説明されていきます。
3. 生存時間の定義と特徴
3.1 生存時間とは
生存時間は、研究開始(または患者の登録)から特定のイベント(例:死亡、疾患の発症、再発)が起こるまでの時間を指します。ランダム化比較試験の場合、通常はランダム化した日からイベントまでの時間を生存時間とします。観察研究では、多くの場合、患者の登録日からイベントまでの時間を使用します。
3.2 生存時間データの特徴
生存時間データには、いくつかの重要な特徴があります:
正規分布しない:生存時間は通常、正規分布(ガウス分布)に従いません。
右に裾を引く分布:多くの場合、生存時間は右に裾を引く分布になります。つまり、少数の患者が非常に長い生存時間を示すことがあります。
打ち切りデータの存在:すべての患者でイベントが観察されるわけではありません。
これらの特徴により、通常の統計手法(例:t検定)を直接適用することができません。
4. 打ち切りの概念
生存時間解析において、「打ち切り」は非常に重要な概念です。打ち切りとは、研究期間中にイベントが観察されなかった場合を指します。
4.1 打ち切りの種類
右側打ち切り:最も一般的な形式で、研究終了時点までにイベントが起こっていない場合。
左側打ち切り:研究開始前にすでにイベントが起こっている可能性がある場合。
区間打ち切り:イベントが起こった正確な時点はわからないが、ある期間内に起こったことがわかっている場合。
4.2 打ち切りの重要性
打ち切りデータを適切に扱うことで、以下のような利点があります:
すべての参加者のデータを有効に活用できる
追跡期間が異なる参加者のデータを比較できる
イベントが観察されなかった参加者の情報も分析に含めることができる
ただし、打ち切りにはある重要な仮定があります。それは、打ち切りがランダムに発生し、その後の生存時間と無関係であるという仮定です。この仮定が満たされない場合、結果にバイアスが生じる可能性があります。
5. Kaplan-Meier法
Kaplan-Meier法は、生存時間データを視覚化し、生存曲線を描くための標準的な方法です。この方法は、打ち切りデータを適切に扱うことができます。
5.1 Kaplan-Meier法の基本的な考え方
Kaplan-Meier法では、以下の手順で生存曲線を描きます:
イベントが起こった時点ごとに、生存している人数(リスク集合)を計算します。
各時点での生存確率を計算します。
これらの生存確率を順次掛け合わせて、累積生存確率を求めます。
時間軸に沿って、これらの累積生存確率をプロットします。
5.2 At risk人数
Kaplan-Meier曲線を解釈する際、重要な概念の一つが「At risk人数」です。これは、各時点でまだイベントを経験していない(つまり、リスクにさらされている)人数を指します。時間が経つにつれ、イベントの発生や打ち切りによってAt risk人数は減少していきます。
5.3 Kaplan-Meier曲線の特徴
Kaplan-Meier曲線には以下のような特徴があります:
階段状の曲線:イベントが発生するたびに、曲線が下に段階的に降下します。
打ち切りの表示:多くの場合、打ち切りが発生した時点に小さな縦線(ティック)が表示されます。
信頼区間:曲線の周りに信頼区間を示すことで、推定の不確実性を表現できます。
6. Cox比例ハザードモデル
Cox比例ハザードモデルは、生存時間データの回帰分析に広く使用されている手法です。この手法を用いることで、複数の要因が生存時間に与える影響を同時に評価することができます。
6.1 ハザード比
Cox比例ハザードモデルの主要な出力の一つが「ハザード比」です。ハザード比は、ある要因(例:治療法)がイベント発生のリスクにどの程度影響を与えるかを示す指標です。
ハザード比 > 1:その要因はイベント発生のリスクを増加させる
ハザード比 < 1:その要因はイベント発生のリスクを減少させる
ハザード比 = 1:その要因はイベント発生のリスクに影響を与えない
6.2 比例ハザード性の仮定
Cox比例ハザードモデルの重要な仮定の一つが「比例ハザード性」です。これは、異なるグループ間のハザード比が時間を通じて一定であるという仮定です。言い換えれば、生存曲線が交差しないことを意味します。
この仮定が満たされない場合、Cox比例ハザードモデルの結果は信頼性が低くなる可能性があります。そのため、モデルを適用する前に、この仮定が満たされているかどうかを確認することが重要です。
7. 実際のデータ分析:JMPを使用した例
講義の後半では、統計ソフトウェアJMPを使用して、実際のデータ分析の例が示されました。ここでは、Worcester Heart Attack Study (WHAS)のデータの一部を使用しています。
7.1 データの概要
WHASは、急性心筋梗塞後の長期生存を調査する研究です。今回の例では、以下の変数を使用しています:
生存時間:登録から死亡までの時間
BMI:30以上か未満か
年齢
性別
7.2 Kaplan-Meier曲線の作成
JMPでKaplan-Meier曲線を作成する手順は以下の通りです:
「分析」タブから「信頼性/生存時間解析」を選択
「生存時間解析」を選択
「イベントまでの時間」に生存時間変数を入力
「グループ変数」にBMIを入力
「打ち切り」に生存状況(0=死亡、1=生存)を入力
結果として、BMI 30以上と未満の2群のKaplan-Meier曲線が表示されます。この例では、BMI 30以上の群の方が生存率が高い傾向が見られましたが、統計的に有意な差は認められませんでした(p=0.0223)。
7.3 Cox比例ハザードモデルの適用
Cox比例ハザードモデルを適用する手順は以下の通りです:
「分析」タブから「信頼性/生存時間解析」を選択
「比例ハザードのあてはめ」を選択
「イベントまでの時間」に生存時間変数を入力
「打ち切り」に生存状況を入力
「モデル効果の構成」にBMIを入力
結果として、BMI 30以上vs未満のハザード比が算出されます。この例では、ハザード比は0.67(95%信頼区間:0.35-1.28、p=0.227)でした。
さらに、年齢と性別を調整した分析も行われ、その結果BMIの効果はさらに小さくなりました(ハザード比:1.05、95%信頼区間:0.52-2.11、p=0.891)。
8. 生存時間解析の注意点
ここから先は
¥ 500
Amazonギフトカード5,000円分が当たる
この記事が気に入ったらチップで応援してみませんか?