Overestimated prediction using polygenic prediction derived from summary statistics
本研究の学術的背景,研究課題の核心をなす学術的「問い」は?
本研究は遺伝学の一角である、Polygenic Risk Score (PRS: 多因子遺伝リスクスコア)について調査します。PRSは遺伝子の多型とそれが疾患リスクに与える影響を評価する手法です。しかし、これは疾患のリスクを発見するセットとテストするセット間に被りが無いことが前提となります。しかし、実際には完全に被らずデータを集めるのは困難で、その結果、PRSの予測パフォーマンスが過大評価される傾向があります。この過大評価がどの程度起きているか、どうすればそれを検出し、修正できるのか、が研究の主な問いとなります。
本研究の目的及び学術的独自性と創造性は?
本研究の目的は、PRSモデルの過大評価問題を検証し、その程度を定量化することです。そのために、アルツハイマー病についてのPRSモデルを研究し、さらに UK Biobankという大規模なデータセットを使って、過大評価の規模を把握します。これにより、ある疾患のリスクを評価する際のPRSの正確な使用法とその限界を明らかにしようとしています。
本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは?
PRSを用いた研究は近年急速に増え、遺伝学研究において重要な手法となってきました。それに伴い、発見とテストのセットに重複があるとPRSの予測精度が過大評価される、という問題が明らかになってきました。その背景から、本研究はこの問題の正確な規模を把握し、過大評価を検出し修正するための具体的な方法を提供するという位置づけとなります。
本研究で何をどのように,どこまで明らかにした?
本研究では、アルツハイマー病自体のPRSモデルを用い、UK Biobankから集めた高血圧と身長のデータを使って、PRSの予測性能が過大評価される問題を検証しました。その結果、遺伝的なデータセットが重複すると、その結果はかなり過大評価されることが示されました。また、過大評価が発生した場合の影響の規模を把握し、それを検出し修正するためのガイドラインも示しました。
本研究の有効性はどのように検証した?
アルツハイマー病の予測に関する複数のPRSモデルを作成し、それを重複するデータセットとそうでないデータセットでテストしました。また、高血圧と身長のデータを用いて、遺伝的な要素が強い特性のPRS予測性能の過大評価を検証しました。その結果、過大評価が見られたため、本研究の考え方が有効であることが示されました。