新型コロナウイルスはデータサイエンスの問題だ(Patterns, 2020.4.4)
<科学論文>
COVID-19 Is a Data Science Issue
Sarah Callaghan, 4th April 2020, Patterns Curated by 瀧澤美奈子
※2020年4月4日時点での見解ですので、引用の際には最新情報にあたってください。
医学雑誌Cellの姉妹誌で、データサイエンス分野の科学ジャーナルであるPatternsに、データサイエンティストが新型コロナ感染拡大をどう見ているかを解説した記事が掲載されていますので紹介します。
主なメッセージは次のようなものです。
・公衆衛生ではデータは手動で集められ、収集が遅く普及が難しいため、これを改善する必要がある。
・すべてのモデルが間違っていることは広く認められているが、一部のモデルは有用である。インペリアルカレッジのCOVID-19対応チームなどの洗練されたモデリングは微妙なアプローチを提供し、政策に対して非常に影響力があった。
・このパンデミックの結果の総感染率、最終的な死亡者数を、現時点で正確かつ確実に予測することはできない。
・すべて終わった後、改善の観点から、医療、科学、社会の機能したシステムと機能しなかったものを検討する時が来る。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・
<概要>仮訳(引用の前には原文にあたってください)
COVID-19はデータサイエンスの問題だ
Sarah Callaghan
データサイエンティストとして、私はデータサイエンスの観点から状況を見ることが重要だと思う。 私たちは皆、ツイッターで指数関数的、平坦化、その他の曲線をExcelでプロットし、それらに安心したり、怖がったり、信頼できるかどうか疑問に思っていた。 これはデータサイエンスの質問だ。ここで取り上げたい同様の問題がたくさんある。私が書くことで、他の人がデータについて考え、この状況で何をすべきかについてより力を感じるようになることを期待している。
データの収集と解釈
感染症に関しては、データ収集が困難な場合がほとんどである。ビッグデータの台頭により、臨床医や研究者は大量のデータを保存および処理するシステムと能力を手に入れたが、公衆衛生では、重要な監視システムはおもに手動で集められ、コード化されたデータに基づいており、収集が遅く、普及が難しい。
従来の健康監視システムは、深刻なタイムラグと空間分解能の欠如で悪名高いものであり、現在の状況では、堅牢でローカルでタイムリーなシステムが非常に重要であることを明確に示している(Bansal et al., Journal of Infectious Diseases 214, S375–S379)。
公衆衛生に携わるデータサイエンティストは、リアルタイムデータの取得と高解像度データの分析が一般的である、他分野の同僚から学ぶことができる。コロナウイルスのような疾患の場合、感染の大部分は軽度であり、したがって自己治療されているため、病院や一般開業医の記録に基づいて広がりを推定すると、疾患の進行の初期段階で誤解を招く可能性がある。報告は罹患率と死亡率に焦点を当てる傾向があり、実際に検査や治療のために医療施設に現れた人を数えるのは簡単だ。
したがって、私たち全員が覚えておくべき重要な事実は、大多数の国では、実際にウイルスに感染している人を数えているのではなく、ウイルスに感染している人のレポートを数えているということだ。数値は、測定方法によって異なる。実行される検査数が増えると、検出される感染数も増える。
執筆日(2020年3月25日)の時点で、無症状の人の数を把握できるように、症状を示さなかった人を含む、人口に対して十分な数の体系的なサンプリングを行ったのはアイスランドだけだ。これにより、一般人口におけるウイルスの一般的な蔓延を示すだけでなく、さらなる検査により、ウイルスがどのように広がり、封じ込め技術(社会的距離など)がどの程度うまく機能しているかを理解できる。
政府の隠蔽についての陰謀論はさておき、単純な事実は、コロナウイルスの検査には費用がかかるということだ。つまり、特定の国で収集された数は、ウイルスが実際にどれだけ広まっているかだけでなく、感染している懸念を示すすべての人に地元の医療施設が検査を行うために必要な財政能力の影響も受けることになる。
これは、古典的なデータサンプリングの問題であり、データサイエンティストは、増加する感染者数に対する一般大衆の懸念を和らげる方法で説明できる。それと同時に、医療専門家と協力して感染者数の広がりと分布をよりよく理解できるものでもある。
正確なデータを収集し、すでに収集されているデータの制限を理解することは、状況を理解するための重要な部分である。適切なデータがなければ、政策立案者は適切な決定を下すことができない。データサイエンティストがこれを支援できる。
データのモデリングと予測
一旦データを取得すると、質問が変わる。次に何が起こるか。ウイルスはどのように広がるのか? 特定の非医薬品介入がなされた場合、感染拡大はどうなるか? 全国的な検疫と比較して、社会的距離はどれほど効果的か? たとえば、来月以降の学校閉鎖の長期的な影響は何か? ソーシャルネットワークと人間の行動を理解することで、ウイルスの拡散をどのように追跡できるか? スタジアムと比較して、パブでサッカーの試合を観戦する場合、ウイルスに感染するリスクは高いか?
データサイエンティストは、他の研究者と協力して、これらの質問に対する答えを見つけられるように特別に配置されている。このトピックに関する作業はすでに公開されているが(Kucharski et al., The Lancet Infectious Diseases)、状況が時間の経過とともに変化し、行政機関ごとに異なる応答がある場合、モデル化されるものと発生するものとの間には相違が生じてくる。
パンデミックの初めに指数関数的な成長曲線が見られるという単純な仮定にはドラマの魅力はあるものの、(https://www.statnews.com/2020/03/10/simple-math-alarming-answers-covid-19/) 、それは状況の進展により、現実と急速に分岐するため、継続的な監視が必要である。
インペリアルカレッジのCOVID-19対応チームなどが行う洗練されたモデリングは、より微妙なアプローチを提供し、非常に影響力があった。英国政府の政策では、情報を迅速に公開するために査読の二重チェックプロセスが犠牲になるが、出版後の査読は行われている(https://necsi.edu/review-of- ferguson-et-al-impact-of-non-pharmaceutical-interventions)。
ソーシャルメディアで多く共有されている他の記事は、データモデリングを使用して特定の公衆衛生政策の議論をサポートしている。
すべてのモデルが間違っていることは広く認められている真実だが、一部のモデルは有用である。データサイエンスは、モデルを開発するだけでなく、モデルの誤りと有用性を判断するためにも必要である。モデルの結果は、データとともに、このパンデミックの蔓延と戦うために行われる決定に情報を与えるからだ。
私はこれらのモデリングの取り組みを支援しようとする、すべてのデータサイエンティストに、単にデータを取得して、好みの分析ソフトウェアにプラグインするにことに、とどまらないよう勧めたい。特に疫学者がすべてを文脈に入れなければならないような、分野固有の知識がないと、結果の数値は恐ろしいものになる可能性がある。代わりに、Kaggle COVID-19 Open Research Dataset Challenge(CORD-19)に参加することを勧める。そこでは、私たちはチームとして協力し、それぞれの強みを発揮することができる。
データの可視化とコミュニケーション
インフォグラフィックとデータの視覚化は、リスクと生の数値を分析するのに役立つ便利な方法である。データサイエンティストは、視覚的に魅力的でありながら理解しやすいコンテキストに、この情報を正確かつ有益に反映できる経験と理解を持っている。データサイエンティストは、最新のデータを利用してインタラクティブで継続的に更新される情報ソースを作成することもできるため、誰もが最新の数値で最新の状態を保つことができる。
適切な情報を簡単に共有できる魅力的なものにすることは、ほとんどの人がソーシャルメディアからニュースの大部分を受け取っている現在の状況において重要である。逆に、視覚化は、情報提供と同じくらい恐怖と警告を引き起こす可能性がある(https://medium.com/nightingale/ten-considerations-before-you-create-another-chart-about-covid- 19-27d3bd691be8)。
一般人口のかなりの割合が数学に親しんでいないため(生まれながらの計算力障害を含む)、データサイエンティストとして自明なことが、一般にはわかりにくい可能性があることを覚えておく必要がある。
ハッシュタグ#FlattenTheCurveとそれに関連する概念図/ GIFは、ソーシャルメディアで広く普及している(https://www.fastcompany.com/90476143/the-story-behind-flatten-the-curve-the-defining-chart-of-coronavirus)。これは魅力的にパッケージ化されたメッセージで、簡単に共有でき、すばやく理解できる。また、情報の所有権を人々に与える。
手を洗うなどの基本的な予防策を講じれば、感染の増加率を低下させて医療サービスを圧倒しないようにできる。これは強力で重要なメッセージである。
ほかに、シンプルだが効果的な視覚化の優れた例は、Information is Beautifulや、John Hopkins University Coronavirus Resource Centerにもある。Gabriel Gohによるインタラクティブな計算機も便利だが、データサイエンスや疫学についてほとんど理解していないか、引用や根本的な仮定に飛び込む意欲がほとんどない一般の人々にとっては、利用が注意されるべきかもしれない。
同様に、WHOのコロナウイルス状況レポートは毎日リリースされ、すぐに読むことができ、主要な情報が明確でアクセス可能な方法で要約されている。 これらの数値の生成と報告を標準化することは、それらを生成して定義することと同様に、データサイエンスの仕事である。
すべてが終わった後
このパンデミックの結果の総感染率、最終的な死亡者数を現時点で正確かつ確実に予測することはできない。心配すべき状況と不確実性のために、私たち全員にとって困難な時期である。私たちは単に何が起こるかわからないだけだが、データサイエンスを利用すれば、これまでよりも正確に予測できる可能性が高くなる。
しかし、パンデミックが終わっても、やるべきデータサイエンスの作業はまだある(Perakslis, Patterns, https://doi.org/10.1016/j.patter.2020.100018)。新しい感染者が出ないため、データ収集は停止する可能性があるが、収集したものが適切に保存および管理されていることを確認する必要がある。後知恵の恩恵を受けて状況を振り返るのは骨が折れる場合があるが、それが、この時期に学んだ教訓を完全に理解できるようにするための唯一の方法だ。それがすべて終わった後、改善の観点から、機能したシステムと構造(医療、科学、社会)と機能しなかったものを検討する時が来る。
また、状況に対処するために採用されたいくつかの対策を検討する必要がある。たしかに緊急時には、携帯電話を介して感染者を追跡することは、ウイルスの伝染を封じ込めるには賢明なことかもしれない。しかし、そのような緊急な状況が終わったら、個人のプライバシーや私たちが大切に保持している他の権利を侵害しない方法で実行できたかどうかを自問する必要がある。
私たちの社会は、健康と安全を確保するために何を受け入れる用意があるか? そして、データサイエンスは、私たちの権利への影響を最小限に抑えながら、私たちの社会の健全性を向上させるために何ができるか?
数字の背後にいる人々を思い出そう
データサイエンスは、数値、統計、曲線、および分布を扱う。 これを行うのは、母集団スケールで数値を扱う方が簡単であり、大量のデータが供給されたときにツールが最適に機能するためだ。 これは大丈夫。
申し立てがひとつあるとすると、データサイエンティストであろうとなかろうと、私たち全員がその数の背後に人間の命があることを思い出して欲しい。 自分自身や愛する人たちを心配して恐れている本物の人々だ。
60歳以上であるか、既存の状態に苦しんでいる人が最も死亡する可能性が高いことを示す死亡率曲線を計算するのは簡単だ。これらの数字で、最も危険にさらされているのは、高齢の両親や祖父母、または免疫不全の友人や家族であることを示していることを理解することは、もうひとつのことだ。
私たちは困難な時代に生きているが、適切なデータと適切な科学があれば、変化をもたらすことができる。
現在、ボランティアでやっております。継続のためには人手が必要ですので、ぜひ資金サポートをお願いいたしますm(_ _)m