ディープラーニング「男女の網膜には違いがあるようです」、医師「そんな話は聞いたことがない」　〜AIが切り拓く未知の世界〜

2022年3月17日 04:31

はじめに

Twitterでこんなコメントともに、文献の紹介が飛んできました。

ディープラーニングの応用実験における、非常に興味深いお話。「ディープラーニングが男女の眼球を87%の精度で判定できるようだが、誰も理由が分からない」
『臨床領域では男女間の網膜の特徴の差異は把握されておらず、モデルの説明可能性の重要性が強調される』

興味深かったので、文献を読んでみると共に、翻訳にチャレンジしてみました。翻訳に際してはGoogle翻訳の機械翻訳にお手伝いいただきました。この（おそらくディープラーニングを使っていると思われる）機械翻訳の精度も凄まじく、若干手を加えるだけで、読めるような文章になったかと思います。
尚、私は医者でもましてや眼科医でもありません。文献本文中にもあるとおり、この研究は臨床的にはほとんど有用性がありません。

対象の文献の方はこちらになります。科学雑誌「nature」からのものになります。

まずは、その前に少し補足を。

アルゴリズムは人間の専門家を超える

アルゴリズムが人間の専門家を超える予測を出す、これはかなり前から言われてきたことでした。（例えば、ノーベル経済学賞受賞のダニエル・カーネマン発案の「カーネマン・スコア（イスラエルの軍隊の採用でいまだに使われているとのこと）」など）
そうは言っても、このアルゴリズムは多数の「人間の」専門家の知見にもとづいて構築されます。人間の知見を元につくられたアルゴリズムなのに、なぜ人間の専門家の能力を超えられるのか？これには諸説ありそうですが、もっともらしいのが、それは「人間だから」ということになりそうです。
例えば医者だって人間です。朝っぱらから奥さんと喧嘩をした医者は午後の診察で誤った診断をすることを、（もちろんけっして好ましいことではありませんが、、、）否定できません。一方でアルゴリズムは人間が抱える様々な雑音の影響とは無縁です。それ故、正しい予測を出すことができるのではないか、というのが理由の一つのようです。

本実験では専門家の知見が不要なのに・・・

医療分野で利用されるディプラーニングの画像識別器ですが、例えば悪性腫瘍を識別するようなタスクでは、事前に専門医が与えられた画像から悪性腫瘍の画像にはラベリングをする必要があります。（アノテーションと言います。）これらラベル付きの画像群をディープラーニング識別器に学習させるわけです。

さて、本文献で紹介されている実験ですが「男女識別タスク」になります。男女識別というタスクは、専門医の判断が不要です。あなたにもそして（多分）私にも識別できるはずです。そもそも提出された画像データに性別が付与されています。

ということは、ディープラーニングは、自身で眼の画像データから男女を識別したことになります。しかも、それは専門医ですらも男女の眼の違いを把握していないものであるという。（ただし、病変を持つ眼に対しては識別はできないようです。）

本研究は、何度も強調されている通り、臨床的な有用性はないものです。しかしディープラーニングの持つこのような能力は今後人間が把握していないことを発見する可能性があることを示唆しています。

さらに恐ろしいことに、なぜディープラーニングにそれが可能なのか。
誰にも分からない、ということなんです。

ここから翻訳：「自動ディープラーニングを使用した網膜眼底写真からの性別の予測」

序）
ディープラーニングはヘルスケアを変革する可能性がありますが、モデル開発は主に高度な技術的専門知識の可用性に依存します。ここでは、網膜眼底写真から性別を予測する、コーディングなしの臨床医によるディープラーニングモデルの開発について説明します。モデルは、UK Biobankデータセット（※1）からの84,743枚の網膜眼底写真で訓練されました。外部検証は、（三次？）眼科紹介センターからの252枚の眼底写真で実施されました。内部検証に対しては、コードフリーディープラーニング（CFDL：Code Free Deep Learning）の受信者動作特性曲線（AUROC（※2）：Area Under Receiver Operating Characteristic Curve）の下の領域は0.93でした。感度、特異性、正の予測値（PPV）および精度（ACC）は88.8％、83.6％、87.3％、86.5％であり、外部検証ではそれぞれ83.9％、72.2％、78.2％、そして78.6%でした。
臨床医は現在、男性と女性のこの網膜の特徴の違いを把握しておらず、このタスクのモデルの説明可能性の重要性が重要になります。外部検証データセットに中心窩（※3）の病理が存在する場合、モデルのパフォーマンスは大幅に低下し、健康な眼のACC：85.4%と比較して69.4%であり、中心窩がモデルのパフォーマンスに顕著な領域であることを示唆しています。
OR（95％CI）（※4）：0.36（0.19、0.70）p=0.0022
自動機械学習（AutoML）は臨床医主導の新しい洞察と疾患バイオマーカーの自動発見を可能にします。

注

（※1）UK Biobankデータセット:

（※2）AUROC、受信者動作特性曲線：ROC(receiver operating characteristic)曲線下の面積。診断精度の評価に用いられ、1に近いほど精度がよい。AUC(Area Under The Curve)と同義。

（※3）中心窩：網膜の中心部、視細胞が集中している。

（※4）OR(95%CI):

（※5）AutoML:

本文）
網膜は、神経組織と血管組織を同時に視覚化できる体内で唯一の組織です。1800年代半ばの臨床診療に検眼鏡が導入されて以来、眼科医はそうしてきました。網膜バイオマーカーが健康な老化と病気の全身指標に効果的にマッピングされる可能性があることもますます認識されています。これらの眼球運動に基づく所見の例には、心血管疾患の場合の血管の屈曲と細動脈の狭窄、および神経障害の場合の網膜細胞層の変化が含まれます。網膜の形態と全身の健康との関係は、伝統的に多変数回帰などの統計モデリングを使用して評価されてきました。ただし、このような手法は、非常に大きなデータセットや複雑なデータで利用する場合、増分値が制限される可能性があります。データの可用性が向上するにつれて、数学的モデルが改善され、研究環境における眼科疾患の分類における深層学習の成功は目覚ましいものがあります。複数の層で接続された非線形ユニットに数学演算を適用することによって入力画像を処理するディープニューラルネットワークは、手動の特徴エンジニアリングを大幅に回避し、大量のデータで以前は隠されていたパターンを導出できます。網膜の外観と全身の病態生理学との間の定量的関係の発見が容易に微小血管および変性組織レベルの傷害の事前に確立された概念と一致します。ただし、ディープラーニングは、これらのアルゴリズムが、以前は不可能と考えられていたタスクの機能を実証することを示しています。この力を利用して、網膜構造と全身性病態生理学との関係についての新しい洞察は、疾患メカニズムの既存の知識を拡大する可能性があります。ポプリンら（Poplin et al.）による研究は、眼底写真から心血管リスク因子を正確に予測できるディープラーニングの学習アルゴリズムを実証しました。眼科医にとってさらに驚くべきことは、年齢や性別などの人口統計情報の予測が成功したことであり、後者は、AUCが0.97でした。ここで、「生理学的」の原因と影響関係は、ドメインの専門家には容易にわかりません。眼底写真から性別を予測することは、以前は、網膜を見てキャリアを積んだ人には考えられませんでした。また、患者の独立したデータセットのベースラインの外部検証にも耐えました。臨床的に有用である可能性は低いですが、 この発見は、高次元データの偏りのないモデリングを通じて、新しい関連性を発見するためのディープラーニングの将来の可能性を示唆しています。以前、医師が医療画像分析用の自動化された機械学習モデル（AutoML）を作成する能力について報告しました。その概念実証以来、AutoMLプラットフォームは大幅に進歩し、複数のコードを使用してコードフリーのディープラーニング（CFDL）を実現しています。ここでは、網膜眼底写真から性別分類を実行し、そのパフォーマンスをポプリンらによるオーダーメイドのディープラーニングモデルと比較することにより、新しい洞察を自動発見するためのツールとしてAutoMLを示します。

結果（results）

CFDLモデルの結果：
CFDLモデルのAUROCとAUPRCはそれぞれ0.93と0.94でした（Table 1）。全体的な感度（再現率）、特異性、PPV（適合率）、およびACCは、それぞれ88.8％、83.6％、87.3％、および86.5％でした（Figure 1）。遺伝的性別は、1つの検証セット画像で報告された性別と一致しておらず、この画像は誤って予測されたモデル;これは、この場合の遺伝的性別と一致するモデル予測性別です（Table S1）。再現性を評価し、ランダムシード開始を含むディープラーニングアルゴリズムのさまざまなパフォーマンスに対処するために、モデルを同一の仕様に再トレーニングし、AUCが0.93くらいのパフォーマンスを出すものを見つけることができました。
外部検証（External Validation）：
Moorfeldsデータセット（※6）に対して外部検証が実行されました。このデータセットは、使用された眼底カメラと、（三次？）眼科紹介センターの病理学リッチな集団からの調達の両方に関して、UK Biobank開発セットとは異なります。結果として得られる感度、特異性、PPVおよびACCは、それぞれ83.9％、72.2％、78.2％、78.6％でした。
中心窩の病理の存在：
CFDLモデルのパフォーマンスに対する中心窩病変の影響を評価するために、中心窩病変がある場合（n = 108）とない場合（n = 144）の眼底写真にMoorfelds外部検証データセットをサブグループ化しました（Table 2）。モデルは、中心窩病変のない患者の85.4％で性別を正しく分類しました。これは、中心窩病変のある患者の69.4％と比較して、主にUK Biobankの健康な人数に近い集団になります。ロジスティック回帰は、中心窩病変の存在がモデルのパフォーマンスに重要であることを示しました。 OR（95％CI）：0.36（0.19、0.70）p=0.0022。性別は中心窩病変の存在とは関連していませんでした（p = 0.94）。これは、中心窩がニューラルネットワークの性分類パフォーマンスの眼底写真の顕著な領域である可能性があることを示唆しています。領域帰属顕著性マップは、モデルの予測のための追加の重要な入力領域として視神経と血管アーケードを示唆しています（Table 2）。
グレーディング不可能なUK Biobankの画像：
古いUK Biobankの検証データセットから削除されたコンセンサスのグレーディング不可能な画像（n = 714）は、実験的な補助バッチ予測としてモデルによって個別に処理されました。結果として得られた感度、特異性、PPV、および精度は、それぞれ82.6％、71.2％、75.2％、および77.0％でした。

注

（※6）Moorfeldsデータセット:

ディスカッション（Discussion）

私たちの結果は、網膜眼底写真から性別を予測するためのCFDLモデルの堅牢な全体的なパフォーマンスを示しています。コーディングの専門知識を必要としないこのフレームワークからの0.93のAUROCは、このタスクのためのCFDLプラットフォームの重要な機能を示唆しています。コードフリーモデルのパフォーマンスは、機械学習の専門家によって設計および調整されたポプリンらのモデルの0.97のAUROCに匹敵します（Table 1）。私たちのモデルは、ポプリンらが訓練（training）に利用した追加の150万以上のEyePACS眼底写真が含まれていなかったため、データセットは大幅に小さいものの、同程度のUK Biobankで訓練（training）されました。

私たちの知る限り、他の2つの研究がこの画像分類タスクの実行を試みました。山下らは、性別に関連すると特定されたいくつかの特徴についてロジスティック回帰を実行しました。これらの特徴には、乳頭腫角、網膜血管角、および網膜動脈軌道が含まれていました。達成しました。これは、このような新しいタスクに人間が特定した機能を利用して、古典的な機械学習アプローチの限界をさらに強調しています。ディープラーニングは、CFDLアプローチを利用していても、手動の特徴エンジニアリングよりも大幅に優れているようです。さまざまな研究により、網膜と脈絡膜の厚さなど、性別による網膜の形態の違いが示されています。他の人は、眼の血流の変化を示し、性ホルモンの効果を示唆していますが、これまでのところ、コンセンサスが不足しています。このタスクのためにディエック（Dieck et al.）らによって開発されたコーダー設計のディープラーニングモデルには、画像の前処理ステップも含まれており、82.9％の精度を示しました。これは、自動化されたコードフリーアプローチよりも低い精度でした。数十億のピクセルレベルの変動からの集団レベルのパターンを統合するディープラーニングの力は、人間が同等のことをするのは不可能であるため、このタスクのドメインの専門家に明らかな網膜の特徴は答えられない可能性があります。

モデルのパフォーマンスは、Moorfieldsデータセットの外部検証でわずかに悪化しました。これは、ディープラーニングモデルがトレーニングデータの分布とは異なるデータセットで評価される場合には普通のことです。具体的には、Moorfieldsデータセットは（三次）紹介センターから取得され、眼底写真の42.9％に中心窩の病理が含まれていました。中心窩病変のない眼では、外部検証の精度はBiobank（バイオバンク）検証セットの1.5％以内でした。病変をもつ眼のパフォーマンスの低下は、性別予測における中心窩の重要性を示唆しており、ポプリンらの注意マップでも同様に実証されています。ポプリンらによる研究では、糖尿病性網膜症（DR：diabetic retinopathy）の存在についてサブグループ化された場合、彼らのモデルは同様に、健康な対象と比較して病理学的画像のパフォーマンスが低下する傾向がありました。さらに、その研究の眼科医は、注意マップを解釈する際に「性別予測のための黄斑の強調表示を繰り返し報告しました」。これらの調査結果は、利用される特定のトレーニングおよび評価データセットのコンテキストでのみ機械学習のパフォーマンスを考慮することの重要性を強調しています。これは、入力画像の顕著な特徴がドメインの専門家に不明確である場合、私たちのタスクにとって特に重要です。

UK Biobank検証データセットからのグレーディング不可能な画像は、網膜の専門家によって、黄斑、視神経、および血管アーケードの適切な可視性が欠如しているというガイドラインに基づいてラベル付けされました（Table S2）。ただし、これらの画像では、モデルのパフォーマンスがわずかに低下するだけでした。さらに、モデルは、グレーダブルと同様の非グレーディング入力画像の顕著な領域を示しています（Figure 2）。これは、モデルが、人間には区別できない可能性が高い微妙なピクセルレベルの輝度変動からの低品質画像の信号に敏感であることを示唆しています。 この発見は、人間の専門家には見えない可能性のある医用画像の顕著な特徴を利用するディープニューラルネットワークの有望な能力を強調しています。

高次元データの特性評価を通じて、私たちの調査結果は、ディープラーニングが新規疾患とバイオマーカーの関連性を探索するための有用なツールになることを示唆しています。特にAutoMLを使用した臨床医主導の研究は、この分野を前進させる可能性を秘めています。重要なのは、プラットフォームとしてのAutoMLが機械学習のプロセスを完全に自動化するわけではないということです。データの準備は、依然として重要な手動の手順です。外部検証データセットの母集団の違いによって示されているように、データセットの公平で代表的な取得、クリーニング、サブグループ化などのタスクは、有用なモデルを作成するための重要な要素です。臨床医は、臨床データの複雑さと、臨床的に関連する生産アルゴリズムの設計のユースケースの両方を理解できる独自の立場にあります。

私たちのディープラーニングモデルは、性別予測のタスクのために特別に設計されましたが、このタスクには固有の臨床的有用性がないことを強調します。代わりに、AutoMLがドメインの専門家に知られている顕著な網膜の特徴とは無関係にこれらの画像を分類できることを実証することを目的としました。つまり、網膜の専門家はこのタスクを簡単に実行できません。 フレームワークのパフォーマンスが、コーダー（※注：プログラマーのこと）によって同じタスク用に設計された最先端のアルゴリズムに匹敵する可能性があることを示すことを目的としています。（※注：即ち、フレームワークの精度がプログラマーによるカスタムメイドのアルゴリズムの精度に匹敵することを意味しています。）これは、特定の網膜の特徴が分類されていないタスクのモデルを設計するために、臨床医のユースケースの専門家によって利用されるAutoMLの能力を示唆しています。このような使用例には、網膜写真からの心血管疾患および神経疾患の特性評価が含まれます。

制限事項（Limitations）

私たちの研究にはいくつかの制限がありました。 CFDLモデルの設計は、モデルアーキテクチャとハイパーパラメータに関するフレームワークの自動化された性質のため、本質的に不透明でした。この不透明度はCFDLに固有のものではありませんが、使用されるモデルアーキテクチャとパラメータの洞察が不足しているため、ML（※注；機械学習のこと）の説明性がさらに低下する可能性があります。（※注：モデルのアーキテクチャやハイパーパラメータも自動的にフレームワーク側で設定されてしまうため、モデル内部が不透明となる上に予測結果に対するモデルの説明性が低くなる、ということ。） AUROCを介して他のモデルとパフォーマンスを比較しましたが、感度や特異度などの臨床的に関連するメトリックを使用してパフォーマンスを比較することはできませんでした。これらは他の研究の著者によって提供されなかったためです。一般的に健康な白人集団で構成されるUK Biobankデータセットは、一般的な英国の集団を完全に代表するものではなく、アルゴリズムバイアスの可能性を示しています。病理学の有病率が高い外部検証集団でこれに対処しようとしましたが、患者レベルのデータは限られており、追加の集団統計情報は含まれていませんでした。両方のデータセットは英国の母集団からのものであり、匿名化されているため、患者レベルで重複する可能性があります。

眼底写真から他の新奇性のある全身的なシグナルを予測する調査を通じて、CFDLプラットフォームのいくつかの固有の制限に気づきました。連続変数予測のサポートが不足していたために必要だったさまざまな範囲のバケットを利用して、年齢をうまく予測することができませんでした。喫煙状態を予測する実験の結果、ポプリンらと比較してAUCが大幅に低い（0.64）モデルが得られました（0.71）。私たちはプラットフォーム開発チームと協力し、新しいプラットフォーム機能がリリースされたら実験を繰り返すことを目指しています。

まとめ

私たちは、網膜眼底写真からのディープラーニング性別分類モデルの臨床医主導の設計と画期的な研究における同じタスクに匹敵するパフォーマンスを示します。専門のエンジニアによって設計された後者のモデルとは対照的に、私たちのモデルはコーディングなしで臨床医によって作成されました。高レベルの中心窩病変を有する集団に対する外部検証は、中心窩領域がこのタスクにとって重要であることを示唆しています。これは、AutoMLが臨床医のエンドユーザーによる医用画像の新しい洞察発見のためのツールであることを示しています。眼科医はこれらの深層学習モデルが「見ている」ものについて考え続けるかもしれませんが、私たちの研究は、貢献する機能に関する専門家の知識とは無関係に画像を特徴付けるCFDLの強力な可能性と、ディープラーニングへのアクセスを民主化する能力を示しています。

おわりに

本文は、ここまでで後は参考情報（データの詳細など）になります。詳しくは、原本を参照お願いします。機会があれば別途まとめたいと思っております。