6 誤分類症例のある児頭骨盤不均衡(CPD)データ-画期的な判別分析の新世界を開く、誤分類例を省いて全ての判別データをLSDにするケースの選択法-
目次
6.1 児頭骨盤不均衡(CPD)データ
6.2 CPDデータの多重共線性
6.3 Theory3の革新的な「ケースの決定法」
6.1 児頭骨盤不均衡(CPD)データ
児頭骨盤不均衡(CPD)とは、出産時に児頭が妊婦の骨盤と不均衡で、自然分娩にするか、鉗子分娩にするか、帝王切開にするか、出産前に決める診断法である。日本医科大学の鈴村教授は、表6.1に示すX9とX12を除く17の計測値から、X9=X7-X8とX12=X13-X14の新しい2変数のX9とX12を等式から作り、X線写真でこの2変数で判断する簡便法を考えた。
これをデータから正しいか否か検証してほしいと、馬越講師から依頼された。その当時、SCS㈱で黙認されていた「35万症例のSSMの効果判定」を丸山千里先生から頼まれていた。この他、耳鼻科のデータ等の分析も行った。
医学的知識はないが、「データ解析で最善な変数の組と判別手法の組み合わせを医学診断の前に正しく決める」のが、理工学研究の使命である。その結果に基づいて、医師が医学的に判断する。これが学際的なデータ解析の使命で役割である。
最後の列のVIF(Variance Inflatio Factor)は、例えば説明変数X1を残りの18変数で回帰した決定変数をR12とする。VIF1=1/(1- R12)で計算される。もしX1が、残りの18変数で完全に回帰できればR12=1でVIF1は無限大になる。すなわちVIFが大きいほど、他の説明変数で説明できX1は不要になり、多重共線性という統計学上の問題が生じる。計量経済学などで重要視されている。基準がないのでX9の21以上を考えたが、X4やX7の方が大きい、
1983年当時、どの変数を省くかの方法はなかった。そこで半年以上試行錯誤して2つの等式から各1変数を省く方法を考えて、一応多重共線性は解消し、結果をTheory1のSpringer1で紹介した。
6.2 CPDデータの多重共線性
CPDデータは、180例の帝王切開手術を受けた妊婦と60例の自然分娩例である。鈴村教授は、17の測定値から計算される2変数のX9=X7-X8とX12=X13-X14を含むので、これら6変数間に2個の強い多重共線性がある。図6.1は逐次変数増加法(FJとFS)と減少法(BJとBS)で選んだモデルで、JMPとSASで求めたLDFのNMを示す。FJとBJはJMP、FSとBSはSASの結果である。両図とも変数増加法で9変数前後まで変数が増えるとNMは減少し、それ以降に多重共線性に関係する変数が揃うと増加する。一方減少法は19変数から8変数迄NMは増えて、多重共線性を解消する変数が省かれると減少傾向になる。ただしSASとJMPは計算方法の違いで傾向に違いがある。これは多重共線性があると予測結果が不安定になることを示す。多重共線性のある変数を解消する方法がないので、1979年頃に半年以上を費やして解決した。
図6.1 JMP (左) と SAS (右)の変数増加法(赤)と減少法(青)のNM
6.3 Theory3の革新的な「ケースの決定法」とBGSによる「変数決定法」
数理計画法ソフトのLINGOで作成したProgram1のRIPで、CPD(240*19)に固有の帝王切開患者と自然分娩患者2例の誤分類が見つかった。これを省略しテスト標本として扱い、後でなぜ誤分類したかを詳細に検討することが判別分析のそして医学診断の真の目的である。そしてデータに一意に決まる誤分類を省けば、全ての判別データがLSDになるという全く判別分析の考えられない新世界が開ける(Revolution25)。
そしてCPD238(LSD)を作成する。Program3は、SM1(18変数)を見つけ、X12=X13-X14からX14を省いて多重共線性を解消した。Program4は、BGS1(14変数)とType-2のLSDでないBGS2(5変数)を見つけた。Program2で19変数のモデル、18変数のSM1、14変数のBGS1、5変数のBGS2等の4モデルを10重CVで検証した。M2はこれらの4モデルを評価し(Validation1)、それぞれ0.002%、1.028%、1.028%、および12.54%になる。この結果は、変数の少ないBGS1がM2の評価で他よりも優れていることを示す。これ迄、少ない変数で良い結果を得られる重回帰や判別関数のモデルを選ぶ事が良いと言われてきた。しかしこのOccam Razor(Principle of Parsimony)を満たす事例がなかった。このCPD238の結果は、世界初の見事な例である。
ここで組み合わせ最適化による14変数のBGSを検討する。たった19変数でも、524,287(=219-1)組みの判別モデルがある。BGS1を含む残りの5変数の32(=25)組みの14変数から19変数の判別モデルは、全てMNM=0でLSDである。そしてBGS1は最小の14変数のLSDで最もCompactで、M2=0.002%で最適な判別モデルという事だ。
この単純な分析で、人や全ての動物の医学診断が革新的に改善できる。もし過去の医学診断で納得のいかないデータを提供していただければ、1日で分析し結果を公開できる。読者の周りに医療関係者がいれば、この記事を紹介し、日本の医学診断を革新することに協力してほしい。この結果は、1万個以上のMicroarrayで簡単に示すことができなかった。2023年に、2024年3月14に刊行予定のSpringer3のCPDを分析していて初めて気づいた。
通常のデータ(n>=p)を分析する場合、Microarrayと異なり、次の単純な4ステップである。この分析は僅か半日で終る。
1) RIPはデータを判別し誤分類がある場合は、修正したLSDを作成する。これは変数選択方法よりも効果の大きいケースの選択法(Revolution24)になる。
2) Program3はType-1のSMとほぼ1個のType-2のSMを見つける。
3) Program4はType-1のBGSとほぼ1個のType-2のBGS(Revolution24)を検出する。BGSを見つけることが、強力な変数選択であり、全ての理工学研究の変数選択やFSはいらない。
4) Program2は、全BGSを全てのSMと全変数とで評価する。現時点では、BGS1が最小のM2値になる。すなわちBGS1は、Occam’s Razorを満足する最もコンパクトで最高の判別結果のモデルになる。
5)もし銀行紙幣データ、日本車データのように6変数であれば、Program2で63個のモデルのM2を直接評価して、M2とMNMの値からSMやBGSを決めることができて非常に簡単である。
RIP、3つのFact、および4種のLINGOプログラムは、全ての人に新たな判別分析の新世界を開く。一度これまで分析したデータがあれば、試しに分析してみれば、直ぐに納得できるだろう。
6.4 24年1月20日までの休筆
明日の12月28日から24年1月20日まで、Springer3の最終原稿の修正作業があり、休筆します。良いお年を!
来年は、次の点の普及に協力ください。
1. 人や全ての動物の医学診断が革新的に改善
2. 医学診断と同じデータ構造の、Altmanが始めた企業の倒産予測、日経新聞の嘗ての優良企業100社のランキングなどの各種の評価
3. MicroarrayやRNA-seq等の発現データのTheory2の開発サポート
4. 動物の遺伝子診断
5. 大学の入試や各教員の試験問題の評価