見出し画像

2 FisherのLDFとIrisデータ ー推測統計学と記述統計-


日本の高校生以上の人に、世界初の癌の遺伝子データ解析に参加する、手助けをしたい。また全ての医学診断を革新的に改善したい。

自己紹介  1971年から、大阪成人病センターで心電図診断と癌の疫学データを判別分析で研究。日本医科大学の30万例の丸山ワクチンとCPDデータの診断法を重回帰と判別で解決。3年間の大学入試センター試験の13教科データと筆者の統計入門の中間と期末の10択100問のデータの判別。介護保険に分類木を用いることをアドバイス。2015年に正規分布を基礎とする判別理論の間違いを示す本[1]を出版。その技術で、簡単に169のMicroarrayデータが沢山の多変量の小変数のLSD(線形分離可能)に分割できることを示した[2]。2023年に6種の普通のデータを4つのProgramで再分析し、組み合わせ最適化技術で「ケースの選択法」と「変数選択法」という新しい判別分析の世界を切り開く革新的なTheory3を完成した。誤分類のある医学診断癌の遺伝子データ解析試験問題の評価などの世界初の方法論の驚く結果を、4Programの結果で分かり易く紹介した世界初のLSDの判別理論を24年3月14に刊行する[3]。2024年からは視力の問題で、長くPCで実証研究ができないので、53年間の研究をやめることにした。そしてNOTE等で、筆者の開発した技術を日本で紹介普及したい。上記の3テーマのExcelデータがあれば、公開を原則として内容を見て分析したい。特に医学診断データを最優先としたい。単なる知識の習得で満足するのでなく、多くの人が身の回りのデータから有益な情報をえる「真のData Scientist」になってほしい。AIに無条件に迎合せず、組合わせ最適な解が得られるデータ解析との比較する視点をもってほしい。
 
目次
1. Fisherの業績
2.  正規分布と分散共分散行列の問題
3.  FisherのIrisデータ
4.14体のMatryoshka人形
5.14体のMatryoshka人形
6.     Fisherの後世の研究者への遺言
 
1.1 Fisherの業績
 Fisherは頼り無い記述統計学を数学のレベルまで引き上げるために、同世代の統計学者と共に推測統計学を提唱した。そしてGaussが2地点間の繰り返し測定で見つけたGauss分布最小自乗法を判別理論の基礎にした。彼は大学に職が無かったので、ロザムステッド農場で栽培生物の研究員として実証研究を行った。そして実験計画法や分散分析などの推測統計学に貢献した。さらに最尤推定法などにも貢献した統計学の泰斗である。そして、2群が平均だけ異なる同じ正規分布という仮定(Fisherの仮説)でFisherのLDF(線形判別関数)を提案した。皆さんも1変数の平均の異なる正規分布の比を対数変換すれば簡単に1次式のLDFになることを高校数学を思い出し確認してほしい。この成功で、分散共分散行列が異なる2次判別関数(QDF)も開発された。平均が等しくない場合は、容易にQDFになる。即ち正規分布を実現するのが分散共分散行列で、これを用いた判別関数と理論は「統計の歴史博物館」に展示すべきである。
しかしLDFは、重回帰分析と並ぶ統計学の重要な分野を切開いた。しかし彼の大きな業績の中で他の手法に比べて見劣りする。例えばLDFは、判別結果を表す1変量のERror Rate(ER)や多変量の判別係数の標準誤差がないので推測統計でないという判別分析のProblem4があるこれに関しては応用統計学で、ブートストラップ法を用いた推定法が九大の教授らが提案している。しかし頁数が多いことが示す通り、統計ソフトが採用する事は無く、一般的に普及は難しい。筆者は一般的な統計原則を満たさないk重交差検証法の代わりに、個々のデータと毎に100重交差検証法(Method1 :100-fold CV)を提案し、判別分析のProblem4を解決した。169のMicroarrayのデータ解析(Theory2)では、沢山の多変量の発癌遺伝子の候補のSMBGSValidation1(Program2)として活躍している。即ちLDFのNMが信頼できないというProblem1がある。このため誰もLSDを定義できなかった。しかしLDFのNMが0であれば、判別スコアの正と負で2群が分かれLSDである。これを確実にするために、筆者はFact1(NMと判別係数の関係)とFact2(MNMk>=MNM(k+1))の単調減少で最小誤分類数MNM(Minimum NM)を考えた。これは統計では実現できなく数理計画法(MathematicaLProgramming、 MP)の整数計画法(Integer Programming、IP)でしか現時点では解決できない。
日本では統計とMPのソフトを使って実証研究を行う研究者が少ないが、世界でも少ない。1995年は米国で動物の遺伝子の出す蛋白量(発現量)を計測するMicroarrayが開発され、医学研究がそのデータを公開した年である。多くの理工学研究者は、この無料のデータを研究したが、Theory2で間違った論文を出し続けてきた。公費の無駄使いである。ちなみに私は自己資金で53年間やりくりしてきた。
1.2 正規分布と分散共分散行列の問題
正規分布は本来Gauss分布というべきである。後世の統計学者がFisherを正規分布教の宗祖に祭り上げるため、実際の分布がどうであれ正規分布を前提とし、数式だけで論文が書けるメリットを享受した。それ以上に次の単純で重要なことに気づかず、多くの判別理論を必要とする医学研究などに悪影響を及ぼした。重回帰分析のyの予測値は2地点間の真の距離を推定するGauss分布の最善の応用である。そしてyの予測値は、1変量のGauss分布であり問題ない。しかしLDFは、判別結果を示す1変量のERと多変量の判別係数の標準誤差を、正規分布で定義できない。また筆者は、多変数の2群が正規分布するというデータに出会ったことがなく、Fisherの仮説を考える事に無理がある。また1変量の正規検定はあるが、多変量の正規検定は研究されているが決定的な研究はないと考える。さらに高次元のFisherの仮説を満たす2群の正規分布などお目にかかったことはない。Microarrayという1万個以上の遺伝子の出す蛋白量が正規分布と考える事自体、正気の沙汰ではない。
またこれ以降に説明する4組みの普通のLSD(n>=p)や169のMicroarray(n<p)がLSDであり、ERが0である。これらのデータの判別の前提は、Fisherの仮説と次の点で異なる。
1)  判別超平面の近くに2群のかなりのケース(インスタンス)がある。
2)  しかしこれらは、決して誤判別されない(NM=ER=0)。すなわちLDFのNMが0であればLSDであるが、全てのLSDでNMが0にならないというProblem1がある。これを解決するMNMを求めるのがRIPである。
3)  また流石のFisherも判別係数や判別結果を評価するERの標準誤差(SE)を定式化していない。そこでTheory1では、2群に1/-1の値を与えて重回帰分析で議論してきた。しかしこの方法は感心できない。そこでMethod1 を考え、そのLINGOプログラムのProgram2を開発し、最初はERと係数のSEを求めた。しかしTheory2では10重CVの10組の学習標本で求めたRIPで、検証標本を判別して得られた10組のERの平均値のM2が最小のモデルを選ぶ事にした。Microarrayは多くのSMとBGSが見つかるので、M2=0の物を選択した。
4)  MNM=0が唯一LSDを定義する統計量である。Vapniikはハードマージン最大化のSupport Vector Machine(H-SVM)を提案した。2組の判別超平面のSV1=1とSVM2=-1で判別スコアを3分割し、-1<LDF<1にケースがないことでLSDを定義した。そして誤分類のあるデータに対し、判別超平面からの距離の和を最小化するソフト・マージン最大化のS-SVMの後、非線形空間にデータを変換してERを改善するkERnel-SVMを提案した。最近目に付くのはSVMが kERnel-SVMのことだと考え、H-SVMとS-SVMを知らないSVM利用者が多い。Theory2の研究者にもこれを知らない人が多く、kERnel-SVMとRFを良いと奨めている。この2手法のERが0であってもLSDを意味しないことにきづいていない。
5)  筆者の実証研究でLSDを正しく判別できるのは、RIPとH-SVMだけである。多くのLSDであるSMとBGSを判別し、JMPのロジスティック回帰も実証研究で0になりLSDが分かる。ここでJMPとしているのは、恐らくFisherも関係した最尤推定法を使っているためと考える。この点を誰か研究して確認してほしい。
6)  大学入試センター試験の数学ⅡbでERが30%を超える例や、QDFが全合格群を不合格に誤判別する例がある。これは、分散共分散行列の瑕疵(Problem3)である。
1.3 FisherのIrisデータ
 FisherはLDFを、4変数のセトサ(G1)、バーシクル(G2)、バージニカ(G3)という3種のIrisデータ(150*4)で評価したので、統計研究者はFisherのIrisデータと呼び、多くの判別手法の利用者は分析している。筆者は以前より何故Fisherがこれで評価したのか疑問に持っている。次の2表と散布図で説明する。
図1は行列散布図、上の表1は4種の2群の4変数のNM、下の表2は誤分類のあるG23の11モデルの6判別手法のNMを示す。図1から、G12(G1&G2)とG13(G1&G3)とG1vs23(G1&G23)の3つのLSDと、G23(G2&G3)がLSDでないことが分かる。3つのLSDは、X3とX4の2組の1変量で2群がLSDであり、2組みの1変量のBGSになる。そして、2変数のX1とX2が2変量のBGSになる。
BGSはTheory1のスイス銀行データ(200*6)の2変数のX4とX6が2変量のBGSになることを最初に見つけた。そしてTheory2で少数個の遺伝子でLSDになるSMと区別するために最小次元のLSDをBGSと呼ぶことにした。そして「Microarrayが4つのLSDの構造を持つというFact3」を見つけた。
 これが多くの人に分かりにくいが、Theory3でIrisデータが14のMatryoshka人形のデータ構造になる説明が分かり易いことに気づいた。さらに3つのBGSの1個で、簡単に3種のLSDが枝分かれ法でLSDが分かる。すなわち、FisherがLDFを評価するのに最も不適切な評価データであることを示す。Fisherの時代、枝分かれ法が判別手法の代表であった。
図1の画像の挿入
表1と表2の挿入
 
表1は、4種の2群の4変数をLDF、QDF、RDA、ロジスティック回帰、RIPと介護保険システムの開発に勧めたPartition(分類木)で判別したNMである。2群がかなり離れているので全手法がNM=0になる。またRIPのNM=1、ロジスティック回帰のNM=2、LDFとQDFのNM=3、Partition(分類木)のNM=4、RDAのNM=5という順位を示す。
表2はLSDでないG2vs3(G2とG3の2群)を行に示す11モデルと、列に示す6判別手法のNMを示す。ただしRIPのMNMに対して、残りの5手法は(NM‐MNM)の差であり、全てが非負になる。2列目のLPは改定LP‐OLDFというLDFである。Logiはロジスティック回帰であるが、RIPのMNMとの差が3変数(X1,X2,X3)が2で、2変数(X3,X4)が1で、残りが0と他の手法の中で一番良い。
1.4 14体のMatryoshka人形
 IrisデータはLSDであるが散布図で簡単に分かるので、Theory1[1]ではLSDと注目しなかった。そして変数が少ないので一般的な統計分析の説明に終始した。しかしTheory2のFac3を見直し、Theory3[3]で次の14体のMatryoshka人形と、BGSのLSDの重要な役割を分かり易く説明できることに気づいた。しかしTheory2のFact3はややこしいがTheory3の普通のLSDの構造は簡単である。
Theory2のFact3は、RIPでMicroarray(n<p)を判別するだけで、p次元のLSDが瞬時にn以下のSMになる。またロジスティク回帰のDFがnになり、n個以下の遺伝子の組に分割できる。そしてそこ真のMatryoshka人形の構造になり、一番変数の少ないLSDのBGSになる入れ子(Nested)構造があり(Structure1)。Program3Program4でType1のLSDであるSM(Structure2)とBGS(Structure3)になる。そしてロジスティック回帰は自由度のDFがnで、DF分割できる(Structure4)。これがTheory2[2]の重要なFact3である。
しかし普通のデータ(n>=p)のLSDのIrisデータは次のように簡単になる。フルモデルの(X1, X2, X3, X4)がLSDである。ロジスティック回帰とRIPの判別で、ほぼこの4変数が選ばれる。そして3変数以下のBGSの一つを含むLSDが選ばれ、最後に1個のBGSまでの入れ子(Nested)構造になる。高次元のMicroarrayのようにRIPでは判別するだけでMicroarrayがSMに変身するという不思議なことが起こらない。
Matryoshka1: (X1, X2, X3, X4) ⊃(X2, X3, X4)⊃(X3, X4)⊃(X3),
Matryoshka2: (X1, X2, X3, X4) ⊃(X2, X3, X4)⊃(X3, X4)⊃(X4),
Matryoshka3: (X1, X2, X3, X4) ⊃(X2, X3, X4)⊃(X2, X4)⊃(X4),
Matryoshka4: (X1, X2, X3, X4) ⊃(X2, X3, X4)⊃(X2, X3)⊃(X3),
Matryoshka5: (X1, X2, X3, X4) ⊃(X1, X3, X4)⊃(X3, X4)⊃(X4),
Matryoshka6: (X1, X2, X3, X4) ⊃(X1, X3, X4)⊃(X3, X4)⊃(X3),
Matryoshka7: (X1, X2, X3, X4) ⊃(X1, X3, X4)⊃(X1, X4)⊃(X4),
Matryoshka8: (X1, X2, X3, X4) ⊃(X1, X3, X4)⊃(X1, X3)⊃(X3),
Matryoshka9: (X1, X2, X3, X4) ⊃(X1, X2, X4)⊃(X2, X4)⊃(X4),
Matryoshka10: (X1, X2, X3, X4) ⊃(X1, X2, X4)⊃(X1, X4)⊃(X4),
Matryoshka11: (X1, X2, X3, X4) ⊃(X1, X2, X4)⊃(X1, X2),
Matryoshka12: (X1, X2, X3, X4) ⊃(X1, X2, X3)⊃(X2, X3) ⊃(X3),
Matryoshka13: (X1, X2, X3, X4) ⊃(X1, X2, X3)⊃(X1, X3) ⊃(X3),
Matryoshka14: (X1, X2, X3, X4) ⊃(X1, X2, X3)⊃(X1, X2).
Irisデータはn=150あるいは100でp=4であり、次の通りFact3を理解できる。4変数のLSDが3次元では(X2, X3, X4)か(X1, X3, X4)か(X1, X2, X4)か(X1, X2, X3)の4組の3変数のLSDを含むが、必ず3組のBGSの一つを含んでいる。2変数は6個のLSDで、必ず(X1, X2)かX3かX4の3個のBGSの一つを含む。最後の1変数の12組のLSDであるが、2組の1変数のBGSの(X3)か(X4)の一つを含む。Matryoshka12とMatryoshka14は、2変数の(X1, X2)で終了する。すなわち、X1とX2の2個の1変数だけがLSDでない。すなわちLSDの塊であり、LDFの評価に適していない。
 判別分析はNMが0から(n-1)個のn個の整数しかとらない「組み合わせ問題」であり、正規分布で考えるのは間違いである。Theory3で3つの理論を検証し、このような革新的な考え方を27のRevolutionとして説明している。
1.5 Fisherの後世の研究者への遺言
 なぜFisherは、LDFの評価に適していないIrisデータを用いたのか検討すべきである。
筆者は、Fisherが後世の研究者がLSDを正しく判別できるようにと遺言に残したデータと勝手に考えている。3種のLSDでは簡単に3つのBGSで枝分かれ法の方がMNM=0でLSDを示す。表2の誤分類があるデータでも、RIPとロジスティック回帰よりLDFが劣っている。
 ロザムステッド農場で栽培作物に接したFisherがLSDに気づかないはずがない。そしてこのデータから、恐らく他の動植物の種の違いを示す計測値がBGSになり、多くのLSDが発見できることが期待できる。
 なぜ誰も「2群が空間で分かれている」という科学技術の重要な基本を実証研究しなかったのか問題である。この研究がないので、見当外れなMicroarrayによる多変量の癌遺伝子データ解析が無駄に行われてきた。また誤分類のある医学診断が正しく行われず、試験の合否判定に用いる設問の評価ができなかった。これらは、4つのProgramで簡単に分析できる。

この記事が気に入ったらサポートをしてみませんか?