見出し画像

真のData Scientistになるために必要な革新的な4つのProgram(改定版)

自己紹介
 1971年から、大阪成人病センターで心電図診断と癌の疫学データを判別分析で研究。日本医科大学の30万例のSSMとCPDデータの診断法を判別と重回帰で解決。3年間の大学入試センター試験の13教科データの判別。介護保険に分類木を用いることをアドバイス。2015年に正規分布を基礎とする判別理論の間違いを示す本[1]を出版。その技術で、簡単に169のMicroarrayデータで沢山の多変量のLSD(線形分離可能)があることを示した[2]。2023年に6種の普通のデータを4つのProgramで再分析し、組み合わせ最適化技術で「ケースの選択法」と「変数選択法」という新しい判別分析の世界を切り開くTheory3を完成した。誤分類のある医学診断、癌の遺伝子データ解析、試験問題の評価の世界初の技術を4Programの結果で紹介。
 
目次
出版
1.Noteで紹介する最重要テーマ
2.対象読者
3.AI診断が劣る理由
4.真のData Scientistの教育
5.最後のご奉公
 
出版
1.    New Theory of Discriminant Analysis AftER R. Fisher: Advanced Research of the Feature SelectioNMethod For Microarray Data、 Jan 6、 2017、¥17、121
2.    High-dimensional Microarray Data Analysis: Cancer Gene Diagnosis and Malignancy Indexes of Microarray、May 24、 2019、¥24、133
3.    The First Discriminant Theory of Linearly Separable Data: From Exams and Medical Diagnoses with Misclassifications to 169 Microarrays for Cancer Gene DiagnosiSMar 13、 2024、¥27、613
 以下の6冊はAmazonのKindleで販売していたが、今回契約を解除してNOTEの中で開示する。Word原稿を単にPDFにしたので、本の質は落ちる。
4.    From Cancer Gene Analysis to Cancer.; Theory 2の前半部分で信号データの統計分析
5.    LINGOの雛型モデルで簡単に解決できる問題解決(上巻)著: Linus Schrage
6.    LINGOを用いて種々の最適化問題を実際に解決しよう 中巻 著: Linus Schrag
7.    LINGOを用いて種々の最適化問題を実際に解決しよう 下巻 著: Linus Schrage
8.    Excelの雛型モデルで学ぶビジネスと教育のための問題解決学著: Linus Scrage
9.    DEAによる問題の発見と解決
10. 最適線形判別関数、Oct 1、 2010、¥3、080
11. 数理計画法による問題解決法、Jun 1、 2011、¥3、080
12. パソコン楽々統計学―グラフで見るデータ解析 (ブルーバックス)、Dec 1、 1997、¥1、650
13. パソコン活用3日でわかる・使える統計学―統計の基礎からデータマイニングまで (ブルーバックス)
May 1、 2002、¥3、167
14. ExcelとLINGOで学ぶ 数理計画法(CD付)、Nov 29、 2008、¥2、640
15. SASによる回帰分析の実践、Apr 1、 1986、¥3、300
16. JMP活用 統計学とっておき勉強法―革新的統計ソフトと手計算で学ぶ統計入門 (ブルーバックス CD-ROM)、Feb 19、 2004
17. JMPによる統計レポート作成法、Apr 1、 2007、¥444(40 used & new offers)
18. パソコンらくらく数学―会話式数学ソフトSpeakeasyで楽しく学ぶ (ブルーバックス 1250)、Apr 1、 1999
、¥1(14 used & new offers)
19. 意思決定支援システムの鍵―有り余るコンピュータ・パワーをどう使う (ブルーバックス)、Dec 1、 1993
20. SPSS for Windows入門、Nov 1、 1994、¥1(5 used & new offers)
21. SAS言語入門、Feb 1、 1994
22. パソコンによるデータ解析―統計ソフトを使いこなす (ブルーバックス)、Nov 1、 1995
23. 易しく実践 データ解析の進め方、Mar 5、 1989
24. 統計処理エッセンシャル (情報処理実用シリーズ)by 高森 寛 and 新村 秀一、Oct 1、 1987
25. 実践数理計画法―LINDOを用いて、Sep 1、 1992
26. SASによる回帰分析の実践、¥3、300、¥194(13 used & new offers)
27. GINOによるモデリングと最適化―汎用数値計算プログラム。青沼龍雄、新村秀一。by Judith Liebman、 Leon Lasdon、 et al.
 英語論文はResearch Gate (https://www.researchgate.net/profile/Shuichi-Shnmura)から入手可能。日本語論文は、成蹊大学図書ライブラリ、SASユーザ会資料、日本OR、計算機、医療情報、日本ME学会誌など参照。
 
1. Noteで紹介する最重要テーマ
 米国のAIの最先端テーマの「癌の遺伝子診断」の商品より、誰でも「膨大な組み合わせ最適化手法」の整数計画法(Integer Programming、 IP)で簡単で正確な成果を出せる!
 高校数学の「領域の最大/最小問題」を理解することが最低の条件。後は筆者の開発した最適線形判別関数のRIPの4つのProgramの使用法が分かればよい。
2.対象読者
特に次の人に最適です。
・全ての動物や人間の誤分類のある医学診断を行う医師。これまでは、誤分類症例は一意に決まらなかった。Program1 は一意に特定し、これを省けば全判別データがLSDになる。従来、誤分類が一意に決まらず正しい研究すができなかった。そしてProgram4は、最小変数のLSDを見つける。Program2BGSを他のモデルと評価して、10重CVの検証標本の平均誤分類確率のM2が最小であることを確認した世界で初めてOccamのカミソリを示す事例である。
・全ての統計、機械工学やAI等の理工学研究者が、癌の遺伝子データ解析(Theory2)の間違った研究を1995年以降している。例えば高校の生物の先生方が、心ある高校生を組織化して、169のMicroarrayから志の高い高校生と一緒に4Programで見つけた最小次元のBGS(山中4遺伝子と類似の概念)を分析し、多くの小標本のBGSを高校生に分担課題として与え、インターネットで成果を発信する。これが癌研究に貢献することを期待している。
・試験の合否判定を決める最適で最小のLSDである設問の特定でき、人の評価が真の学問になる。
・企業人は、競合する組織や製品等のDEAの効率性の評価が簡単にDEAの別Programでできる。
3.AI診断が劣る理由
ChatGPTの画像生成は確かに素晴らしい。ChatGPT以前に、AIが画像診断で大成功している。大量の画像の多くの情報を、人間が見落とす事を防いでくれ最も適した分野である。参考文献[3](The First Discriminant Theory of Linearly Separaaie Data: From Exams and Medical Diagnoses with Misclassifications to 169 Microarrays for Cancer Gene Diagnosis)の本は、英語が弱いのに直接PCで英文を作成した。不安になり原稿を入稿後にChatGPTとGoogle翻訳で、日本語に翻訳して比較したが、ChatGPTの方が僅か翻訳に注文を付けれるので優れていた。しかし日本語としてみれば、多くの修正が必要であり画像の成功ほど驚くものでない。すなわち、適用分野の適/不適を理解すべきである。
そして、Data Scientist に必要なIPを用いた組み合わせ最適化の技術は、ChatGPTは現在全く対応できず、単に満足解を出せれば良い状態である。また、3件の10変数データの連立方程式、LDF、重回帰の解を求めたができなかった。
以上から、現時点では数理計画法と統計ソフトで実証研究できる個人は、AI以上の成果を出せる数少ない分野である。その普及に、強力したい。
4.真のData Scientistの教育
また癌の遺伝子診断で、[3]で紹介している筆者のTheory3が、全ての統計や機械学習やAI等の工学研究が間違いであり、癌の専門医も間違っていることを実証研究で示した。彼らは科学技術の基本である2群のデータの正しいLSDの定義も知らず、「膨大な組み合わせ最適化手法」である整数計画法(Integer Programming、IP)という技術を知らない事が原因である。あろうことか、1997年に統計とORの専門家の米国のStam博士が、300以上の数理計画法(MathematicaLProgramming、 MP)で定式化した判別モデルの論文を米国OR学会誌で総括して、MPの判別モデルは役に立たないので終焉した。
筆者は、それらの研究が、単に間違った統計の判別理論をMPで定式化しただけの「志の低い研究」と考えた。MPの理解は、高校数学で習う「領域の最大/最小値」問題の知識があるだけでよい。また彼らは「連立方程式の解」を求める基礎知識を重要な自分の研究に生かせなかった。癌の遺伝子データ解析(Theory2)の失敗は、理工学研究の最大の不祥事である。そして真のData Scientistの教育を考える上で真剣に検討すべきである。恐らくこのままではAIを信仰する底の浅いData Scientistが社会を間違った方向に導くことを危惧している。現実にない多次元の正規分布を仮定した判別理論が、まったく癌の遺伝子データ解析で惨めな失敗を重ねたのことを、53年の判別理論の実証研究で示した。
5.最後のご奉公
そこで「3」の出版で筆者の53年の研究者人生を締めくくることにした。2024年からは日本の医師や、教育者や、癌診断の成果を促進してほしい多くの未来の真のData Scientistにも情報発信することを考えた。そして各テーマのExcelデータをもらえば解析した結果を公開できる。非公開希望であれば、有償で分析することもできる。
 
最初の分析サポートの優先順位は次の通りで、公開を原則としてExcelデータを分析します。読者のExcelデータを最低1例は分析し公開したい。公開できないものは内容を見て判断したい。特に医学診断はできる限り対応する。癌の遺伝子データ解析の個別対応は、個々の内容で判断したい。
1.誤分類のある動物や人間の医学診断。これによって診断の精度が飛躍的に上がる。またデータに一意に決まる症例を省くという史上初の「ケース選択法」である。日本の学会や出版社は、恐らく出版しないであろう。Springerは科学図書の世界最大の出版社で、Natureもその一部である。また私の国際会議の10篇の論文は、世界最大の学会のIEEE、Springer/Nature等の学術書に収録されていて、筆者の大洞でないことは理解できる。
2. 癌の遺伝子データ解析に貢献したい人のサポート。高校の生物の先生が、向学心のある高校生を指導して、各Microarrayの信号データの統計分析で、役に立つ結果が出る可能性が高い。信号データは1万以上の遺伝子の変数を小標本に変換した統計分析が容易なデータである。大学の理工学教育に用いるのも良い。
3.合否判定データで、最小の変数で最小の誤分類確率を示す設問の特定やその他の判別問題。
4.企業、業種、機械、自治体等の組織の効率性分析のDEA。東京都の区立と市立図書館、3.11の前年と翌年の電力8社の評価、鉄道企業、空港等の事例を毎月順次に説明する。
5.下記リストの既存出版物の分かり安い解説。
2022年に大学卒業後の52年間の判別理論の研究を完成した。従来の正規分布による判別理論は全く役に立たない。日本語で出版してくれないので3冊目の洋書のA-3を2023年に執筆し2024年3月14日に”The New Discriminant Theory of Linearly Separable Data”のタイトルで出版予定である。
扱う対象は、児頭骨盤不均衡の胎児を妊婦が出産前に60例の帝王切開と180例の自然分娩群を19変数で決定する研究データである。筆者は誤分類のNMを最小化して最小の誤分類数のMNMを求める最適線形判別関数のRIPを開発した。そして2例が誤判別された。これを省いたCPD238はLSDになる。この技術は、誰も提案していない革新的な「ケースの選択法」である。すなわち全ての判別データがLSDになる。
そしてLINGOというシカゴ大学名誉教授の開発したLINGOというソフトで開発したProgram4で判別するだけで14変数の最小のLSDが見つかる。残りの5変数から32(=25)個の組み合わせができ、選ばれた15変数との組み合わせでLSDになる。残りの54万個以上(=219-1)はLSDでなく、判別にとって単に雑音である。そしてProgram2がこの15変数モデルのBGSが「検証標本の平均値のM2」が最小値の最適なモデルである。これまで回帰や判別モデルで「Occamの剃刀」の具体的な事例がなかった。
また人のDNA遺伝子が出す蛋白量(発現量)で、生命現象が正確に制御できる。これは「山中4遺伝子」が万能細胞を作ることでも発現量の役割が分かる。1995年に米国でMicroarrayという計測器で1万位までの遺伝子の発現量が計測できるようになった。早速癌の研究医が、これを用いて例えば癌患者と正常患者の各50例の1万個程度の遺伝子の発現量で、「多変量の発癌遺伝子」を見つける研究をした。
癌研究は不正や間違いを防ぐため研究に用いたデータを公開する決まりがある。統計、AI、機械工学等の研究者がこれらの無料のデータを用いて、多くの研究論文を出した。これを筆者だけが、IPを用いた最適線形判別関数のRIPで解決した(Theory2)。しかし他の全ての研究が間違っている。こう断言できるのは、LSDを示す研究がない。さらに横長データ(n<p)のMicroarrayは、高校数学で習う「連立方程式の解」はp個からn個の変数を選ぶことで解が求まることに誰も気づかなかった。筆者の癌の遺伝子データ解析のTheory2(A-2)は、簡単にn変数以下の多くのLSDになる。その中の最小次元のLSDをBGSと呼ぶ。これは同じ遺伝子を対象とする山中4因子と似た概念である。医学研究でも、全くこのレベルまで指摘していない。
そして米国では、AIはこれらの間違った情報を利用して癌の診断ソフトが提供されている。これが明らかに間違った情報しかない場合のAI診断の欠点である。間違いを乗り越えた正解をAIは出せない。そしてIPを使った組み合わせ最適解を見つけることができない。人類の悲願のがん撲滅にとって問題が多い。
しかし日本の多くの出版社は、理工系の大学教員が学生の教科書需要が見込めるものしか出版しない。2016年に出版した[1]が日本語でないため、多くの日本人に次のような事実も共有されていない。
1.判別分析は、大学入試センター試験の数学ⅡBで合否判定できず、30%近くが誤分類される。しかし合否判定を50点の合格点で大門2問の得点で判別することを考える。線形判別関数LDFは、自明なLDF=T1+T2―49.5で、LDF>0で合格とLDF<0で不合格を判別できて、線形分離可能なデータ(Linearly Separable Data、LSD)である。また2次判別関数で、合格群が不合格群に全て誤判別される例がある。また普通車と小型車は、排出量と座席数の2つのBGSがLSDが分かる。身の回りにはLSDが多い。しかし筆者が初めて[1]で3種のLSDを扱った。これらの理工学研究始まって以来の不祥事は、専門家が検証すべき重要なテーマである。
2.統計ソフト等の評価データとして使われるスイス銀行紙幣の真札と偽札各100枚の有名なデータがある。これが真札と偽札の2群が6次元のデータ空間で正と負の判別スコアで2分割できLSDという筆者の研究も知られていない。2変数のX4とX6を含む16(=24)の判別モデルがLSDになり、残りの47モデルが誤分類数のNMが1以上の分析する必要のない雑音になる。そしてBGSと呼ぶ(X4、X6)が10重交差検証法の10個の検証標本の平均誤分類確率のM2が0で最小の2変数で最適なモデルになる。このように6変数の中で2変恣意のBGSが最小のM2=0になることは、「Occamのカミソリ」という統計モデルの変数選択の理想であったが、これ迄良い事例はなかった。
3.以上の普通のデータの判別理論で、高次元の169のMicroarrayのTheory2が簡単に完成した。筆者はLINGOと呼ぶMPソフトで4種類のProgramを開発した。使用法が分かればMPを知らなくてもMicroarrayを、高校生でも簡単に分析し、癌の遺伝子データ解析に貢献できる
NOTEが筆者の残り少ない人生で、多くの人に技術移転できる最適な媒体と考えた。視力が続く限り情報発信したい。

この記事が気に入ったらサポートをしてみませんか?