4-2 試験の合否判定データ:2010年から2012年の筆者の統計入門の10択100問の合否判定
自己紹介
1971年から種々の判別データで4つの問題を見つけ、3つの事実で最小誤分類数基準の最適線形判別関数のRIPを開発した。そして4種の普通の線形分離可能データ(LSD)と169の高次元のMicroarrayがLSDである事を世界で初めて実証研究で示した。そして3冊のSpringerの本を出版し、革新的な判別理論の骨子を分かり易く説明した。
目次
4-2.1 大学センター試験の再挑戦
4-2.2 4大問の分類と症例数の不均衡によるRIPの自明な判別係数への影響
4-2.3 BGSとSMの10重CVのM2による評価
4-2.4 大学と企業は合否判定の質をあげる必要がある
4-2.1 大学センター試験の再挑戦
大学入試センター試験の13教科の本問と予備問に関する3つの論文を、朝日新聞のリーク記事で取り下げることになった。文部省の関係者が、大学教員の研究を妨げることに納得できなかった。しかし直ぐに2010年から2012年の筆者の統計入門の10択100問の合否判定で再挑戦する事にした。
受講生は経済学部の1年生の名簿の最初の約130人である。これ迄、マークシート試験はしてこなかったが、センター試験のできるだけ再現を狙った。その概要は次の通りである。
1. 授業で教えた全ての基本的な知識を4例*2変数の1桁の整数値データ(4*2)で基本統計量や相関を暗算で求めることや、2*2の分割表とχ2検定、単回帰分析の分散分析表の計算。そして学生のデータ(40*6)をJMPで分析した重要な解釈が中心である。授業で教えた内容そのままである。学生が試験問題の山を張るような無駄な試みをすることは、基礎科目にとって間違いである。
2. 設問は10択100問である。10択にしたのは、試験問題の整数値データ(4*2)は毎回変えるが、他は同じ内容であり、前年の正解の丸暗記を避けるためである。
3. 100問をセンター試験に習い、大問4問のT1、T2、T3とT4に分けた。この順に理解の難易度が上がると考えたが、今回の分析で間違いである事が分かった。多くの教員は、設問が多いほど合否判定に関係すると考える。しかし、数組の少数の設問のBGSで合否判定ができることが分かった。
4. センター試験の分析と同じく、得点分布の90%、50%、10%点で合否判定の研究を行った。90%点は、優秀な学生の検討に用いた。50%点は、判別超平面の前後に多くの学生がきて、1点差の違いで多くの学生の合否判定が異なる。この問題の検討は十分行っていないが、全ての試験を考える上で重要なテーマである。
5. 実際の合否判定は、入門科目であるので10%点である。これだけは、出席点などで加点修正した。2024年のSpringerの執筆でこれを10重CVの検証標本の平均Error RateのM2で評価したが90%と50%に比べてBGSの結果が悪かった。出席点の修正の痕跡がM2で分かり驚いた。
6. 試験後直ぐにマークシート・データを分析した。そして、各学生に自己の得点と全体の得点分布の合否判定得点をメールし、自分が合格したか不合格したかを自己判断させた。少なくとも表紙の得点分布の10%の値を読み取り、自己得点で合否判定する必要がある。
7. 3年間の中間と期末の100問と大問4問の試験結果を、統計的に詳しく年次比較を行った。しかし年次の違いより、合格点の90%、50%、10%の違いの方が顕著である。
以上の結果は、年2回刊行の「成蹊大学経済学部論集」に毎回執筆した。恐らく図書館のレポジトリーとして見ることができる。また計算機統計学会(JSCS)やSASユーザー会等の発表や論文がある。
4-2.2 4大問の分類と症例数の不均衡によるRIPの自明な判別係数への影響
詳細な統計分析の結果はSpringer3を参照してほしい。この記事では、2つのトピックスを紹介する。
授業のテキストは、4件2変数の整数値データと「学生のアンケートデータ(40*6)」を用いて解説した「JMP活用統計学とっておき勉強法(講談社Blue Backs、2004)」である。本の内容は、表4.1に示す4大問に対応した内容になっている。そして、この順に学生の理解が難しくなり合否判定に影響すると考えたが、違っていた。
既に大学入試センターの4章で示した用に、合格点が 50 点の場合は次の自明なLDFを簡単に定義できる。
LDF=T1+T2+T3+T4-49.5 ………(4.1)
表紙の得点分布の2012年の中間の結果を示す。分析に用いた合否判定は、90%点の88点、50%点の63点、10%点の37点を用いた。実際の合否判定は10%点を参考に、出席点等を加味して合格者は増やした。
Springer3の表4.8が、分析結果の一部である。50%点の63点以上の67人を合格、62点以下の57人を不合格とした。4つのRIPの判別係数は全て2であり、定数項の125を2で割ると62.5とほぼ63に等しい。これは、2群がほぼ同数で不均衡でないことを示すが、全ての均衡なデータの判別でこのような綺麗に結果になるかはわからない。
90%点と10%点は4つの係数が異なるが、明らかに定数項は自明な88と37ではない。この事実は、判別分析に用いる次の医学診断の「症例設計の3原則」の原則2を満たすことが望ましいことを示す。この3原則は、1971年から大阪成人病センターで、大阪府の癌の疫学データのデータ解析を鈴木医師と行った際に、米国の医学部に留学して習得された医学統計の話の一つである。一般のデータ解析にも適用される。
自画自賛になるが、表4.8ほど3原則を満たす事の重要性を示す見事で分かり易い事実はこれ迄なかった。多くの医学診断では、この3原則を守っている。何故か癌の遺伝子データ解析では守られていない大きな問題がある。
原則1:疾病群はできれば正常群をコントロール群とした対比で最初に行うことが望ましい。その後で、異なった疾病の判別をすべきである。
原則2:2群はできるだけ同数が望ましい。不均質なデータの問題は統計的に種々指摘されている。
原則3:症例数はできるだけ多い方が良い。これは推測統計学にとってnが増えると標準誤差が小さくなり推定の精度が良くなるからである。
しかし癌の遺伝子データ解析では、原則1を満たさない「異なった2種の癌」のデータが多い。原則1を満たしても検査費用が高いので、正常群が異常に少ない原則2を満たさない研究が多い。原則3は、検査費用が高いことが関係するが症例数が20例から100例以下が多く、最大357例程度である。しかし筆者の169のMicroarrayの分析から、原則3は中規模な60症例程度の方が重要な多変量の癌遺伝子の候補が得られる事が分かった。この新原則3に置き換えたのが、Springer3で紹介する「癌の症例設計の3原則」である。
4-2.3 BGSとSMの10重CVのM2による評価
ここでは、2012年の中間試験の100問の90%点の重要な結果を示す。ただし世界初のLSDの理論(Theoeory3)に関して27の新しい画期的な知識、発見と技術を見つけた。最小誤分類数のMNMを見つけるRIPのアルゴリズムと、それで開発した4つのProgramの詳細はまだ説明しない。その役割だけを次の説明で理解してほしい。
左は、Program1のRIPで100問を判別して、MNM=0でLSDである事が分かった。驚くことに、RIPはVar1に示す90問の判別係数だけが非零で、MNM=0のLSDであるSM1を求めた。即ち判別するだけで、同時に変数選択が行える。この様な斬新な機能は、RIPのアルゴリズムの説明で分かるが、ここでは行わない。これはTheory3のLSDの判別理論で最も基本的なRevolution1である。MNMは0でLSDを意味する。CPUは1秒以下である。RatioSVは2つのSupport Vector間の距離を2に固定していて、RIPの判別スコアの範囲で割った35.7%である。一般に合否判定は1点差で分かれ、もし成績が0点から100点にばらつけば1%になる。35.7%は非常に大きいことを示す。この90問を省いた残りの10問はMNM=6で、6名が誤判別される。
次にProgram4のRIPで再び100問を判別し最小次元のLSDであるBGS1が19秒で求まりRatioSVは10%である。判別得点の範囲が、その幅の10%の幅で2群がきれいに分かれた状態である。これが僅か8問で合否判定が行える。残りの92問をProgram4のRIPで判別し11問のBGS2が求まる。RatioSVは3.45%と小さくなる。以下同じく13問のBGS3, 16問のBGS4, 13問のBGS5になる。残りの37問を判別してもMMN=6で6人が誤判別されType-2のbgs6になる。
合否判定データは、他の普通のLSDと異なり3個以上のType-1のBGSに分割され、Microarrayの結果と似ている。
右の表は、BGS1がたった8問で合否判定できるLSDで、10重CVの平均誤分類確率のM2が唯一0%と一番判別結果が良いことを示す。重回帰分析や判別分析の良いモデルとして、オッカムの剃刀あるいはけちの原理といわれるスコラ哲学に起源があるといわれる原理である。しかしこの原理を最近の統計書では見られない。それは、誰も具体的な事例を示さなかったためである。少なくともSpringer3で分析したLSDで、BGS1が最小次元のLSDで最もM2が小さいことを示した。
ただし、10%点では6個のLSDのBGSがある。BGS1は13変数でM2=0.6%と0でない。そして14変数のBGS3のM2が0.4%と一番小さかった。これは少なくとも筆者が分析した中で、BGS1のM2が0でなく、BGS3のM2の方が僅かに小さい唯一の事例である。これは明らかに出席の良い学生を合格にしたことが原因と考える。
4-2.4 大学と企業は合否判定の質をあげる必要がある
10年一日のように行われてきた、マーク試験の大学入試や各教員の試験問題、あるいは企業の倒産の予測や各種格付けなどは、この記事で扱った2つのProgramの使用法が分かれば、確実に試験問題の質の向上が期待できる。そして、科学的な教育工学の重要な未開拓の研究テーマである。
必要であれば、立ち上げの協力は可能である。
しかし「人生塞翁が馬」とか「七転び八起き」とか良く言ったものである。大学入試センターの朝日新聞のリーク記事がきっかけで、論文3編を取り下げた。しかし、この不幸がなく合否判定の狭い視野でその後の研究を行うより、169のMicroarrayという世界中の統計、機械学習、AIやパタン認識の研究が1995年以来間違った研究を行ってきた。それが、2015年までの普通の4つのLSDの研究成果を発展させ、分散共分散行列による判別理論を超えた「LSDの判別理論」を完成した。その技術で、普通の4つのLSDを見直した結果は、恐らく筆者のような通常の理工学研究者では不可能であっただろう。
実は数理計画法と統計の世界最先端のソフトで実証研究できることが真のDat Scientistと言ってきた。あまり言いたくないが、この2つを兼ね備えたStamが1977年にNon-traditional approaches to statistical classifications: Some perspectives on Lp-norm methods.を権威ある米国のOR学会誌に発表した。それまで300以上の数理計画法の判別モデルを総括し、研究の終焉を告げる総括論文である。筆者は1998年に最初のOLDFの論文を発表し、Linusシカゴ大学教授(当時)に、米国のOR誌かもう一つのORの学会誌のInformsに投稿できないかと尋ねた。暫く考えてStamの論文を示し、ORの世界ではこのテーマは終焉したといわれた。色々調べて彼に「これらの研究は単に統計の判別理論をまねてMPでも定式化できるという志が低いものである。計算時間がかかるがIPで誤分類数NMを最少化していない」といって研究を継続した。そして2023年に漸く完成した。
今後は、視力に負担のかかる実証研究はやめて、研究の成果を志ある人に普及していきたい。
この記事が気に入ったらサポートをしてみませんか?