見出し画像

【数理的溢れ話18パス目】数学の背景にある根本原理は全部同じなのかもしれないが、人間が操れる数理には限りがあってそこまで辿り着けない?

コンピューター技術発達して、インターネット経由で多くの情報にアクセス可能となった今日、私達は多くの数式を気軽に手に入れられる様になり、しかも面倒な計算はコンピューターに投げれば済む様になりました。問題はこの環境をどう活用するか。例えば以下の様に普段の直感に沿うレベルまで噛み砕いて把握する事こそが難しい?

インターネットの発達が可視化した「セクショナリズム(Sectionalism)の壁」

まず出発点として統計学分野においては、初歩中の初歩とされる二項分布(Binomial Distribution)について考えてみましょう。

二項分布$${B(x;n,p)={}_nC_xp^x(1-p)^{n-x}}$$には、式そのものから読み取れる様に以下の性質があるとされています。

①式の右側$${p^x(1-p)^{n-x}}$$は、均等分割すなわち$${p=(1-p)=\frac{1}{2}}$$の時、$${\frac{1}{2^n}}$$に整理され、それが得られる最大値となる。分散(Variance)概念の出発点。ベイズ統計学における「理由不十分の原理(Principle of Insufficient Reason)」の適用ケース。

②式の左側は二項展開にあたって各項に現れる係数の集合たる二項係数$${{}_nC_x=\begin{pmatrix}n\\x\end{pmatrix}=\frac{n!}{x!(n-x)!}}$$である。これについて連続する整数nの各行にxを0からnまで順次並べるといわゆる「パスカルの三角形」となる。

③自明の場合として$${\frac{\sum_{x=0}^n{}_nC_x}{2^n}=1}$$。これは確率分布と考える事も出来て、その「主観的観測結果」はサンプルサイズnが大きくなるにつれ次第に正規分布に近づいていく。

ここで統計学初心者は突如として「実際の母集団の分布が正規分布であったとしても、サンプルサイズが十分な大きさに達するまでその検証は不可能で、頻度主義統計学はこの条件を満たさない主観的観測結果を扱わない」といった学際上のセクショナリズム(Sectionalism)の壁に突き当たる事になるのです。

どういう事かより具体的に見ていきましょう。

0の段(n=0)

二項演算$${(a+b)^0=1}$$の場合で、xの取り得る値も1通りしかありません。パスカルの三角形でいう一段目。a=内側、b=外側と考えて幾何学的イメージで捉えようとした場合の見え方は「いかなる分類(Classification)も不可能である様な状態」。

$$
二項式:(a+b)^0=1
$$

$$
確率分布:\frac{{}_0C_0}{2^0}=\frac{1}{1}=1
$$

1の段(n=1)

パスカルの三角形でいう二段目で取り得るxの値は2個。a=内側、b=外側と考えて幾何学的イメージで捉えようとした場合の見え方は「1次元の分類のみ可能な様な状態」。

$$
二項式:(a+b)^1=a+b
$$

$$
確率分布:\frac{{}_1C_0+{}_1C_1}{2^1}=\frac{1+1}{2}=\frac{2}{2}=1
$$

2の段(n=2)

パスカルの三角形でいう三段目で取り得るxの値は3個。a=内側、b=外側と考えて幾何学的イメージで捉えようとした場合の見え方は「2次元の分類が可能な様な状態」。

$$
二項式:(a+b)^2=a^2+2ab+b^2
$$

$$
確率分布:\frac{{}_2C_0+{}_2C_1+{}_2C_2}{2^2}=\frac{1+2+1}{4}=1
$$

ところで「連立方程式が解ける」とは、線形代数でいうと「対角化(Diagonalization)が可能」という事で、その条件は「(行の数と列の数が同じ)正方行列(Square Matrix)である事=式の数と変数の数が同じ連立方程式である事」。

$$
\begin{cases}

5x-4y+6z=8\\
7x-6y+10z=14\\
4x+9y+7z=74

\end{cases}
=\begin{bmatrix}
5 & -4 & 6& 8\\
7 & -6 & 10& 14\\
4 & 9 & 7& 74\
\end{bmatrix}
=\begin{bmatrix}
1 & 0 & 0& 2\\
0 & 1 & 0& 5\\
0 & 0 & 1& 3\
\end{bmatrix}
$$

すなわち「変数が最大二個の連立方程式」たる二項演算が扱うのはここまでで、それに立脚する線形代数はそれ以上高次の連立方程式や行列演算を「(時系列データや機械学習における特徴抽出といった限られた分野を除いて)原則として解きません」(プログラム言語に実装されている計算ライブラリーも突如として限定的なものに)。私は2017年から「数学再勉強」に取り掛かった未熟者なので、この事実を知った時本当に衝撃を受けたものです。

3の段(n=3)

パスカルの三角形でいう四段目で取り得るxの値は4個。a=内側、b=外側と考えて幾何学的イメージで捉えようとした場合の見え方は「3次元の分類が可能な様な状態」。

$$
二項式:(a+b)^3=a^3+3a^2b+3ab^2+b^3
$$

$$
確率分布:\frac{{}_3C_0+{}_3C_1+{}_3C_2+{}_3C_3}{2^3}=\frac{1+3+3+1}{8}=1
$$

原則として「カンブリア爆発期(5億4200万年前~5億3000万年前)に生物が授かった視覚と視覚情報を処理する脊髄の発展形」を用いて空間認識している我々が直感的に、すなわち「主観的に」幾何学的イメージで捉えられるのはここまで。ベン図で普通に表せる集合もここまで。だから色々考えたり図示したりする上で問題の変数を3以下に削減するのが極めて重要になってくる訳ですね。

4の段(n=4)

四次元以上の世界にようこそ。パスカルの三角形でいう五段目で取り得るxの値は5個。

$$
二項式:(a+b)^4=a^4+4a^3b+6a^2b^2+4ab^3+b^4
$$

$$
確率分布:\frac{{}_4C_0+{}_4C_1+{}_4C_2+{}_4C_3+{}_4C_4}{2^4}=\frac{1+4+6+4+1}{16}=1
$$

5の段(n=5)

パスカルの三角形でいう六段目で取り得るxの値は6個。

$$
二項式:(a+b)^5=a^5+5a^4b+10a^3b^2+10a^2b^3+5ab^4+b^5
$$

$$
確率分布:\frac{{}_5C_0+{}_5C_1+{}_5C_2+{}_5C_3+{}_5C_4+{}_5C_5}{2^5}=\frac{1+5+10+10+5+1}{32}=1
$$

「段々分布が正規分布に近付いていく」感じが見て取れますか?

Nが5個~10個となるとだいぶはっきりしてきます。あえて折れ線グラフで表示すると…

頻度主義統計学は真逆から考え「二項分布を正規分布で近似して良いのは、サンプルサイズnがnp>5かつn(1-p)>5の条件を満たす場合」と定めています。今回の様に期待値$${p=1-p=\frac{1}{2}}$$の場合だと$${\frac{10}{2}=5}$$すなわちサンプルサイズ10が最小で、出現確率に偏りが想定される場合には、それに合わせてさらにサンプルサイズを拡大しないといけません。なおこの時二項分布が対応するのは平均np、分散np(1-p)の正規分布となります。

  • 体感的にはサンプルサイズが「標本分散(Sample Variance)と普遍分散(Unbiased Variance)を峻別する意味がなくなる」サンプルサイズ3000くらいから区別する意義がなくなる感じ?人工知能形アルゴリズムに用いられる学習用データのサンプルサイズは軽くこの域を超えているので、最近の計算ライブラリーはむしろ「標本分散」をデフォルトとしているケースが多い模様。

  • なお比較したいサンプル(グループ)数が増えれば、必要な信頼度を確保する為にサンプルサイズをさらに増やさねばならない。次第に近づいてくる「組み合わせ爆発」の世界?

あれ?何の話をしてたんでしたっけ?そう「二項定理(Binomial Theorem)」なる数理、あまりに数学における基本中の基本なのでこの様な形で幾何学、(線形)代数、集合論、統計学とあらゆるジャンルを横断する形で出没するという次第。いやそれどころか数学の背景にある数理の大元は、もしかしたら全部一緒かもしれない?

  • ただしそれ故に二項定理は「ベン図は原則として三集団以上を表せない」「線形代数は二次元以上の高次配列を解かない」「代数的方法では五次方程式以上が解けない」「頻度主義統計学はサンプルサイズが一定以下の事象を扱えない」といった各ジャンルの「欠陥」を暴露する厄介な存在でもあり、だから関係者がそうした側面について可能な限り発言しない様に配慮しているという側面も?

  • 概ね人類が数理探索を途中で打ち切るのは、もっと便利な数理が発見された分野。逆に精緻化が進んだ分野では、突如としてここから複雑な発展があったりする。

そんな感じで以下続報…

いいなと思ったら応援しよう!