数学夏祭りに参加8
数学夏祭りのHPはこちら
で、問題8。
前半を読む分にはそんなに難しくないだろう。もう少し先まで読み進めても、「95%の確率で」といったことが理解できれば、問題自体は理解できると思われる。
難しいのは最後のカッコ内で、これは問題の意味だけなんとなく分かればいい人にとっては、そんなに重要なものではない。無視しよう(解く人には極めて重要で、今回の議論にも関わってくる)。
さて、今回の問題には、やや不満が残る。
というのは
「答えが2つある!」
のである。
国語の問題ではないのに。
「何回以上測定すればいいか」
というはっきりと数字で答えが出るはずの問題である。なのに2つの答えを正解としているのだ。
難易度も星8つなので、そうとう難しいものと覚悟したが、どうも正解とされているものを見るに、普通の解答であり、ひねりはない。すべて「金」に関係している問題ということで、アルキメデスと金の王冠のエピソードを思い起こさせる、という点が工夫されているくらいだ。
今は高校数学で扱わない統計の話なので大学生以上の問題ということにはなるが、それは知識を要するというだけで、数学の問題として難しいわけではない。
どうもしっくりこない。やっぱり答えは1つだろう。
実はこの問題については、解釈が分かれるだろうな、と思っていた。中には答えを2つ出した解答者もいたようだ。悩んだ分、余計な時間もかかったことだろう。私なんかまだ考えている。
さあ、こっから先は万人向けに書く自信はない(すでにここまででさえ妻に見放された(統計を教えている人なのに))。珍しく動画も、バリバリの解説になってしまった。まあよい。できるだけ平易に説明するよう意識はしてみよう。
この問題は、「母分散が未知、誤差は正規分布に従う」というタイプのものに分類される。「未知」が「既知」になったり、「従う」が従わないになったりでタイプ分けも変わり、解きかたが変わる。
さて「母分散が未知、誤差は正規分布に従う」という問題を考えるときには、t 分布というありがたい数式を使えばよいことになっている。
ただしそうするのは、データの数が30までである。たいてい、データの数が30を越えると、t 分布は使わない。なぜ使わないかというと、「正規分布」というもっともっとありがたい「分布」を使えるからである。
ただ、ちょっと待ったである。t 分布は使っていけないわけではない。計算が大変だから、正規分布で近似しているのである。近似というのはまがいものである。厳密には違う、ということである。
むろん、答えに差が出ない程度に近似されているのであれば文句はない。だが、見事なまでに差が出てしまった。少数第一位を切り上げて答えよ、ということは、解答の精度を1より小さくせよということである。1つも2つも離れた答えがあっては困るのである。
だからデータが30以上であろうが、ここは t 分布を使うのである。
どういう手法を使うかで答えが2つになるなんてことは、一般の数学ではあり得ない。どう解いても同じ答えになる。
統計学というのが、数学の応用分野なのでこのようなことが平気で起こるのだろう。たしかに実用の上ではそこまで細かいことを気にする必要はない。
ただ、重さを測るという作業を気が遠くなるほど繰り返すとする。例えば382回測定することを1セットとして、それを延々何万、何億セットやるとする。すると
「382回測定したときに平均が実際の重さと誤差1g未満になる」
という割合が何パーセントかを求めることができる。では381回では?383回では何パーセント?という風にたしかめていけば、答えは1つになる(厳密には無限セット試す必要はあるが)。
その1つの答えを、無限の試行ではなく計算でもって求めることは可能なはずなのである。
ここまでの論が本当に正しいか、私も正直なところ自信はない。考えすぎると解けないという例なのか?
優れた人が「いや、これはね・・」と教えてくれたとしても、それを理解できる自信もまたないのであるが。