見出し画像

データ解析について語ろう!


「姫、今日は、真面目な話を堅苦しくなく話そうのコーナーです。」

「それも、データ解析?専門外じゃ!」

「ま、みんなそうです。専門家以外は、みんな専門外!」

「いや、そのな、数理統計学の専門家でないばかりでなく、統計科学の専門家ですらないんじゃよ、妾!」

「ま、ほとんどの人がそうですよね。」

「ま、で、ええんか?」

「今年は、データを多数集めた統計的な手法によるデータ解析が、ことの外、注目されましたね!」

「あの名前を言ってはいかん”アレ”の感染拡大のせいじゃろうなぁ。」

「もともと、データ解析は、理系の諸分野や数理的な経済学の分野ばかりでなく、もっと広がりをみせかけていた矢先じゃったのも大きいじゃろうな。」

「最近は、例えば、TBSの日曜の朝、”サンデーモーニング”なんかでも、4、5月の頃に比べて、統計的に処理された専門家の発言を割ときっちりと伝えようとしておるな。」

「例えば、最初の頃は、

1。”効果があるとは示されなかった”

2。”効果が無いと示された”

と誤解しているかのような発言が目立ったですね。」

「それは、多数のサンプルを二つに分けて、盲検法などを使ってテストした時の結果の判定方法を知らないからじゃろうな。」

「”試薬を使ったグループ”と”偽薬を使ったグループ”に分けて、効き目があったかどうかを数で比較するんですよね。」

「環境や設定、その他、まずは理学的にきちんと実験がデザインされた上で、その上で、さらに、盲検法として、定められた細かい規定があるんじゃが、それは、妾もよく知らぬので、割愛」

「結果の分布に偏りができるはずですよね。少なくとも、創薬の専門家が、なんか効き目ありそうだ!って思っているわけですから。」

「そうそう、それでな、その偏り具合が、偶然でも起きそうなくらいなのか?それとも、やっぱりその試薬が効いた所為なのか?確率的に決めようというのが基本的なアイデアじゃな!」

「で、さっきの1。は、その”偏り”が偶然起きてもおかしく無い程度しか見出されなかったってことじゃな。これまでのサンプル数やその他、今回デザインされたテストでは、ってことじゃが・・・。」

「今回のテストでは、ってことは、少し、工夫して、実験自体をデザインし直したり、サンプル数ももっと増やしたりして、やり直せば、何か違いが統計的に見つかるかもしれないって可能性はまだ残ってるわけですね?」

「そうじゃな。だから 1。なことは、2。を意味しない。」

「2。は、どういうことですか?」

「もっと、何か、具体的に効果の無いってことの具体的な証拠が見つかったということじゃな。まあ、普通に考えれば。」

「効果のないことを積極的に示す統計的な証拠を見つける実験など、普通しませんから、2。ってのは、もっと何か直接的な因果関係などから、ってことが多いですかね。」

「そうじゃな、因果関係が様々な副反応も込めて、はっきりするなんてほぼありえないけどな。」

「やはり統計的な相関関係を見て行くのがこのような場合、最善というわけですね。」

「相関関係とか、因果関係について、エクスキューズいただけますか?」

「因果関係というのは、原因と結果が論理的にはっきりとわかるということじゃな。単純な例なら、真空状態で、一様な重力の下、上向き、30度で、初速度時速120km /hで投げ上げたら、どこに着地するか?っていうこととかな、シンプルに法則を計算すればはっきりと結果がわかり、原因も特定できるじゃろ?」

「なるほど、で、相関関係というのは???」

「多数のサンプルを調査してみると、ある要素があるか、無いかで、結果の分布に統計的な処理をした上でも、はっきりと差がでる(有意差がある、という)とき、その要素と結果の分布の間には、”相関関係”があるという。」

「その要素が”原因”で、その結果の分布が、”結果”では無いんですか?」

「データ解析では、そこまではわからんよ、まあ、要するに、『相関があるなぁ!』ってことじゃな!極端な場合、結果の分布に効いている別の要素が、原因で、もともと前提とした要素が、その結果かもしれんじゃろう???」

「ふ〜ん、なんとなくはわかりますが、普通、相関があれば、因果がありそうですよね、でも。」

「まあ、そうじゃが、それは、別に、もう少し、演繹的な調べが必要じゃな。そこにある法則がしっかり、解明できるとかな、そうすれば、何が原因で、何が結果かははっきりとする。」

「まあ、しかし、人体に関わったり、社会現象などもそうですが、極端に複雑な現象ではそんな綺麗な法則は見つかりっこ無いのが普通でしょね。」

「まあ、だからこそ、データ解析が必要なわけじゃよ。単純な因果関係など、そう簡単にはわからない、けど、相関があれば、とりあえず注意したり、うまく利用したりもできうる」

「ふむ、なんか、”データ解析が最強”な気がしてきました。」

「そういう本、書いた人おるよ。」

「ああ、この方、シリーズで、たくさん出しておられますね!!」

「あ、そうかえ?当たったんじゃな!www」

「あはは、まあ、しかし、5、6年前から、データ解析が流行って、データセンターなどを、公機関や民間問わず、設立の動きが進んでいましたからね。」

「その上、その今回のその”名前を直接言ってはいかん悪魔”なヤツの所為で、その重要性の認識は確実になったとも言えるなぁ・・・。」

「ヴォルデモードとか、サウロンみたいなヤツですね。」

「そう!名前を言うてはいかんぞ、奴らは、ナノ・スケールの存在のくせに、その無い目で、いつも我らを見張っておる。不用意に名前を持ち出し、あまっさえバカにしているような奴らから、まず、やられる。」

「トランプさん、感染してましたよね。」

「こら、その人の名前も言うてはいかん!www」

「暴れてはりますよね。」

「サウロン並みに、な!w」

「しかし、軍事法廷まで行くと、合衆国ってのは、何が起きるかまだ、わかりませんね?」

「バイデンさんも、電気売って、のんびりとはしてられんなぁ。」

「国家反逆罪ってのは、重いんですよね、確か?はっきりと死刑になって、大統領特権もないって聞きます。」

「ま、それらの名前も口に出すのはやめよう!」

「はい、で、本題に戻って、っと。とりあえず、最初の一歩は、話しましたかね?」

「そうじゃな・・・。」

「そもそも、数理統計学の教科書なんかを見ていると、基本的な定理は、分布として現れる要素の数は無限個、それも、番号を打って行くことすらできないような多量の無限個ですよね。」

「実数全体ってのが、まず”非可算無限個”あるからな・・・。これは、番号を打つことはできるって言う意味の”可算無限”よりもさらにはるかに多い。」

「しかし、そもそも、無限てのが、究極の理想化ですよね。可算って言っても、本当に、最後まで、無限に番号は打てない。その前に、死にますから。」

「まあ、無限の長さの寿命を持つものなら、ってことじゃな。何かが、本当に無限個あるところを数えたものも、それどころか、見たものもおらんよ。数学ってのは、そこに最初の、大きなFICTIONを持っている。」

「これは、聖書なども共通の構造ですね。西洋人は、大きなFICTIONは、”公理”として仮定して、その周りを徹底的に論理的に無矛盾に、演繹的に理論を構成することを文化として、好みますよね。」

「そじゃな、構成された理論が分厚くなればなるほど、最初のFICTIONには、誰も言及しなくなって行く。唯一無二の”GODがいる”、それが彼らの文化の大きな最初のFICTIONじゃな。そこは、公理としておいておいて、その周りを徹底的に、理屈と修辞、そして、奇跡のエピソードで固めて行く。」

「さすがに、数学には奇跡のエピソードはありませんが、”無限個”の数(本当は自然数という。1,2,3,4,5,6, ・・・・・)を認めてしまうと、その後は、徹底的に、論理的な理屈で構成して行く。」

「解析学も、”連続性””微分可能性””積分可能性”などの無限個の要素が前提となった概念が、その一番底辺の基礎にあるんじゃよな。で、それを有限回の手続き、というか、操作で書くことが可能な議論の仕方(ε-δ論法など)を定め、その後、一歩一歩、構築して行く。」

「そうすることで、美しい構築物として、文化の構造物が残る。」

「データ解析の基礎にある、数理統計学の基礎定理なども、無限個の要素の存在を前提として、その分布の性質などを逐一、証明して行って、構築されたものじゃな。」

「理論は美しいですよね。」

「実際に観測して、蓄積できるデータは、有限個だから、そこのところの、ある意味、近似理論の精度のようなものを考える理論もあるけどな。」

「しかし、そもそものど真ん中に、”無限”にまつわる大きなFICTIONがある。」

「そこが、解析学のキモじゃよ。そこをないがしろにしては、文化そのものの冒涜ですらあるな。」

「役に立つ、立たない以前の、文化の中心概念とそのあり方はしっかり理解しておかないと、足元救われる”理屈屋”みたいな人々も出て来かねませんね。」

「その通り。少なくとも一定以上の高等教育機関では、アドホックなアプリケーション使用法や”役に立つ”議論ばかりにならないようにしなければな。」

「日本にも、和算などの伝統もありましたが、”便利手法”の体系化あたりまでで止まっていて、文化のそもそもの型がやはり異なるなぁって思います。」

「文化の生精神じゃ。」


参考:





いいなと思ったら応援しよう!