見出し画像

統計における哲学



Kazpeeさんの書かれたNote はとても重要なことをいくつか教えてくれていると思う。

1)データ分析における哲学

2)教育における哲学の重要さと教えることの難しさ


データ分析における哲学

哲学というと大仰な感じがするのであるが、データ分析における基本的な戦略である。それぞれのケースは千差万別で、様々なテクニックや異なる方法論、戦略が必要になるが、それらの方法論がどういった基本概念の上に成り立つかを規定したものである。つまずいたり、困ったときに立ち返って、そこから再度論理をくみ上げていく原点というべきものである。

Kazpeeさんの主張は、膨大なデーターの分析から有益なインサイトを得られることは少なく、仮説に基づく分析が効果的であるというものだったと思います(間違っていたらごめんなさい)。賛成。

統計モデルというものは、因子と結果(期待する結果)の間の相関関係をさします。因子は結果と何らかの関係性があるだろうと期待して集められたデータの属性のことなので、データを集めた段階である仮設に基づいて恣意的に決定されています。

ビッグデータの分析などでは、複数の因子と結果の関係を統計手法を使って分析していく。結果との関係性に対する分析者の自信度合いが異なる因子が複数集められる。自信の度合いを低いものから高いものまで取り揃えて分析すれば、思わぬ発見もあるかもしれないが、その分結果的にノイズも多いので、目的のモデルが複雑になりすぎる傾向となる。モデルの正確性よりも使い勝手を考えれば、因子は少ないほうが良いとする考え方(これも別の哲学(オッカムの剃刀))もある。また、データの収集や分析に関するコストも膨大となり、分析者はそのバランスを決めるのに苦労するだろう。Kazpeeさんの言う、

現場の人達がデータ分析という道具をうまく使う方法を習得できれば、データアナリストとは比べ物にならないほど高速に仮説検証サイクルを回せることは間違いない

は、まさにこのバランスの判断。統計的な厳密さと実用性のバランスを取ることは現場の人たちの専門性が物を言う場面であろう。(仮説を立てて、検証し、技術的判断で結論をつける。技術的判断とは、出てきたモデルの解釈のこと。単純な例では、N数が増えれば、技術的な観点では両者に違いがなくても、差があるとは言えないという統計的結論が出る場合がある。)

データ分析のアプローチの方法として2つの方法が提案されていた。

< データ分析アプローチ方法 >
1. データ探索型
2. 仮説検証型

”アプローチの方法”とあるように、そもそも統計分析(データ分析)は、因子と結果の相関関係を見出し意図的に因子を操作して、望ましい結果を得るという一連の方法論において、「相関関係を見出す」部分を担当する。

データ探索型は、実験的にコントロールはされていないデータに基づき、因子と結果の相関性を見出し(モデル化し)、モデルに基づき、因子を意図的に操作して、望ましい結果を得る。

一方で仮説型検証は、仮説モデルを用いて、実験的に因子の水準を振って因子と結果の間の相関関係を見出そうというアプローチである。仮説モデルは、既存のモデルの拡張(例えば下の図の点線で示した相関関係。統計モデルはデータのないところでは何も言えない。または「モノトーンの色の服を若い世代は身に着ける傾向が強いから、モノトーンの帽子が売れる」)が一般的かと思う。たまにオレ様がルール的なモデルもあるが。

両者の違いは、データの有無及びそのデータがコントロールされているかいないかかなぁ。統計的な検証の方法論には大きな違いはない。仮説型検証の場合は、そもそもデータがないのであるから、因子選びは極めて重要。コストに大きく影響する

画像1

哲学を教育で教える重要さと難しさ

統計はその方法論そのもの難しさや、いかにも数学的な厳密性をもって結果が示されることから、その数学的知識や方法論にどうしても目が行きがちなのであるが、忘れてはならないことが一つある。統計は道具なのである。刃物を使うときに、どう使うかよりもまず安全教育という哲学教育を行うように、道具を使う場合には哲学の教育は必須なのである。刃物を使って人を刺すという行為は社会的にはどういう意味があるのかを教えなければならない。

刃物の場合は、身近にあり、情報も多いので刃物を使う影響を想像しやすい。よってその哲学を学びやすい。統計は、使う場面を中・高校生では想像するのは困難な子たちが多いだろう。また大学生以上であっても、まず使い方を学んで、実践してと経験を積まなければ、知識として統計の哲学は理解できたとしても、哲学の重要さを身に染みて実感し、利用することは容易ではない。そもそも、統計学は数学の一部の学問として教えられており、それをどう使うかを教えるという観点はあったとしてもなかなか説明しきれていないかもしれない。

道具を使うという観点ではIT系も同じ。道具を使う場合は、道具を使う基本的な理屈(利益)とリスクの教育は必須であるが、哲学はそれを実感して初めて身につくので、教育の中で、特にInputが主体の教育で身に着けるのは難しいだろう。

そして、概して哲学はとても抽象的(ともすれば宗教的な盲目の信仰)であるから、それを理解できるかは、その理解できる論理性の習得、経験が必要である。一般社会ではそういった教育を受けていない世代が、まだ多数を占め、哲学を理解してもらうことは途轍もなく長い長い啓蒙と辛抱を強いられることを覚悟しなければならない。中高の教師はそういった経験を持っていない人たちが多いだろうから、リソースの面でもさらに哲学教育は難しだろう。

最後にベストな本かどうかは別として、技術者をやっていたころに勉強した一冊の統計の指南書を紹介する。一読の価値はあると思う。





よろしければサポートをお願いします。