見出し画像

AI2nd#3ふりかえり(統計入門)

今日もお読みいただきありがとうございます。
子のインフルも回復しなんとか第1週をリアタイ受講しきれました。


みんな大好き統計学(白目)

01質問回答コーナー

A:プロンプトの入力は、訓練して慣れる必要があります。
より良い文章にするためにどうすればいいですか?とアドバイスを求めるのも手です。

A:対象の人の仕事をよく観察して、作業を細かく棚卸しすることが、機械に任せることにつながると思います。

A:キーボードで入力すること自体が人間同士の会話とは違うので、音声入力でやることもおススメします。
(自分が考えている間にAIがしゃべり始めてしまう⇒カンパ先生豆知識:えーーーーーーっと「時間稼ぎ」できますよ(音声を入力しつづける))

02 統計学とは

みなさん知っていますね、最強の学問です。
(最強はいくつあってもいいですがw)

↑参考図書(今日の内容もたっぷり出てきます)

そもそも、本講座のメインテーマであるAIも言語の統計学からできあがっている技術ですし、理論的な正しさを証明することについては学問としても強い武器になります。また、本講座ではデータの正しい扱い方(偏ったデータに踊らされない)を身につけてもらいたいのです。主観や思い込みを排除して、誰もが意思決定に正しく活用できる学問であるので、覚えてもらいたいです。属人的な「カン」「コツ」を排して意思決定に用いることができる学問なのです。
数字はうそをつかないが、嘘つきは数字を使う

統計学とはつまり

さて、デジタル世界においては「試行錯誤がしやすい」点で強みがあります。アナログ世界(チラシ・ポスター)に比べ、ローコストで試せてやり直せる点です。ほぼ無料でできる広告もあるので、統計学の性質にぴったりなのです。
実際、世界のトップ企業の上位がほとんどデジタル技術企業です。売上のほとんどがアルゴリズムを活かしてユーザーにおススメとして繰り返し示されることで、繰り返しの購入につながっている。

今までは一人のアイデア(コピーライターなど)で売上に貢献していたものが、統計学の力を活用することで、誰でも手に入れられる時代になっているのです。

03 統計学の実績

ナイチンゲールの大きな功績は、統計学を用いて本国政府に戦地医療の重要性を理解させた点にあります。
(まとめてくださった方が下記にいらっしゃいました。)

イギリスにおけるコレラとの闘い

「ぼくたちの考えたさいきょうの対策!!」

もちろん、現代なら間違いであると感づきそうですが、当時は未知のウイルスに対しての知見もなかったため、「臭気に病原体がいるはずだ」と大真面目に信じられていたのです。

統計学の登場!!

泥臭く地道に聞き取り調査を行った結果、川からの取水地点が
<会社B:上流>or<会社A:下流>
によって明確な差があることがはっきりとわかった。当時もお医者さんもたくさんの知識がある方はいたものの、主観によって仮定できる範囲が狭まっていた。

仮定をどのタイミングで建てるのかは重要で、プロジェクトのあまりに早いタイミングで仮説を固めてしまうと視野狭窄につながるリスクもある。トレードオフの関係にあるかもしれません。
実際に案件を手掛けている中では、作業時間のうち9割はデータ集めとクレンジングが占めています。集めるデータが不足すると原因が見えなくなることもあります。
(クレンジングとは、データを統計的に分析できる形に整えること)

いずくね先生

必須:「統計学的に使えないデータはゴミ」

04 正しいデータの扱い方について

前章で解説したように、統計のデータを用いて根拠を持たせることはメディアでも行われているが、恣意的にグラフをゆがめられている例もあるので我々も気をつけてグラフを取り扱う必要があります。

(例題)割合グラフ
これを見て、20代の自殺が多い、〇か×か?

賢いみなさんならわかるように、「割合」だけを示したグラフなので、普通の人には誤解を招く可能性がある。

(例題2)平均値と中央値の違いについて

中央値とは、下からも上からも半分の数値であるため集合の全体の雰囲気を把握するのには便利です。

データを用いた適切な分析過程

統計を用いるのは、「明確な目的」をもってデータを分析する際に使います。すべてを学ぶには膨大な時間を要するので、次章から押さえて欲しい重要な手法を説明します。

05 絶対に覚えたい統計手法


この2つについて説明します

05-1 推定

全体の把握が困難なものについて、限りあるデータから全体の傾向をつかもうとする手法(ex.選挙の出口調査)

例題:新商品開発においてランダムで選んだ10人にアンケートを実施したが、その結果は信頼できるのか?

母集団とは(数かぎりない)顧客の候補全体を指す

上記の例題について実技コーナーをやってみます。
(裏側でプログラムをまわせるモデル必須)

信頼区間とは・・・?

信頼区間とは、「母集団の平均値」が95%の確率で2.87~4.53に収まるという意味です。
⇒より狭い範囲にしたいときには、サンプルデータ数を増やせばよいです。

台風の予報円も信頼区間の考え方から書かれています。
天気予報も似ていて、5%の確率で外れるのです。

Q:上司などに説明する際は上手く説明できるか不安です。
A:相手のリテラシーにもよるが「95%くらい確かです。」とかみ砕いて説明したり、説明の方法についてchatGPTにアイデアを出してもらうのも手です。

05-2 仮説検定

ワクチンの効果はあるのか試験

上記であれば、「新薬に効果があるのか」で仮説を確かめます。
さっそく実技コーナー

効果があるという可能性!(修正版)
p値:たまたまである可能性(ざっくり)

背理法を用いて、p値が0.05以下になると「たまたまじゃない」という結論になります。異なる数値になった際には、検定手法が違ったり、計算ミスだったり、標本数の少なさも影響していると思われます。

(いずくね先生)大事なのは、統計的な考え方の流れを知ることです。
(カンパ先生)Googleレファレンスなどで検定方法を参照させたうえで精度をあげる方法が時間はかかるけど確実です。o1シリーズでは、別の検定から検算させることもできるので、信頼性を上げられます。
(いずくね先生)因果検定のシーンでも活用できて、「気温」「売上」を渡して関係性を求めてもらう、ということも考えられる。某社では、分析した結果、意外でもない真因がわかった。「カン」「コツ」を裏付けしたり裏返せるのは統計の楽しさです。

06 関数

AIの仕組みに関わる部分です。エクセルシートでの数式もそうですね。

典型的な関数

「何かの数字」を入れたら、「何かの数字」になる仕組みを関数といいます。(基礎)
実はこれは、「AIの一番簡単な姿」なのです。中の関数がとても複雑なだけで、言語や画像を入力して、求める文書や画像としてアウトプットしてくれる。

この概念を応用して、人間がやっている仕事も「何をインプット」して「何をアウトプット」するのかを観察するのが大事になってきます。

07 感想

参考図書を読んでいたため、かなり統計の章をすんなり理解できた。(安心)
最後に、人間の機能を分解して機械に代用させるという講座の根本的な哲学も確認できて、腑に落ちました。
業務の棚卸し、組織内でも進めていきたいところ。

いいなと思ったら応援しよう!