AI2nd　day3　統計学

専攻医2025

2025年1月18日 14:33

day2　Q/A

・プロンプト作成のコツ：基本的に投げかける情報が少なくて困ることはあれど、多すぎて困ることはない。まずはできるだけ前提条件を詳細に伝える、その上でどのようなoutputをこちらが求めているかもしっかり言語化して伝えることが重要。
あるいは、chatgptに質問させてしまうことも1つ。「〜したいんだけど、そのために必要なことは何かな？」と。

・仕事は人間のinputとoutputの連続である。inputは視覚情報や聴覚情報など、あらゆるデータ。それらをもとに、都度判断している。その結果がoutput。これを観察してみることで要素ごとに分解し、一部をAIに行わせるというイメージ。

・chatgptの音声入力は有用。

day3　本題

統計学

統計学の考え方：データに基づいた意思決定ができることが目的。

データの活用について：

データ、情報、知識はそれぞれ異なるということ。

例：ある施設では出入館の時にアプリを用いてチェックイン、チェックアウトを行っている。このとき、
入館/出館の時刻：データ
時刻をグラフや表にまとめてわかりやすくしたもの：情報
その情報を見ると、「平日は夕方〜夜の出入りが多い」「9〜10月に入館者が多い」といった解釈ができる：知識
9〜10月に入館者が多いのは、おそらく〇〇な理由からで：洞察
より多くの入館者数を増やす（9〜10月の入館者数を増やす、あるいはベースの入館者数を増やす）ためには××なアプローチが有効ではないか：知恵

まずはデータを集めることが必要。集めたデータをもとに情報を得て知識を手に入れ、解釈をする。そして洞察と知恵を作る。
そのうえで、仮説を立てる。そして仮説が正しいかどうかを検証する。
データを集めるための時間と、仮説を立てて実際に検証するための時間。作業時間としては、全体のうち前者が9割を占める。なぜなら、データは「使える形で」収集する必要があり、多くの場合は最初そういった形では残っていないから。

そしてこれらの作業を通じて重要なのは、
主観的な経験や感覚にとらわれず、エゴを殺して、客観的に状況を把握する力。これがなかなか難しい。

実際に検証するための方法（統計手法）

１：推定　限られたデータから全体像を把握する
例：ある新商品を開発、一部の人に商品アンケートを行った。そのアンケート結果は市場全体に適用できると判断してよいか？

そこで出てくる概念が、母平均と信頼区間。
母平均：顧客候補となる対象全員（母集団）の平均値。
しかし現実的には全員のデータを集めることは不可能。そのため、抽出された標本のデータの平均をもって母平均を推定。

信頼区間：「母平均がこの範囲のどこかにあるか」を推定するための区間。
商品アンケートを行った結果、「商品の評価は10点満点中6〜7点の間に収まると95%の確信を持てる」となれば、これが95%信頼区間。
例えば、ある学校の生徒100人からデータを集めた結果、「平均身長が150cm～160cmの間にあると95%の確信を持てる」とわかった場合、これが信頼区間です。

信頼区間は、「標本をたくさん集めたら、95%の確率で母平均がこの区間に入る」という意味。

２：仮設検定　データから仮説が正しいかどうかを判断する

以下2つの仮説を立て、帰無仮説を否定する（棄却する）ことで、対立仮説が正しいかを判断。

帰無仮説：「何も変化がない」または「効果がない」という仮説。

対立仮説：帰無仮説に対して「変化がある」または「効果がある」という仮説。

以下にステップを示す。

ステップ1: 仮説を立てる

例: 新しい薬が従来の薬よりも治療日数を短縮するかを調べたい。
- 帰無仮説 : 新しい薬と従来の薬で治療日数の平均は同じ。
- 対立仮説: 新しい薬のほうが治療日数の平均が短い。

ステップ2: 有意水準 (α) を設定

通常、α=0.05（5%）とする。
「偶然で結果が生じた可能性をどれだけ許容するか」を表す。偶然でこの結果が得られる確率が5%以下であれば、帰無仮説を棄却する。

ステップ3: p値を求める

p値は、帰無仮説が正しいと仮定した場合に、データが観測される確率を表す。
- 例: p値が0.03なら、「帰無仮説が正しいとすると、今回の結果が偶然に起こる確率は3%」。

ステップ4: 帰無仮説を判断する

p値と有意水準を比較して結論を出す。
- p≤α: 帰無仮説を棄却（効果があると判断）。
- p>α: 帰無仮説を棄却しない（効果があるとは言えない）。

AIは関数の1つである

関数とは：何かしらのinputに対して、outputを出す変換装置。

例：y=2x-2という関数であれば、「x=1」というinputに対して「y=0」というoutputが出力される。

AIも同じである。何かを入力することで、何かが出力される。

ゆえに、AIも関数の1つ。この考え方は非常に重要。
これは先ほどの「仕事はinputとoutputの連続」という考え方につながる。
仕事を要素ごとに分解して、関数であるAIを用いてそれぞれのinputとoutputをAIに代替させていく。AIは関数という考え方の延長線上に、仕事へのAI導入/代替という考え方があるのだ。

AI2nd day3 統計学

day2 Q/A

day3 本題

統計学