
トレイルランナーとスノーボードと筋肉痛から始まる“条件付き確率“
YEAR IN SPORT 2021
STRAVAアプリには、1年間を振り返る機能がある。
YEAR IN SPORT では、アクティビティの合計タイム、距離、標高、日数などを振り返ることができる。

これによると、アクティビティの70%がランニングだったことがわかる。続いてヨガの12%に、ウォーキングの8%、その他はサイクリング、スノーボード、ハイキングなんかが含まれる。アプリ内の表示が2020年なのは気のせいでしょう😷
カラダはランニング仕様?!
ウィンターシーズンがやってくると、ランニング < ウィンタースポーツ が成り立つ。
ここで、見出し画像の一枚。2022年1月1日に、今シーズン初めてのスノーボードに行ってきた。

ゴンドラ7回乗ったこともアプリで拾ってくれる。
ランニングばかりのカラダで、スノボをやるとどうなるか…
答えは、激しい筋肉痛。
車の乗降や玄関で靴の履き脱ぎすると、容赦なく襲ってくる激痛。
筋肉痛から始まる“条件付き確率“
翌日も筋肉痛
翌々日も筋肉痛
やれることといったら、アクティブレスト
初売りでウォーキング
初詣でウォーキング
そしたらあとは、データサイエンティスト検定の勉強するか…という流れ。
書籍「最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック」が手元にないと伝わりにくいかもしれません。悪しからず…
「DS2条件付き確率の意味を説明できる」を説明できるようになろう。
条件付き確率とは「ある事象が起こる条件の下で、別の事象が起こる確率」
例題として、遺伝子Bを持つ時に病気Aにかかる確率を計算してみましょう。というのが書いてある。
$${P(A{_1}|B{_1})={\cfrac{P(A{_1}{\cap}B{_1})}{P(B{_1})}}}$$ って定義式が与えられるのだが、この先でつまずく。
(正確にはこの定義式をnoteで表現するところでもかなりつまずいていますが、なんとか一歩進めました😅)
公式リファレンスブックに書かれている式には続きがある。
$${\cfrac{P(A{_1}{\cap}B{_1})}{P(B{_1})}}$$=$${\cfrac{\cfrac{750}{2000}}{\cfrac{1000}{2000}}}$$
分母はわかるよ。
$${P(B{_1})}$$
全体で2000人いて、遺伝子Bを持つ人が1000人。
分子の$${\cfrac{750}{2000}}$$とは???
定義式的には$${P(A{_1}{\cap}B{_1})}$$が与えられている。
公式リファレンスブックは、初心者、初学者にはハードル高し。
そもそも「$${A{_1}}$$かつ$${B{_1}}$$」が、$${\cfrac{750}{2000}}$$ とは???
ネットで「条件付き確率」で検索すると、“わかりやすく“とか、“基礎からの“とかのキーワードを含む検索結果が出てくる。
わかったような気になりますが、当てはめることができない。
そこで、高校2年生の息子に教えてもらうことにしました。
『公式を意識したことがない。図を書けばいいんだよ。』
ブルース・リーの”Don’t think, feel!”あるいはヨーダの”Use the force. Feel it.”が頭をよぎる。
$${P(A{\cap}B)}$$は理論積 intersection
$${P(A{\cup}B)}$$は理論和 union
出典:Head First Statistics ―頭とからだで覚える統計の基本
知っている人には説明がいらないが、知らない人には説明のしようがない
これは、「わかりやすい医学統計の報告-医学論文作成のためのガイドライン」の著者のひとりThomas A. Langの言葉。
条件付き確率に限らず、往々にして成立する名言だと思っている。

結局、理論積ということで納得することにした。
2000人のうち遺伝子Bを持つ人が1000人います。
$${\cfrac{1000}{2000}}$$
この1000人のうち750人が病気Aにかかります。
$${\cfrac{750}{1000}}$$
で、これらの理論積が $${{\cfrac{1000}{2000}}{\times}{\cfrac{750}{1000}}}$$ となって
こうゆう $${\cfrac{750}{2000}}$$ に落ち着くということですね。
筋肉痛になってなかったら、ここまで辿り着けてない。
ありがとう 筋肉痛
でも、実業務で例題と同じ場面に出くわしたら…
エクセルなんかに2000人分のデータがあって
フィルタリングで遺伝子Bの人に絞ってデータの個数は1000
さらに病気Aにかかる人に絞ってデータの個数は750
遺伝子Bを持つ時に病気Aにかかる確率は、 $${\cfrac{750}{1000}}$$ ってなるでしょう。
定義式いらない
Don’t think, feel!
Use the force. Feel it.
あっ!! そうそう。息子は独立なのか従属なのか言ってたな。
この場合は独立だ。
遺伝子Bと病気Aは”医学的”に付随する関係性にあっても、”条件付き確率”的には独立してる。
従属の話は公式リファレンスブックのDS2には登場しないのでここでは触れないことにする。
本日のまとめ
「知っている人には説明がいらないが、知らない人には説明のしようがない」