昨日は離散の確率変数に対する代表的な確率分布と応用例を学んだ。 捕獲再捕獲法で利用される超幾何分布、ネット販売のコンバージョンなどの推定で用いられる二項分布(ベルヌーイ分布)、事故遭遇や不動産の売れる確率などで使われるポアソン分布、結果が出るまで試行し続ける場合を考える幾何分布と負の二項分布、一様確立の場合の一様分布。 今日はこれに引き続き、連続な変数における分布を学ぶ。 今日の教材もいつものこちら。 正規分布(ガウス分布)最も代表的な連続型の確率分布。自然界、人間界
毎日少しずつ勉強を続けて統計検定2級合格を目指すこちらのコーナー。あくまで個人的な学習ノートなので分かりやすい解説はありません。 さて、今日もこちらの教材を読み進めます。 今回は第6章。これまで学んできた確率分布を実際の統計分析に適応するため、実例に照らし合わせつつ代表的な確率分布を紹介している。 超幾何分布2種類のA,BからなるN個の集団から勝手にn個を取り出したときの確率分布の分布である。この確率分布はM,N,x,nを用いて組み合わせの計算で与えられる。また、取り出
今日は教材を使った学習というよりかは、少し頭の整理を兼ねた日記にしようと思う。 今日は昼間に統計検定の話を会社のメンバーとした。私はいま2級を目指してやっているが、どうやら同僚は1級を目指しているらしい。(なお一級は記述もあるのでコロナ影響でしばらく実施なしとのこと)話を聞いてみても1級はもはや研究者レベルのようで、ビジネスを目的にするのなら2級くらいまでがちょうどいいのでは?とのことだった。 それを聞いてやる気が出てきた。 今のところはやはりビジネスシーンで効く資格と
駆け込みで今日のノートである。今日で休みが終わり明日から日常が始まるため、明日からはもう少しマシな学習内容の更新ができることを願う。 今日の学習今日はこちらの問題を解いてみることにした。 結論から言うと全て解けたが、モザイク図と三角グラフについて、よく分かっていなかったので調べてみることにした。 モザイク図モザイク図とはクロス集計表を比率に応じた大きさによって可視化する手法のようだ。これまでもよく見かけていたが、名前をモザイク図と呼ぶのを初めて知った。 三角グラフ三角
今日で10日目・・・3日坊主常習犯の自分からすると、長く続いている方である。しかし当然のことながら、クオリティは一定ではなく低い時はとてつもなく低い。。。まぁ続けることを第一に考えている。 昨日のおさらい昨日は確率分布の重要な指標である、歪度と尖度について学んだ。歪度は分布の偏りが左右どちらにあるのかを測る指標で、正ならば右、負ならば左に偏った分布である。尖度は分布の尖り具合を測る指標で、比較対象を正規分布とすると、3が分水嶺となって尖っているかいないかがわかる。 上記2
今日は昨日の続きで確率変数の基礎の続きである。 今日の学習確率分布に関する平均(期待値)と分散について学んだが、それだけで分布の形が決まるわけではなく、分布の形状に関する以下二つの代表的な指標がある。 歪度:確率分布の裾が右に長いのか、左に長いのかを測る指標。正ならば右の裾が長く、負ならば左の裾が長い分布となることがわかる。 尖度:確率分布の尖り具合を測る指標。3を境に傾向が分かれるが、3より大きい時は正規分布より尖っており、3より小さい時は正規分布より丸く鈍い形となる
ここのところ外出続きでまともに学習を進められていなかったが、今日は少し腰を据えて勉強する。 安定の入門書、今日は第5章。 前章で確率の基本的な考え方についておさらいした。本章では確率変数の基礎について学ぶ。確率変数とは、それがとる各値に対してそれぞれ確率が与えられている変数である。通常、大文字を用いて表す。 この辺りから離散変数と連続変数の話がよく出てくる。離散では確率分布と呼ばれるfも、連続の確率変数ほ確率密度関数と呼んだりする。連続型の確率密度関数に関しては、実は、
今日も今日とて山行の1日であった。 ギリギリながら、あと15分で今日の分の学習をしたい。 今日の学習今日も以下の練習問題をもとに知らない知識を学習する。 早速、3問目の幹葉表示の部分について調べてみる。幹葉図とも呼ぶらしい。(初耳であった)可視化表現のひとつのようだ。 調べてみると、同サイトの以下の解説が分かりやすかった。 イメージとしては、ヒストグラムを描いた時のグラフの度数を、実際のデータの数値を使って書き表すということをしている。つまりこれは、これまでヒストグ
駆け込みで取り組む、本日の統計学習。 あと20分くらいしかないということで、何かオススメのネタをば!と周りに聞いたらオススメされたのでカイ二乗検定についてまとめてみる(なんか話し飛んでね?) 昨日のおさらい昨日はジニ係数についてまとめた。ローレンツ曲線と、それを書いた時の45°の線に囲まれる部分の面積の倍で、イメージ的にはローレンツ曲線と同じく、集団の格差を表すのだが、それを可視化した曲線に対して、数値化したものがジニ係数という感じ。ちなみに0〜1の値を取り、1に近い時が
今日も終日外出のため、WEBでできるお勉強。 昨日のおさらい昨日はベイズの定理について整理した。条件付き確率の定義式を基に、未知の事象の発生する確率を求める。事前確率として定義した値に対して、事象が発生した後に、次に向けての発生確率を更新する。それが機械学習と相性が良いため、近年注目されている。 今日の課題今日は少し統計検定を意識して、以下に掲載されている問題を解いて、間違えたものを取り上げてみようと思う。 と、いう事で早速間違えた。練習問題2-4のジニ係数について、1
3日目の今日は、友人と終日外出の予定のため、手元に教科書が無い中での学習をする。 昨日のおさらい昨日は確率と、その基となる集合についての用語や公式の整理を行った。ほとんど言葉の定義だが、数少ない学んだ公式が、n!の計算を近似するスターリングの公式だ。 改めてこれの有効性について考えていたが、コンピュータが発達した今はそれほど重要では無いのかな?と思ったが、それでもこの式を使えばある程度プログラムの処理速度が速くなるのかなと思った。 と思ったら、調べるとそれをやっている人
昨日から開始した、毎日少しでもいいから勉強をして、勉強を習慣化させようという取り組み。週末にまとめてやるという戦略は、幾度となく阻まれてしまった経緯から、これに至っている。 昨日の振り返り昨日のは後半勢い任せになってしまっていたので、詳細な情報が落ちていた。相関係数や共分散を言葉だけで定義していたので、後から読んでわかりにくかった。がしかし、ここに式を書くのは億劫なので、参考リンクを貼っておく。ここの定義が簡易で例題もあっていい。 今日のお題今日も昨日と同じ、統計学入門復