Kai.lazykoala

オーストラリアの海と怠惰なコアラが好き🐨 ヤンキー地域で育ったのでヤンキーでもわかるよ…

Kai.lazykoala

オーストラリアの海と怠惰なコアラが好き🐨 ヤンキー地域で育ったのでヤンキーでもわかるよう統計学解説してます 2022年10月にデータサイエンティストに転職 → 2022年11月 統計検定2級取得 → 2023年1月 統計検定準1級取得 → keep going on....

マガジン

  • ベイジアンABテストまとめ

    今日からあなたもベイジアン

  • 統計検定準1級 ②統計的推測

    統計検定準1級「統計的推測」の解説マガジン。ワークブックの8章から13章をそれぞれ解説

  • 統計検定準1級 ①確率と確率分布

    統計検定準1級「確率と確率分布」の解説マガジン。ワークブックの1章から7章をそれぞれ解説

最近の記事

機械学習を用いた優れた投手のセイバーメトリクス探索

対象データ今回はメジャーリーグでの2010年から2022年の13年間のデータを用いた import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import *from sklearn.preprocessing import *from sklearn.linear_model import *f

    • 確率論における確率と主観確率と客観確率

      そもそも確率とはそもそも確率とはなんであろうか 舟木[2004]によれば これだと少しふわっとしているので、数学的な定義でいえば 標本空間の部分集合にある事象$${E}$$に対し、コルモゴロフの公理を満たす確率測度$${P}$$の$${E}$$における値 $${P(E)}$$を、事象$${(E)}$$の確率という 知らない単語たちは確率論における確率空間の要素なので 確率空間について定義する 確率空間確率空間は、確率論の基礎となる3つの要素で構成される 標本空間

      • ベイジアンABテストの利点と活用例(後編)

        ベイジアンABテストはいい結果がでなかったらテスト期間を延長できる前回では既存のABテストでは有意差があると何%くらい信じて良いかわからないが、ベイジアンABテストだと何%信じて良いかわかるのでより説明性があることを解説した 今回では ベイジアンABテストのもう一つの利点 「いい結果が出たらいつでもテストを延長できる」 について解説していく 既存のABテストでテストを延長してはダメな理由1. 多重検定により第1種の過誤を増加させるリスクがある 既存の頻度論的ABテスト

        • ベイジアンABテストの利点と活用例(前編)

          ベイジアンABテストはABパターンどちらが優れているか確率で表現できる前回では既存のABテストでは重大な課題があることに言及した 対立仮説が正しいとだけわかるが、有意差が微妙なラインの時に判断が難しい 多重検定があるので何回も柔軟にA/Bテストできない 結論としてABパターンの意思決定にはベイジアンABテストが優れているのだが 今回では「対立仮説が正しいとだけわかるが、有意差が微妙なラインの時に判断が難しい」ときベイジアンABテストがなぜ有用なのかを解説する そもそ

        機械学習を用いた優れた投手のセイバーメトリクス探索

        マガジン

        • ベイジアンABテストまとめ
          3本
        • 統計検定準1級 ②統計的推測
          7本
        • 統計検定準1級 ①確率と確率分布
          8本

        記事

          プロでも間違えやすい仮説検定のツボ (A/BテストからベイジアンA/Bテストへの誘い)

          IT企業でA/Bテストをやっていると 有意水準が5%だと帰無仮説が正しい確率は95%! (有意水準自体が帰無仮説が正しいときという前提なので🙅‍♂️) 有意差がないから帰無仮説採用! (第2種の過誤があるので🙅‍♂️) 有意差でないからテスト期間延長して有意差出るようにしよう! (多重検定で有意水準がデカくなるので🙅‍♂️) みたいな間違いがしている人が多いので 今回仮説検定で間違えがちな要点をまとめてみた 有意水準は「帰無仮説が正しいとき」という前提条件があ

          プロでも間違えやすい仮説検定のツボ (A/BテストからベイジアンA/Bテストへの誘い)

          【Mac】Google Colab + poetryを用いた仮想環境構築

          はじめに以前はCursorの仮想環境構築について簡単にまとめたが、深層学習用にGPUが欲しくなったのでGoogle Colabでの環境構築も始めた ディレクトリ構造Google Driveをマウント# Google Driveをマウントfrom google.colab import drivedrive.mount('/content/drive') ディレクトリ作成work_dirの"sample"を適宜変える # プロジェクトディレクトリを定義root_

          【Mac】Google Colab + poetryを用いた仮想環境構築

          【Mac】Cursor/VSCodeでDocker + poetryを用いた仮想環境構築

          はじめに最近仕事でjsonやyamlファイルを編集する時間が増えたので テキストエディタをJupyter Labから話題のCursorに切り替えようと思ったが 仮想環境構築について簡単にまとめたものがなかったので自分用にまとめた ディレクトリ構造Docker設定ファイル作成まずプロジェクトディレクトリ配下に拡張子なしの’dockerfile’作成 ## base imageFROM python:3.12RUN apt-get update &&\apt-get -y i

          【Mac】Cursor/VSCodeでDocker + poetryを用いた仮想環境構築

          丸暗記しない検定統計量の作り方

          この記事の目的統計学を勉強しているとみんなぶち当たる検定統計量 検定統計量は代表的なものでも下記のようにたくさんあり とても暗記だけでは乗り切れない (というか覚える気が失せるwww) そこで今回のこの記事では、検定統計量のイメージを掴んで 各人がその場で検定統計量を作り出すことができることが目的である 検定統計量の基本アイデアは「標準化」例えば母分散が既知の母平均の検定において 帰無仮説 : $${\mu = \mu_0}$$のもとで 検定統計量は $$ \begi

          丸暗記しない検定統計量の作り方

          母分散の検定の検定統計量の証明

          はじめに母分散の検定の検定統計量は$${s}$$を不偏分散とすると $$ \begin{aligned} V &= \frac{(n - 1) s^2}{\sigma^2} \\{}\\ & =   \frac{\sum_{i} (X_i - \bar{X})^2}{\sigma^2} \end{aligned} $$ と表される なんでこんな形になるか証明することで 丸暗記しなくても検定統計量を覚えることができるので 今回はこの検定統計量を例題も踏まえて証明していく

          母分散の検定の検定統計量の証明

          母比率の検定の検定統計量の証明

          はじめに母比率の検定の検定統計量は $$ \begin{aligned} Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \end{aligned} $$ と表される なんでこんな形になるか証明することで 丸暗記しなくても検定統計量を覚えることができるので 今回はこの検定統計量を例題も踏まえて証明していく また検定統計量のざっくりイメージだけ知りたい場合は下記を参照 今回の仮定確率分布 t検定みたいに一般的な仮説

          母比率の検定の検定統計量の証明

          統計準1級 第10章 検定の基礎と検定法の導出 解説

          検定の過誤帰無仮説$${H_0}$$、対立仮説$${H_1}$$がそれぞれ正しいときの分布を描画して考える 第1種の過誤 有意差がないのにあるといってしまう確率、つまり仮説検定における棄却域と同じ 第1種の過誤は有意差がない(=帰無仮説が正しい(左の分布))にも関わらず、有意水準を超える検定統計量を取り 実現確率が$${\alpha}$$(赤斜線部分)くらい小さな確率 ↓ 帰無仮説の分布より対立仮説の分布に従ってるっぽい ↓ 帰無仮説棄却で(帰無仮説と)有意差ある対立

          統計準1級 第10章 検定の基礎と検定法の導出 解説

          統計準1級 第3章 分布の特性値 解説

          確率分布の特性値最頻値・中央値・期待値(平均値) 期待値は標本内の数値に依存しているので サンプル内外れ値の影響を大きく受けやすい 対して、最頻値・中央値は標本内の数値に依存していないので サンプル内外れ値の影響を大きく受けにくい 最頻値と中央値の違いは 最頻値は単峰性の分布に対して峰の位置にくるが 中央値は数直線の真ん中あたりにくることが多い したがって分布によって大小が逆転する サンプルデータの特性値加重平均 加重平均は今まで日常的に使っている平均と同じ意味で足

          統計準1級 第3章 分布の特性値 解説

          統計準1級 第6章 連続型分布と標本分布 解説

          連続型分布連続型確率分布はストーリーを考えながら理解すると早い 離散型連続型で頻出の確率分布は下記の記事にまとめられているので適宜参考にされたい 今回取り上げる連続型確率分布は下図の赤線部分である 正規分布 正規分布は 二項分布の試行回数$${n}$$が大きく $${np >> 1}$$のように期待値が1より十分大きい時に 近似できる分布 $$ \begin{aligned} & f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp\bigg\

          統計準1級 第6章 連続型分布と標本分布 解説

          統計準1級 第13章 ノンパラメトリック法 解説

          本章で扱うもの一般的に検定は以下のようなものがある この章では、太字に記載している正規分布に関する検定を解説していく パラメトリック検定 正規分布に関する検定(11章) t検定 $${\chi^2}$$検定 F検定 二項分布に関する検定(12章) 母比率の(差の)検定 ポアソン分布などその他に関する検定(12章) 適合度検定 尤度比検定 ノンパラメトリック検定(13章)<---- (符号付き)順位和検定 並び替え(符号)検定 11章、12章で学んだ

          統計準1級 第13章 ノンパラメトリック法 解説

          統計準1級 第11章 正規分布に関する検定 解説

          はじめに検定統計量について丸暗記せずに理解できる記事については下記を参照 この章で扱うもの一般的に検定は以下のようなものがある この章では、太字に記載している正規分布に関する検定を解説していく パラメトリック()検定 正規分布に関する検定(11章)<---- t検定 $${\chi^2}$$検定 F検定 二項分布に関する検定(12章) 母比率の(差の)検定 ポアソン分布などその他に関する検定(12章) 適合度検定 尤度比検定 ノンパラメトリック検定(

          統計準1級 第11章 正規分布に関する検定 解説

          統計準1級 第12章 一般の分布に関する検定法 解説

          はじめに検定統計量について丸暗記せずに理解できる記事については下記を参照 https://note.com/outlifest/n/ne304cd16af63 この章で扱うものこの章で扱う検定は正規分布以外に関する検定 つまり 二項分布に関する検定 ポアソン分布に関する検定 適合度検定と尤度比検定 について解説していく 二項分布に関する検定試行回数$${n}$$、成功確率$${\theta}$$ のパラメーターを持つ二項分布を考え $$ \binom{n}{

          統計準1級 第12章 一般の分布に関する検定法 解説