Norifumi Irie

大規模データの並列処理・統計やBIを用いた分析・機械学習の案件を中心に活動しています。…

Norifumi Irie

大規模データの並列処理・統計やBIを用いた分析・機械学習の案件を中心に活動しています。 統計準1級とE検定の対策中です。分析で気付いた点や試験対策等をメモがてら記事にしていきます。

最近の記事

統計準1級 予想問題

自作の予想問題です。 ある母集団が平均$${μ}$$、分散 $${σ^2}$$の正規分布$${N(μ,σ^2)}$$に従っているとする。サンプル$${(X_1, X_2, \dots, X_n)}$$を用いて母平均$${μ}$$を推定するための標本平均$${\bar{X}}$$を考える。 1) $${\bar{X}}$$の分散を求めよ。 2) 正規分布のフィッシャー情報量$${I(μ)}$$は$${\frac{1}{σ^2}$$で与えられる。このとき、クラメール・ラオの不

    • 統計学実践ワークブック問28.2 じっくり解説

      ※以下紹介する問題は本書と少し変えていますが計算方法は同じです。 前提知識:適合度カイ二乗 統計2級でも出てくるので細かい内容は割愛する。 $${χ^2}$$は分割表を作成した上で次式で計算できる。 $$ χ^2 = \sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i} $$ $${O_i}$$: Observed Frequency (観察頻度) $${E_i}$$: Expected Frequency (期待頻度) この問題の設定においては

      • 統計準1級 2021年6月問6解説

        問6 [1] 問題文は省略する。  前提知識: 問題文から読み取れるが、フィッシャーの線形判別では、$${S_W}$$と$${S_B}$$を扱うことは知っていた方がいい。日本語の教科書等ではあまり書かれていないが、$${S_W}$$はWithin-class Scatter Matrix(クラス内共分散行列)を指し、$${S_B}$$はBetween-class Scatter Matrix(クラス間共分散行列)を指していることを知っていると、すぐに問題文の意味がわかるだろ

        • 統計検定準1級2024年最新問題Part5

          問題: 確率変数Xの期待値がμとなる場合に、以下の中で$${μ^2}$$の不偏推定量となる推定量を選択せよ。 $$ T_1 = {E(\bar{X}^2)} $$ $$ T_2 = \frac {1} {n} \sum {X^2} $$ $$ T_3 = \frac {1} {n(n-1)} \sum_{i=1}^{i=n} {X_i^2} $$

        統計準1級 予想問題

          統計検定準1級2024年最新問題 Part4

          問題: 確率変数Xの確率母関数G(s)が以下で表される時、期待値を求めよ。 $$ G(s)=E(s^x)=0.5+0.32s+0.18s^2 $$ 考察: 現実社会でも確率の分布がある程度既知であるものについては分布の数式を使用することで確率母関数を用いることができる。ただし、そのような事象を扱うことは稀なため使用範囲は限定的だろう。しかも確率母関数は離散確率変数を想定しているためさらに使用できる範囲は狭まる。実務で特に使用することがなさそうだが、微積や期待値・分散の理

          統計検定準1級2024年最新問題 Part4

          統計準1級 2021年6月問2解説

          問2 [1]: 電池がn個あり、i番目の電池を使い切るまでの時間$${X_i}$$が独立に平均λの指数分布に従う。 この時、$${X_i}$$の分散をλの関数で表せ。 $$ f(x) = \frac {e^\frac {-x}{λ}} {λ} $$ 考察: 指数分布はよく以下の数式で表現されるが、今回は事象の「回数」ではなく「時間」が関心になっていることを踏まえるとλの逆数をとる。1時間にλ回起こる事象を考えると、1回に起こる時間は1/λと表せるので逆数をとるのは直感的に

          統計準1級 2021年6月問2解説

          統計検定準1級2024年最新問題 Part3

          問: $${N(μ_x, σ^2)}$$に従う母集団と$${N(μ_y, σ^2)}$$に従う母集団からそれぞれn個のサンプルX, Yを採取し、その平均の差をD$${= \overline{X}-\overline{Y}}$$とおくとする。 この時、Dを標準化した値Zを求めよ。 解法: $$ Z = \frac {サンプルで獲得した推定値 - 期待値} {標準偏差}  $$ で与えられるので、それぞれ求めていく。  $$ サンプルで獲得した推定値 - 期待値 = (\

          統計検定準1級2024年最新問題 Part3

          統計準1級2024年度最新問題 Part2: 条件付き独立、条件付き確率

          問: あるデータセットにおいて、3つの事象 A、B、および Cがあり、それぞれ次の情報が与えられている。 $$ P(A∣B)=0.4 \\ P(B∣C)=0.5 \\ P(A∣C)=0.6 \\ P(B)=0.3 \\ P(C)=0.4 \\ A⊥C∣B $$ この時$${P(A∩B∩C)}$$を求めよ。 解説: まずは$${P(A∩B∩C)}$$を分解する。 $${P(A∩B∩C)}$$は言い換えれば事象Cが起こった際に$${A \cap B}$$が起きる確率なので、

          統計準1級2024年度最新問題 Part2: 条件付き独立、条件付き確率

          統計準1級2024年度最新問題 Part1

          問: モデルをAICで評価する場合とBICで評価する場合とで、パラメータの数にどう変化があるか? 解答: AIC(Akaike information criterion)は以下の式で表される。 $$ AIC = −2log(⁡L)+2k $$ L: モデルの尤度関数 k: パラメータの数 AICではパラメータの数に対して線形にペナルティをかけてる。 尤度関数が大きければ大きいほどモデルとしては適合度が高く、マイナスがかけられていることからAICが小さいほどいいモデ

          統計準1級2024年度最新問題 Part1

          統計準1級2018年問3[1] 解説 SVM・線形判別式

          ※問題は割愛します。 [1]  グラフを見るに、$${x}$$=-4, 0, 4の時に正、$${x}$$=-2, 2の時に負になるようなデータを取る際に何次元の多項式カーネルのSVMによって判別ができるかを考える問題。 個人的に多次元非線形の多項式カーネルを完璧に理解するのは辛い上、準1級でそこまで求めていないと思うので、ある程度解像度を落として理解する必要がある。以下、自分が理解するところである。 1) SVMでは『境界線を見つける』のが主なテーマの一つである。 2

          統計準1級2018年問3[1] 解説 SVM・線形判別式

          統計準1級 2017年6月問12解説 [ブートストラップ法]

          問題の紹介については割愛します。 ブートストラップ法とは ブートストラップ法は有限のデータから統計量の分布や不確実性を推定するための再サンプリング手法である。具体的には、得られたN個の標本から複復元抽出してN個の副標本(ブートストラップ標本)を取り出し、そこから得られる統計量(例えば平均や分散など)を計算することで、その統計量の分布を推定する。 イメージしやすいように例をあげて考える。身長の調査をするために街中で10人の身長を測ったとして、得られた標本を以下に表す。

          統計準1級 2017年6月問12解説 [ブートストラップ法]

          統計準1級で出てくる記号・数学的表現集

          マイナーな数学的な表現をまとめます。 (α, β] $$ q \in (0, 1]  $$ $${\in}$$は"is an element of"の数式表現。 (0, 1]は0より大きく1以下であるということを表す。 つまり、qは0より大きく1以下であるということ。 ∝ 比例(proportional)を示す。 これを使い$${x}$$が$${y}$$と反比例である(x is inversely proportional to y)ことを表すには以下になる。 $

          統計準1級で出てくる記号・数学的表現集

          統計学実践ワークブック問15.1[1]じっくり解説

          ※問題を少し変えています。 問題: ある都市の株式市場の取引開始時刻を t=0、終了時刻を t=100 とし、特定の企業の株価 $${Y_t}$$ が次の確率過程で表されるとします。 $$ Y_t=y+σB_{t}                    (1) $$ ここで、$${B_t}$$​ は標準ブラウン運動(Standard Brownian Motion)であり、σは株価のボラティリティ(volatility)を示します。 このとき、株価 $${Y_t}$$

          統計学実践ワークブック問15.1[1]じっくり解説

          統計準1級 2017年6月問6[2]解説

          問6[2]: あるコミュニティで、最も好きな季節を1つ選ぶ調査を857人に行ったところ、春と回答した割合0.224と秋と回答した割合0.169の差は0.055だった。 この差の標準偏差の推定値を求めよ。 考察: 目的は割合の差の標準偏差の推定値$${SE(\hat p_1 - \hat p_2)}$$を求めると言える。 母集団が同じ中で2つの割合を扱っている。春と回答をする人がいればその分秋と回答する人が減るため、春と回答した割合$${\hat p_1}$$と秋と回答した割

          統計準1級 2017年6月問6[2]解説

          統計準1級 2017年6月問6[1]解説

          *都合上問題文を本来の文章と変えていますが、解答は同じになるようにしています。 問6[1]: あるコミュニティで、最も好きな季節を1つ選ぶ調査を857人に行ったところ、春を選んだ人数は192人でした。この割合の95%信頼区間を求めよ。 考察: 1.標本比率$${\hat p}$$に関して信頼区間を解いている。 2.標本は大きめ。 3.母集団は不明だが、春を選ぶか選ばないかのベルヌーイ試行を復元抽出で繰り返している。 アプローチ: 考察から、二項分布を中心極限定理により正規

          統計準1級 2017年6月問6[1]解説

          統計学を2級レベルから準1レベルで捉える(準1級対策)

          統計とは何か? 全ての事象は『ランダム』で起きる。サイコロで出る目の数字はいくつなのか?コインを投げた時に出るのは表なのか?現実世界で有意義な例をとれば、商品Aに関する広告を閲覧したユーザーが商品Aを購入するのか? しかし、この『ランダム』さには法則(law of randomness)があり、この法則をできる限り見つけ出す行為が統計と言える。 これをより数学的に理解すれば、ランダムな事象の背景には変数があり、この変数の正体を紐解いていくことが統計である。 この変数を『確率

          統計学を2級レベルから準1レベルで捉える(準1級対策)