統計学習記録#2 -統計分析の基礎-(統計学入門)
この記事は、阿部真人著『統計学入門』を読んで得た学びや考えを、私自身の視点で要約・考察したものです。
今回の記事は第3章の内容となります。
前回記事のまとめ
前回記事では統計学の目的や役割について整理をしました。また、統計学はデータを要約する記述統計と、母集団を推定する推測統計があることを整理しました。今回は、記述統計と推測統計を具体的に深堀するとともに、推測統計の中で重要な考え方の確率分布について整理します。
読んだ内容のまとめ
1.データのタイプについて
変数にはいくつかのタイプがあります。それぞれの特徴を理解することで、データ分析における適切な手法の選択が可能になります。
量的変数
数値で表される変数。さらに以下の2つに分類されます。連続変数
例:身長や体重など。値は小数点以下も含めて無限に続く可能性があります。離散変数
例:サイコロの目や商品の個数。特定の値のみを取ります。
質的変数(カテゴリ変数)
数値ではなくカテゴリで表される変数。例:Yes/No、コインの表/裏。
投資や金融の分野においては、株価データは小数点以下がないため離散変数としてとらえる場合と、1円単位で様々な値をとるので連続変数としてとらえて分析することもできそうです。また、曜日の情報や株価が上昇したかどうかの区分などはカテゴリ変数となります。
2.データの全体的な傾向を把握しよう
データ分析を始める第一歩は、データの分布を可視化し、全体的な傾向を把握することです。
ヒストグラム
データの分布を視覚的に確認する基本的な手法。値がどの範囲に多く集まっているかを把握できます。その他の可視化手法
箱ひげ図:データの範囲や外れ値を確認するのに有効。
バイオリンプロット、スウォームプロット:分布の形状を詳細に確認可能。
ただし、可視化だけではデータの特徴を客観的に把握することは難しいため、統計量を計算して定量的に分析する必要があります。これは前回記事で整理をした記述統計に該当する手法になります。
3.データを客観的かつ定量的に見てみよう
データを数値化し、定量的に特徴づけることが次のステップです。このようにして得られる統計量を「記述統計量」または「要約統計量」と呼びます。
主な統計量
代表値
データの分布の中心を示す値。例:平均値、中央値、最頻値。ばらつきの指標
データの分散や標準偏差は、データが平均からどの程度離れているかを示します。外れ値と異常値
データに含まれる極端な値を「外れ値」と呼びます。外れ値の原因が測定や記録の誤りである場合、これを「異常値」とみなすことがあります。
外れ値や異常値の扱いはデータ分析の精度に大きな影響を与えるため、注意深く取り扱う必要があります。
特にデータ分析をするうえでは【外れ値や異常値の取り扱い方法を決めること】が大事となります。
4.確率について
確率は、不確実な事象が発生する可能性を数値で表現したものです。例えば、袋の中に赤い玉が4つ、白い玉が1つある場合、赤玉の確率は次の通りです。
赤玉の確率: $${P(赤玉)=4/5}$$
確率に関係する言葉の定義を行います。
確率変数
確率的に変動する変数を「確率変数」と呼びます。量的確率変数: 数値で表される変数。
連続型:身長や体重など、小数点以下が続く値。
離散型:サイコロの目など、特定の値のみ。
質的確率変数: Yes/Noやコインの表/裏など。
確率分布
確率変数がどのように分布しているかを表したもの。離散型確率分布: 確率は縦軸で表されます。
連続型確率分布: 確率は確率密度関数を用い、値の間の面積として計算されます。
この辺から統計らしい単語が登場します。
【私の学習方法】は、全体の概要を抑えることを目的として学習を行っています。これは、一章、一章を深堀して完璧に進んでいくと、ゴールまでたどり着くまでに時間がかかり、場合により断念してしまうからです。そこで、単語を聞いたことがある状態にして、一旦ゴールまでどんどん進んでいく学習手法をとっています。読み進めていくうちに理解が足りないと思ったら、そこだけ深堀をして知識を補うやり方です。
少し脱線しましたが、確率変数はデータがとりうる値ということです。そして、確率分布は手元にあるデータをグラフにしたときの形のことを指していると捉えてどんどん進んでいきます。
まだ学習中の状態での想像ですが、データ分析においては【母集団がどんな確率分布に従っているかを推測すること】が大事になりそうです。
5.理論的な確率分布について
理論的な確率分布は数式で表現され、分布の形状はパラメータによって決まります。最もよく使われるのが正規分布であり、これは以下のパラメータで定義されます。
平均 $${μ}$$:分布のほぼ中心。
標準偏差 $${σ}$$:分布の広がり。
標準化を行うことで、任意の正規分布を平均0、標準偏差1の形に変換できます。このとき得られる値を z値 と呼びます。
正規分布は聞いたことがある単語かもしれません。今後登場する手法は、正規分布を前提とした手法が登場してきます。また、投資において、たくさんある個別銘柄を比較するようなシーンがあると、【z値によって標準化を行って複数の対象の比較を行うこと】が大事になりそうです。
6.確率分布を特徴づける指標
確率分布の特徴を捉えるために以下の指標を用います。
期待値
確率変数の平均的な値を示します。分散
期待値の周りに分布がどの程度広がっているかを表します。標準偏差
分散の平方根。分布の広がりを直感的に理解するために用いられます。歪度と尖度
歪度:分布が左右対称からどれだけずれているか。
尖度:分布のピークがどれだけ尖っているか。
なお、分散や標準偏差の性質は次の通りとなります。
・0以上である
・すべて同じ値だった場合には0となる
・期待値から離れた値が出やすいほど大きくなる
確率分布を特徴づける、と言っているくらいなので、これらの指標をがわかれば確率分布がどんな形をしているのか判断ができそうです。
今回の学習においては【なるべく数式を使わない】ようにします。というか、私自身がnoteに数式の書き方がわかっておりません。数式を使わずにないよう理解をすることを言い訳に、文章表現で頑張って進めていきます。ただ、実際は数式を理解した方が内容理解は早い気がします。
7.2つの確率変数を考える
1つの確率変数だけでなく、2つの変数 X と Y を同時に扱う場合、その分布を「同時確率分布」と呼びます。例えば、
サイコロAとBの目が同時に出る確率 P(X,Y)。
独立な変数:サイコロAとBの出る目は互いに影響を及ぼさない前提
一方で、変数が独立でない場合、一方の変数の情報がもう一方の確率に影響を与えます。このような確率を「条件付き確率」と呼びます。例えば、黒いズボンの時は白いシャツを必ず着る。などです。
気づき
今回は主に【】書きをした箇所が私の気づきです。
推測統計では「母集団と標本データ」を扱いますが、これを「確率分布とその実現値」という数学的なモデルに置き換えることで、理論的な分析が可能になること。
データ分析においては外れ値や異常値の取り扱い方法を決める必要があること。
複数の対象の比較を行う場合、z値によって標準化を行って比較をすること。
投資への活用アイディア
投資では確率分布を利用して、リスクやリターンを数値化できます。
株価を連続型確率変数として捉え、確率密度関数を構築する。
確率分布の平均値、分散、歪度、尖度を特徴量として利用する。
株価データの比較には標準化が有効で、異なる銘柄間の分析に役立つ。これは株価だけでなく、株価を用いたテクニカル指標にも同じことが言える。
疑問点・今後の課題
現在、特に解決すべき課題は見当たりませんが、さらなる確率モデルの応用について検討する余地があります。
という感じで二回目は終了します。
まだ序盤なのでここから徐々に統計の本質に向かっていきます。