統計学習記録#1 -統計の目的-(統計学入門)
本日より学習した内容をアウトプットしていきます。
学習の目的はシステムトレードを開発するためです。システムトレードを開発するためには戦略立案をする必要があり、そこに統計学の考えを活かしていきたいと思っています。
この記事は、阿部真人著『統計学入門』を読んで得た学びや考えを、私自身の視点で要約・考察したものです。
今回の記事は第1章と第2章の内容となります。
読んだ内容のまとめ
1.データ分析の目的とは
データは単なる数値や文字列の集合であり、そのままでは意味を持ちません。データ分析の目的は以下の3つに分類されます。
データの要約
データを整理し、平均値などの代表値を計算して、大まかな傾向を把握します。データの関係性や性質の説明
データが持つ性質や要素間の関係性を明らかにし、分かりやすく説明します。特に関係性には「因果関係」と「相関関係」の2種類があります。因果関係: 一方の変化が他方に影響を及ぼす関係。
相関関係: 一方が変化するともう一方も連動して変化するように見える関係。ただし、因果関係があるとは限りません。
未知データの予測
手元にあるデータをもとに、未知のデータや未来の状況を予測します。
2.統計学の役割について
統計学の役割は、ばらつきのあるデータを整理し、わかりやすく説明したり、将来を予測したりすることです。データにばらつきがあると、データの性質や関係性が曖昧になりやすいですが、統計学はこのばらつきを「不確実性」として定量的に評価します。これにより、より正確な説明や予測が可能になります。
3.統計学の全体像について
統計学は以下の2つの主要な手法で構成されています。
記述統計
「得られたデータ」を整理して要約する方法です。これにより、データの概要を把握できます。推測統計
「得られたデータ」から「データ発生元」(母集団)を推測する方法です。データ発生元(母集団): すべての対象を含む集合。
得られたデータ(標本): 母集団から抽出された一部のデータ。
統計学においては、母集団をすべて把握することが難しいため、【推測統計の手法を用いて母集団を推測すること】になります。
4.推測統計の仕組みと確率モデルの役割
推測統計を行う際には、母集団全体を直接観察することは困難です。そのため、標本データを使って母集団の性質を推測します。しかし、標本データは母集団の一部に過ぎないため、データの背後にある「確率的なメカニズム」を想定する必要があります。
この「確率的なメカニズム」を数学的に表現したものが【確率モデル】です。確率モデルは、母集団からデータがどのように生成されたのかを説明する装置として機能します。これにより、標本から得られた情報を基に、母集団全体の性質を推測できるようになります。
具体的には以下の2つの方法で推測統計が行われます。
統計的推定
標本データをもとに、母集団の平均や分散といった性質を推定します。仮説検定
設定した仮説が標本データとどの程度整合しているかを評価し、仮説が妥当かどうかを判断します。
特に、【仮説検定を用いて統計的に仮説が有意なのかどうかを確認しながら分析】をすることが大事となります。
5.データ分析の目的と興味の対象
データ分析を始める際は、最初に【明確な目的を設定すること】が重要です。その後、次のステップとして興味の対象を具体化します。これにより、分析の方向性が明確になり、効率的なデータ活用が可能になります。
6.標本とサンプルサイズ
統計学では、標本に含まれる要素の数を「標本サイズ(サンプルサイズ)」と呼び、アルファベット n で表記します。また、「サンプル数」は標本データ全体の件数を指します。
気づき
今回は主に【】書きをした箇所が私の気づきです。これからデータ分析を行っていく上で常に意識をしておく必要があります。
データ分析を行うためには明確な目的を設定し、仮説を立てながら検証を行うこと。
推測統計は、統計学における重要な目的であり、実務での応用性が高い。
投資への活用アイディア
投資の分野では、以下のように推測統計を活用することで意思決定の質を向上できます。
株価の変動要因を特定するために、因果関係に基づいて株価上昇のきっかけとなる因子を分析する。
相関関係を活用し、株価や市場全体に影響を与える要因を特定する。
株式投資では、株価の母集団を直接観測することは不可能です。そのため、特定の期間の標本データを基に確率モデルを構築し、母集団を説明するアプローチが必要です。
例: 高値を更新した株式がさらに上昇を続けるかを予測する際、興味の対象を「財務数値が成長しているかどうか」に設定し、分析を進めることが考えられます。
疑問点・今後の課題
少しイメージがつきにくい部分について追加で調査をしてみました。
1.統計的推定の理解の補強
例えば、ある工場で製造される部品の平均重量を推測したい場合:
50個の部品をサンプルとして測定し、その平均重量を計算。
その結果、「95%信頼区間が [10.3g, 10.7g]」と推定される場合、部品の平均重量はこの範囲内にあると考えられる。
という感じで一回目は終了します。
なるべく小タスクで学習を進めてアウトプットを継続していきたいと思います。