![見出し画像](https://assets.st-note.com/production/uploads/images/149122353/rectangle_large_type_2_c8f55fec36b713561db9829a2ed33885.png?width=1200)
統計の勉強がしたいとおもったのでするなり 1日目
目的
統計の学習記録を残すことで、
・学習内容をNoteへアウトプットとし定着をはかる
・統計やデータ分析に興味がある人の参考になる
ことを目指しています。
私の属性
理系大学院卒だが文献研究が主だったため理系能力は高くない。高校が私大付属校だったため、中学レベルまでの数学は理解しているが高校領域の数学はからきし。
微積分、収束発散、複素数など概念はわかるが計算はできない。
昔から確率の問題が苦手で、袋の中から球を出す問題が未だにわからない。
統計を勉強しようと思ったきっかけ
事業会社にいて分析対象のデータがたくさんあるが、専門性が高い人が周辺にいない。結果としてデータを触る機会が多かった。
データ分析が楽しい。とにかくエクセルにデータをぶち込んでグラフにすると視覚化できる。アンケートのフリーアンサーもテキストマイニングで分析すると何かしら視覚化できる。
手を動かすと目に見える結果が出るのが純粋に楽しくて、我流でデータ分析をしていたが、データサイエンティストが作ってきた発表資料に驚愕し「こりゃちゃんと勉強したほうが良い」と思った。
最近はChatGPTにPythonコードを聞きながら、JupyterNotebookでデータ分析をしている。コードが全く読めず効率が良くない。いずれPythonも勉強したい。
学習手法
Udemyの講座:https://www.udemy.com/course/3-anfhgh/
ChatGPTによるフォロー(例)
![](https://assets.st-note.com/img/1722434817566-IflMM9tAMx.png?width=1200)
1日目の学習内訳
学習時間:1.5時間
学んだこと
データの特徴を見る方法は「統計指標」と「可視化」に大別される。
基本的な統計指標に「平均、分散、標準偏差」がある。
偏差とは、個々のデータから平均値を引いた値(平均からどのぐらい離れているかをみている)
分散とは、偏差の二乗の総和をデータ数-1で割ったもの(平均からどれだけ離れているか、ばらつきぐあいの平均をとってる)
標準偏差とは、分散をルートしたもの(ばらつき具合の平均を戻してる)
平均には算術平均と加重平均がある。一般的な平均は算術平均。
加重平均は重み付けをする、例えば中間テストの重みが3,期末テストの重みが7,それらを加味して成績が決まる、など。
生成AIを使うとすぐ可視化してくれるからわかりやすい。
例えば平均点30点、標準偏差が5点のグラフはこれ。全体の67%が30点プラスマイナス5以内に入る。
![](https://assets.st-note.com/img/1722433881803-Bx0kNHwxae.png)
標準化とは、データを平均値0、標準偏差1にする変換 (データをゼロにするとは、各データポイントから平均値をひく作業のこと) 偏差値とは、平均値50、標準偏差10になるように分布したもの。
平均値はミューμ、標準偏差はシグマσ、2σは「にしぐま」と読む。
変動係数とは、標準偏差 / 平均値 100点満点のテストと1000点満点のテストを比較したい時などに使う
共分散とは、データの相関関係を表す指標、異なる2つの指標について計算した偏差をかけ合わせたものを足して、データの個数-1でわったもの。(Xi-X平均) X (Yi-Y平均)+ ….. / n-1