見出し画像

Pythonで基本統計量 ~データ分析の第1歩~

(0)作業環境

・Python3.9.4
・Spyder
・Anaconda3

(1)データの特徴を確認

 データの特徴に応じて統計解析の手法が異なります。そのため、データを分析する際には、データのサイズ(個数)や平均、標準偏差、最大、最小といったデータの特徴を確認することが重要です。これらは基本統計量と呼ばれます。(基本統計量の詳細な解説は統計の本やWebをみてください。)
 もちろん、基本統計量はExcelのデータ分析やRでも確認することができますが、ここではPythonを用いた確認方法を紹介します。

(2)使うデータ

 Pythonを使った統計解析の方法をWebで調べると、"iris"というデータに出くわすことが多くあります。ここでは、このirisのデータを例にしていきたいと思います。下記のようなデータで、このHPから引用しました。

画像1

(3)実際に基本統計量を算出

 コードは下記のとおりです。それぞれの行の意味を紹介していきます。今回は1回目の記事ですので、過剰に説明していきます。

import pandas as pd

df = pd.read_csv('iris.csv')
print(df)

describe = df.describe()
print(describe)
describe.to_csv('iris_基本統計量.csv')

 まず、1行目

import pandas as pd

  これは、「Pandasというライブラリを使います!」という宣言を意味します。これを書かないとPandasというライブラリは使えません。
 ※Pandasについては、下記を参照ください。
  https://pandas.pydata.org/

 次に、2行目

​df = pd.read_csv('iris.csv')

 ※私はアンケート結果等の分析が多いので、自分のPC上で分析することを想定しています。
 ここでは、1行目で使用を宣言したPandasの機能を使って、分析に使用するcsvデータを読み込んでいます。このとき、読み込む列を指定したりもできますが、それは別の機会にまとめます。
 Pythonとcsvデータを同じディレクトリに保存しているので、上記のような書き方をしています。もしPythonとcsvデータが別のディレクトリの場合は、きちんとディレクトリを指定する必要があります。

 3行目

print(df)

 読み込んだcsvの中身を確認します。このコードの結果は下記画像のとおりです。

画像2

 
 4行目・5行目

describe = df.describe()
print(describe)

 4行目が基本統計量の算出に必要なコードになります。1行です。これで下記の基本統計量を列ごとに算出できます。

Pandasのdescribeで算出できる基本統計量
・データのサイズ(個数)
・平均
・標準偏差
・最小
・第一四分位
・中央値
・第三四分位
・最大

 5行目は、算出した基本統計量を確認しています。コードを動かした結果は下記のとおりです。それぞれ計算できています。

表(結果)

 6行目

​describe.to_csv('iris_基本統計量.csv')

 算出した基本統計量をcsvとして保存します。この場合、Pythonデータと同じディレクトリに保存されます。もし、別のディレクトリに保存したい場合は、その場所を指定してあげればOKです。

(4)まとめ

 今回はPythonで基本統計量を算出する方法を紹介しました。しかし、基本統計量は、上述のもの以外にもいくつかあり(たとえば分散など)、今回紹介したコードでは確認できません。この辺は今後紹介していきたいと思います。

(5)参考

■Pandasのdescribeについて
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html?highlight=describe

■Pandasのto_csvについて
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html?highlight=to_csv#pandas.DataFrame.to_csv