【データ分析】箱ひげ図をPythonでつくる
統計学はExcelやPythonで可視化しながら学ぶと理解しやすいことがわかった。今回はPythonライブラリを使って「箱ひげ図」をつくっていきます。
この記事でわかること
Pythonで箱ひげ図をつくる方法
箱ひげ図とは
箱ひげ図は、データの分布や値のばらつきをみるためのグラフです。
箱ひげ図は、最大値、最小値、四分位数の情報が含まれています。
データを大きさ順に並べた時の分布が確認でき、値の軸が上向きなので、ひげの下側の末端が最小値、ひげの上側の末端が最大値を表しています。
最小値と最大値の間は、4つの区間に区切られていて、それぞれの区間が全体の25%のデータを収容しています。
描画するには、matplotlibのplt.boxplot()を利用します。
箱ひげ図のメリット
平均値は極端に大きい(小さい)データの影響を大きく受けるため、平均値だけではデータ分布を把握することはできません。
平均値だけでなく、データ全体の分布も見る必要があり、それを把握できるのが箱ひげ図です。
箱ひげ図を作る
それでは箱ひげ図を作ってみましょう。
# Jupyter Notebookを利用している方のみ記述してください。
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
# 駅徒歩10分の家賃相場(架空のデータ)
rent_prices = [85000, 90000, 95000, 120000, 110000, 90000, 93000, 100000, 85000, 92000]
x = np.array(rent_prices)
plt.title('Rent Prices (10 mins walk from station)')
plt.grid() # 横線ラインを入れることができます。
plt.boxplot(x)
plt.show()
このように、箱ひげ図を見ることで、平均値だけでは分からないデータの分布を把握することができます。
まとめ
今回は箱ひげ図をつくってみました。
matplotlibを使うと、あっという間に可視化できました。
最後まで読んでいただきありがとうございます。
この記事が気に入ったらサポートをしてみませんか?