見出し画像

【データ分析】箱ひげ図をPythonでつくる

統計学はExcelやPythonで可視化しながら学ぶと理解しやすいことがわかった。今回はPythonライブラリを使って「箱ひげ図」をつくっていきます。

この記事でわかること

Pythonで箱ひげ図をつくる方法

箱ひげ図とは

箱ひげ図は、データの分布や値のばらつきをみるためのグラフです。

箱ひげ図は、最大値、最小値、四分位数の情報が含まれています。
データを大きさ順に並べた時の分布が確認でき、値の軸が上向きなので、ひげの下側の末端が最小値、ひげの上側の末端が最大値を表しています。

最小値と最大値の間は、4つの区間に区切られていて、それぞれの区間が全体の25%のデータを収容しています。

描画するには、matplotlibのplt.boxplot()を利用します。

箱ひげ図のメリット

平均値は極端に大きい(小さい)データの影響を大きく受けるため、平均値だけではデータ分布を把握することはできません。

平均値だけでなく、データ全体の分布も見る必要があり、それを把握できるのが箱ひげ図です。

箱ひげ図を作る

それでは箱ひげ図を作ってみましょう。

# Jupyter Notebookを利用している方のみ記述してください。
%matplotlib inline 
import matplotlib.pyplot as plt
import numpy as np

# 駅徒歩10分の家賃相場(架空のデータ)
rent_prices = [85000, 90000, 95000, 120000, 110000, 90000, 93000, 100000, 85000, 92000]
x = np.array(rent_prices)
plt.title('Rent Prices (10 mins walk from station)')
plt.grid() # 横線ラインを入れることができます。

plt.boxplot(x)
plt.show()


このように、箱ひげ図を見ることで、平均値だけでは分からないデータの分布を把握することができます。

まとめ

今回は箱ひげ図をつくってみました。
matplotlibを使うと、あっという間に可視化できました。
最後まで読んでいただきありがとうございます。

この記事が気に入ったらサポートをしてみませんか?