見出し画像

1-4 幹葉図の読み取り 〜 幹葉図はデータ値が見えるヒストグラム

今回の統計トピック


幹葉図を作成します!(幹葉図ってご存知ですか?)

公式問題集の準備

「公式問題集」の問題を利用します。お手元に公式問題集をご用意ください。
公式問題集が無い場合もご安心ください!
「知る」「実践する」の章で、のんびり統計をお楽しみください!

問題を解く


📘公式問題集のカテゴリ

1変数記述統計の分野
問4 幹葉図の読み取り(試験の得点の分布)

試験実施年月
統計検定2級 2016年11月 問1(回答番号1)

問題

公式問題集をご参照ください。

解き方

幹葉図は、ヒストグラムと同様に度数分布の可視化に加えて、データ個々の値を表示する図です。
図を左に回転するとヒストグラムのような形状が見えてきます。
この問題では、十の位ごとに作表しているので、階級の幅は10です。
例えば、問題の図の上から2行目は50点台を示しており、個々のデータは、56、58、…のように、十の位と一の位を合体してできる数値となります。
50点台の一の位の個数が6個なので、50点台の階級の度数は6です。
一の位は左から右へ昇順に並んでいます。

①の適否
幹葉図の最大の十の位は9、90点台の一の位の最大値は0。
つまり、最大値は90点です。
選択肢①は適切ではありません。

②の適否
幹葉図の最小の十の位は4、40点台の一の位の最小値は0。
つまり、最小値は40点です。
選択肢②は適切ではありません。

③の適否
幹葉図の60点未満のデータ個数は、十の位が5(50点台)以下の一の位を数えて、7個と分かります。
選択肢③は適切です。

④の適否
幹葉図の最大値から順に一の位を数えて5番目に当たるのは、十の位7(70点台)、一の位8、つまり78点と分かります。
選択肢④は適切ではありません。

⑤の適否
最頻値は最も数の多い値です。
幹葉図の一の位を追って、同じ数字が並んでいる部分に注目すると、十の位「5」、一の位「8」の5個が最も多いので、最頻値は58点と分かります。
選択肢⑤は適切ではありません。

解答

③です。

難易度 やさしい

・知識:幹葉図
・計算力:不要
・時間目安:1分

知る


おしながき

公式問題集の問題に接近してみましょう!
ここでは「ランダムに生成した30個の得点風の数値」を用います。
今回は幹葉図に取り組みます。

23 34 35 39 44 45 46 47 50 50 51 53 58 58 59 61 62 64 67 69 72 73 75 82 84

幹葉図

📕公式テキスト:1.2.2 そのほかの図表の作成 1) 幹葉図(10ページ)

幹葉図は「1変数」を要約記述する図です。
「みきはず」「かんようず」と読むそうです。
次の図は幹葉図のサンプルです。

幹葉図サンプル

ヒストグラムを横に倒したような形状をしています。
等幅のフォントを使うことで、「葉」の数字がヒストグラムの度数のような視覚効果を生み出します。

「幹」は十の位、「葉」は一の位です。
23点から84点までの範囲、50点台に峰があり、左右にほぼ対称的に裾が伸びています。
じつは、ランダムな数字は「平均値55点、標準偏差18点の正規分布」を基にして生成しました。
ヒストグラムは次のような形状になります。

ヒストグラムサンプル

ヒストグラムと比べて、幹葉図はデータの内容を表示できる点が特徴です!

30点台を例にして見てみます。
ヒストグラムは「3人」該当することが分かりますが、3人の点数は分かりません。
幹葉図は十の位が3の30点台に3つの一の位、つまり「3人」該当することが分かります。あわせて3人の得点が「34点、35点、39点」であることまで分かります。

幹葉図の実用例
幹葉図を普段、目にすることがまったく無いので、参考になりそうな応用例を求めてネットを徘徊したところ、東京都の小中学生向け統計サイトで幹葉図が紹介されていました。
「テストの点数」を題材にして、代表値(中央値、最頻値、平均)、ヒストグラム、箱ひげ図、幹葉図を説明しています。分布の形状が見事です。
幹葉図は教育向けなのでしょうか。。。


実践する


幹葉図を作成してみよう

身近なデータで手軽に作成できそうです。

CSVファイルのダウンロード
こちらのリンクから「ランダムに生成した30個の得点風の数値」のCSVファイルをダウンロードできます。

電卓・手作業で作成してみよう!

上述の方法でデータを取得して、手作業で幹葉図を書いてみましょう!
一番記憶に残る方法ですし、試験本番の電卓作業のトレーニングにもなります。

EXCELで作成してみよう!

データ数が多い場合、やはり手作業では非効率になります。
パソコンを利用して、手早く作表できるようになれば、実務活用がしやすくなるでしょう。

幹葉図

じつは、EXCELには幹葉図を作図する標準機能が存在しないようです。
標準装備では、手作業で幹葉図に打ち込むことになりそうです。

さらにじつは、ネットでEXCEL「幹葉図作成ツール」を発見しました。
「知る」の幹葉図サンプルはこのツールを利用させていただきました。
ありがとうございました!

EXCELで幹葉図を自動作成したい方は、こちらのサイトに訪れてはいかがでしょう。

なお、インターネットでEXCELマクロが含まれるファイルを取得するため、マクロの実行がブロックされます。
ご利用の際には、次のサイトに対処方法をご確認ください。

EXCELサンプルファイルのダウンロード
今回はファイル提供はありません。

Pythonで作成してみよう!

プログラムコードを読んで、データを流したりデータを変えてみたりして、データを追いかけることで、作表ロジックを把握する方法も効果的でしょう。
サンプルコードを揃えておけば、類似する作表作業を自動化して素早く結果を得ることができます。

今回はランダムな数値の生成と幹葉図の作成に取り組んでみましょう。
幹葉図の描画は「stemgraphic」を利用します。

①ライブラリのインポート
主にNumPyとstemgraphic を使用します。
stemgraphicのインストールはpipで実施します。
stemgraphicをインストールする前に、次の関連ライブラリをインストールしておくことをお勧めします。
「docopt, matplotlib, pandas, seaborn, scipy」

import numpy as np
from stemgraphic import stem_graphic
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'MS Gothic'
%matplotlib inline

②得点データの生成
numpyのrandom.normalで作成します。

np.random.seed(100)
score = np.random.normal(loc=55, scale=18.0, size=25).astype(int)
print(np.sort(score))

出力イメージ
[23 34 35 39 44 45 46 47 50 50 51 53 58 58 59 61 62 64 67 69 72 73 75 82
 84]

③幹葉図の表示
stem_graphicを使用して作成します。
【引数の内容】
・asc:並び順。デフォルトは降順、Falseを指定すると昇順
・break_on:葉の折り返しの数(デフォルトは5)

stem_graphic(score, asc=False, break_on=10);
幹葉図サンプル

④ヒストグラムの表示
matplotlibのhistを利用してヒストグラムを作成します。
下から2行目のコメントを外すと、箱ひげ図の画像ファイルを指定したフォルダに保存できます。

plt.figure(figsize=(4, 3), tight_layout=True)
plt.hist(score, bins=10, range=(0, 100))
plt.title('ヒストグラム', fontsize=12)
plt.xlabel('得点(階級)', fontsize=10)
plt.ylabel('人数(度数)', fontsize=10)
# plt.savefig('./hist.png') # ヒストグラム画像ファイルの保存
plt.show()
ヒストグラムサンプル

⑤(参考)得点csvファイルの保存
NumPyのsavetextを利用して、ファイル名score.csvで作業フォルダに保存できます。

np.savetxt('./score.csv', score, delimiter=',', fmt='%d')

Pythonサンプルファイルのダウンロード
こちらのリンクからJupyter Notebook形式のサンプルファイルをダウンロードできます。



おわりに

記事番号 1-1 から 1-4(本記事) では、統計の基本図表の作図に取り組みました。
実際に作図を実践していただけたでしょうか?

ところで、次回の問題は図表が出現しません。
時系列データの特徴を文章で読み解く内容になります。

しかし文章だけでは、時系列データの特徴を伝えることが難しいです。
そこで、問題を飛び越えます!
サンプルデータを取得して図表を新たに描き起こし、時系列データ特有の変動要因の特徴を可視化することに挑戦します!

最後までお読みいただきまして、ありがとうございました。


のんびり統計シリーズの記事

次の記事

前の記事

目次

いいなと思ったら応援しよう!