速報DATA Saberへの道 5
2020年のプロ野球シーズンも残すところあとわずか
皆さんの御贔屓のチームの成績はいかがですか?
関西出身の私はもちろん『あのチーム』を応援しています。
こんにちは てらぴです。
私がDATA Saberの挑戦を開始したのが、8月8日
第104回全国高校野球選手権大会真っ盛りに開始しました。
♪ 今はもう秋 誰もいない海・・
私の挑戦もいよいよ佳境に入ってまいりました。
最後まで喰らいついて見せますよ!!!(あのチームにもお願いしたい)
==================================================
箱ひげ図って なに??
あまり見慣れないグラフなのか先日こんな質問をいただきました。
簡単ですが箱ひげ図について少し触れておきたいと思います。
Tableauのホワイトペーパー『最適なチャート/グラフを選択する方法』
には以下のような記載があります。
箱ヒゲ図 (ボックスプロットとも呼ばれる) は、データの分布を示す一般的な方法です。「箱」には、データの中央値と第 1 四分位数および第 3 四分位数 (中央値より 25% 以上および 25% 以下) が含まれ、「ヒゲ」は通常、四分位範囲 (IQR) (第 1 四分位数と第 3 四分位数の差分) の 1.5 倍内のデー タを表します。また、ヒゲはデータの最大および最小ポイントを示す際にも使用できます。
はい 今回のブログは以上になります。
最後までお読みいただきありがとうございました。
すみません もう少し簡単に説明したいと思います。
箱ひげ図の表しているもの

箱ひげ図は主にデータの分布を把握したい場合に使われます。
上の図のようにひげの一番上が値の最大値で一番下が最小値です。
箱の上が75%のデータで箱の下が25%のデータを表しています。
箱の中にある横線は中央値50%を表しています。
箱の中にはデータの50%が含まれています。
箱ひげ図は4等分

またそれぞれの範囲の中は四等分されています。
例えばデータが100あるとすると以下のようになります。
・最大値から75%の間に25個のデータ
・75%から中央値の間に25個のデータ
・中央値から25%の間に25個のデータ
・25%から最小値までの間に25個のデータ
どんな時に使うの?
下のグラフをごらんください。
昨日までのペナントレースの順位に並べて本塁打数を見ています。
(色がうるさいかもしれませんがチームカラーにしています。)
本塁打数では、首位ヤクルトと3位巨人が他チームを圧倒していますね。
平均でみるとヤクルトと巨人はおよそ1本の差となっています。

それを箱ひげ図にしてみてみると
じゃじゃーん

箱ひげ図にしてみると巨人は20本以上打っている選手が50%いて
ヤクルトは20本以下の選手が50%だということがわかります。
いかに村上選手がすごいか(外れ値)ということもわかります。
棒グラフだけでは、見えなかったことが見えてきましたね
Tableau Publicにも投稿しております
あわせてご覧いただけると嬉しいです。
2022年度 NPBセントラルリーグ本塁打数 | Tableau Public
最後までお読みいただきありがとうございました。