見出し画像

どうしてそこまで「箱ひげ図」なのか

Cover Photo by Wim van 't Einde on Unsplash

中学2年生は、中学1年生の2つの内容の続きで、データの分布と確率を扱います。中学校でこんなところまで指導することになったんだあ・・・と、昭和の時代との差をひしひしと感じます。

中学2年生(1)データの分布

(1) データの分布について,数学的活動を通して,次の事項を身に付ける
 ア:知識及び技能
  (ア)四分位範囲や箱ひげ図の必要性と意味を理解すること。
  (イ)コンピュータなどの情報手段を用いるなどしてデータを整理し箱ひげ図で表すこと。
 イ:思考力,判断力,表現力等
  (ア)四分位範囲や箱ひげ図を用いてデータの分布の傾向を比較して読み取り,批判的に考察し判断すること。

「解説」より

中学1年生と何が変わっているかと言うと、
項目ア(ア):「ヒストグラムや相対度数など」→「四分位範囲や箱ひげ図
項目ア(イ):「表やグラフに整理すること」→「箱ひげ図で表すこと」
項目イ(ア):「目的に応じてデータを収集して分析し」→「四分位範囲や箱ひげ図を用いて」
というわけで、四分位範囲と箱ひげ図に全力投球せよ、といわんばかりの内容ですね。なぜなんでしょう、この「箱ひげ図」"推し"感は。

四分位数の求め方

統計の学習をしたことがある方ならご存知でしょうが、四分位数の決め方はけっこう悩ましい、というか、「ええ加減にしてよ!」と思える部分があります。「解説」もこのことはわかっていて、「四分位数を求める方法として幾つかの方法が提案されているが,ここでは四分位数の意味を把握しやすい方法を用いる。」と記しています。その「把握しやすい方法」とは、次のようなものです。

「解説」p.121より(赤枠は引用者)

この方法のポイントはいくつかあるのですが、

  1. データサイズが奇数であること。

  2. 中央値に該当したデータ(上の例では「26」)を、取り除いたのちに、第1四分位数や第3四分位数を決めること。

です。上のように、中央値に該当したデータを取り除くやり方は、Excelの箱ひげ図オプション「排他的な中央値」(関数 QUARTILE.EXC)に該当します。
一方、中央値に該当したデータを含んだまま第1・第3四分位数を計算するやり方は、同じく「包括的な中央値」(関数 QUARTILE.INC)に該当します。つまり、中央値を26と決めた後、小さい方の5つ(23, 24, 25, 26, 26)の中央値である25が第1四分位数、大きい方の5つ(26, 29, 30, 34, 39)の中央値である30が第3四分位数になります。26というデータが複数あるのでわかりにくいですが、中央値としてすでに選ばれた「26」が、小さい方の5つ、大きい方の5つの両方に含まれているところが、「排他的」との大きな違いです。

Excelでの分析結果

ひげの上端と下端の求め方

ところで、上に示したExcelの分析結果で、ひげの上端の位置が異なっていることにお気づきでしょうか。
学習指導要領で扱っているのは、ひげの上端はデータの最大値、ひげの下端はデータの最小値、とする描き方です。
一方、ExcelやRが(デフォルトで)採用しているのは、四分位範囲をもとに決定するやり方です。ひげ上端の決め方だけを説明すると、次のようになります。

  1. 四分位範囲を計算する。第3四分位数から第1四分位数を引く。(当然ですが、中央値の扱いが「排他的」と「包括的」では異るので、第3四分位数、第1四分位数も異なり、四分位範囲も異なります。)

  2. 四分位範囲を1.5倍した数を、第3四分位数に加える。(「排他的」では、32+7.5×1.5=43.25のようにします。)これがひげの上端の限界の値

  3. ひげの上端の限界の値以内で、最も大きい値を、ひげの上端とする。(「排他的」では、上端の限界が43.25で、データにはこれより大きい値がないので、ひげの上端は39。一方、「包括的」では、上端の限界が37.5で、それ以内で最大の値である34をひげの上端とする。)

ひげの上端・下端の決め方

箱ひげ図の良さと悪さ

箱ひげ図の良さは、データの分布を簡潔に表せることです。2つのデータがあったときに、箱ひげ図を並べて描くことで、データの分布の違いについて議論することができます。ヒストグラムで同様のことをしようとするなら、ヒストグラムのそれぞれの長方形の上端を直線で結んだ「度数多角形」を使うことになります。

箱ひげ図の悪さは、データが特殊な分布をしていた場合など、箱ひげ図だけからは、その特殊さがわからないことです。つまり、細かい分布の特徴が失われやすいということです。このことはヒストグラムにも言えます。ただし、ヒストグラムの場合は階級幅を調整することでこれにある程度対応することが可能でが、箱ひげ図にはそうしたオプションがありません。

もう1つの悪さは、上に長々と書いたように、中央値や四分位数の計算の仕方、ひげの上端下端の決め方に複数の方法があることです。試験問題などで、データと複数の箱ひげ図が示されて、このデータを正しく表している箱ひげ図はどれか、のように出題されているのを見たことがありますが、あまり細かい違いを問題にすると、受験する生徒が気の毒です。統計ソフトで箱ひげ図などを描くことを覚えると、教科書とは異なる図を描くことが、決してまれにではなく、起こりえるからです。

演習問題

16,22,18,13,12,26,18,24,18,12
18,12,16,27,18,16,23,22,24,20
16,18,18,18,18,23,25,14,23,23
20,18,18,24,22,15,25,24,16,25
24,20,23,26,11,18,16,22,22,20
23,18,15,27,24,10,15,18,24,15
11,21,26,15,20,18,18,18,25,16
14,14,14,14,15,23,14,25,23,27
14,18,27,27,18,23,23,15,15,25
13,13,20,25,15

上に示したデータを使って、四分位数・四分位範囲、最小値・最大値を求め、箱ひげ図を描いてください。
余裕があれば、方法を変えると四分位数が変わるのかも試してください。