高校数学をプログラミングで解く(コラム)「1-6 『情報』の試作問題「第4問」」
はじめに
この記事では、令和7年度の大学入学共通テスト(旧センター試験)で新たな受験科目となる『情報』について、独立行政法人大学入試センター(DNC)が出している『情報』の試作問題を扱います。
https://www.dnc.ac.jp/albums/abm.php?d=511&f=abm00003277.pdf&n=6-2-1_試作問題『情報Ⅰ』※令和4年12月23日一部修正.pdf
令和7年度以降に大学受験をされる方は、本記事をお読みになる前に、是非一度この試作問題を実際にやってみてください。
試作問題「第4問」
今回は、『情報』の試作問題の第4問について考えてみます。
「第4問」の概要
「第4問」は問1から問5までで構成されており、配点としては25点になります。
独立行政法人大学入試センター(DNC)の
「令和7年度試験の問題作成の方向性、試作問題等」( https://www.dnc.ac.jp/kyotsu/shiken_jouhou/r7/r7_kentoujoukyou/r7mondai.html )
のページに、『令和7年度大学入学共通テスト 試作問題「情報」の概要』(https://www.dnc.ac.jp/albums/abm.php?d=511&f=abm00003141.pdf&n=6-1_概要「情報」.pdf)という資料があります。この資料のp.8にこの第4問の概要がまとめられています(図1)。
図1に記載されている通り、第4問はデータを分析する力やグラフから情報を読み取る力が問われます。『数学I』でも「データ分析」について学びますが、『情報I』ではデータを分析するだけでなく、データをうまく活用することを考えなくてはならないですね。
第4問 問1
データ分析は、どういう情報を得たいのかを考慮して仮説を立てて行うことが多いです。ただ、その仮説を立てたときに、その成否を用意したデータから読み取ることができなくてはなりません。そこで、この問1は用意したデータから読み取ることができる仮説を立てられるかどうかが問われます。なお、問1は「分析できない仮説」を選ぶ問題になっていることに注意してください。
以下、選択肢ごとに見ていきます。
「⓪ 若年層でスマートフォン・パソコンなどの使用時間が長いグループは,使用時間が短いグループよりも食事の時間が短くなる傾向があるのではない か。 」
この仮説は、問題文中の表1-Bの「食事(分)」の列のデータと表1-Aの「食事(分)」の列のデータとを比較することで分析できそうです。例えば、それぞれの食事の時間の平均値を計算して比較するなどが考えられます。なお、比較の結果、「若年層でスマートフォン・パソコンなどの使用時間が長いグループは,使用時間が短いグループよりも食事の時間が長い」という、仮説と違う結果が出たとしても、「分析できない仮説」という結論にはならないということに注意してください(結構勘違いする人が多いです)。あくまで、「分析できるかどうか」であって「仮説が正しいかどうか」ではないということです。
「① 若年層でスマートフォン・パソコンなどの使用時間が長いグループに注目すると,スマートフォン・パソコンなどを朝よりも夜に長く使っている傾向 があるのではないか。」
これは、「分析できない仮説」ですね。問1の答えは①になります。スマートフォン・パソコンなどの使用時間については「1時間未満」(表1-A)と「3時間以上6時間未満」(表1-B)に分かれていますが、使用時間帯についてのデータはありません。ですので、この仮説は分析できません。
「② 若年層でスマートフォン・パソコンなどの使用時間が長いグループに注目 すると,学業の時間が長い都道府県は趣味・娯楽の時間が短くなる傾向があるのではないか。」
この仮説は分析できそうです。例えば、問題文中の表1-Bの「学業(分)」の列のデータを見て、学業の時間が長い都道府県の上位5つと学業の時間が短い都道府県の上位5つとを選んできて、各上位5つの都道府県の「趣味・娯楽の時間」の平均値を算出して比較するなどが考えられます。
「③ 若年層でスマートフォン・パソコンなどの使用時間と通学の時間の長さは関係ないのではないか。」
この仮説も分析できそうです。例えば、問題文中の表1-Aの「通学(分)」の列のデータの平均値と表1-Bの「通学(分)」の列のデータの平均値とを比較するなどが考えられます。
第4問 問2
この問題は、箱ひげ図から情報を読み取る問題です。箱ひげ図は数学Iでも学びますので、ある程度おなじみの問題なのではないでしょうか。
以下、選択肢ごとに見ていきます。
「⓪ 睡眠の時間が 420 分以上である都道府県の数をみたとき,表1-Aの方が表1-Bよりも多い。」
以下の図3は、問題文中の図1に「睡眠の時間が 420 分以上」を表すラインを赤線と赤矢印で示したものです。この図3をみると、表1-Aの方では、「420 分」のラインが第1四分位数と中央値との間に入っていますので、「睡眠時間が 420 分以上」である都道府県の数は全体の50%から75%までの間にあることがわかります。一方、表1-Bの方では「420 分」のラインが最小値と第1四分位数との間に入っていますので、「睡眠時間が 420 分以上」である都道府県の数は全体の75%から100%までの間にあることがわかります。以上のことから、睡眠の時間が 420 分以上である都道府県の数をみたとき、表1-Aの方が表1-Bよりも少ないので、この選択肢は正しくないことがわかります。
「① 学業の時間が 550 分以上の都道府県は,表1-Aにおいては全体の半数以上あり,表1-Bにおいては一つもない。」
以下の図4は、問題文中の図2に「学業の時間が 550 分以上」を表すラインを赤線と赤矢印で示したものです。この図4をみると、表1-Aの方では、「550 分」のラインが第3四分位数と最大値との間に入っていますので、「学業の時間が 550 分以上」である都道府県の数は全体の0%から25%までの間にあることがわかります。一方、表1-Bの方では、「550 分」のラインが最大値より大きいところにきていますので、「学業の時間が 550 分以上」である都道府県の数は 0 であることがわかります。以上のことから、「学業の時間が 550 分以上の都道府県は表1-Bにおいては一つもない」は正しいですが、「表1-Aにおいては全体の半数以上あり」は正しくないので、この選択肢は正しくないことがわかります。
「② 学業の時間が 450 分未満の都道府県は,表1-Bにおいては全体の 75%以上であり,表1-Aにおいては 50%未満である。」
以下の図5は、問題文中の図2に「学業の時間が 450 分未満」を表すラインを赤線と赤矢印で示したものです。この図5をみると、表1-Aの方では、「450 分」のラインがほとんど第1四分位数の上にありますので、「学業の時間が 450 分未満」である都道府県の数は全体の約25%であることがわかります。一方、表1-Bの方では、「450 分」のラインが第3四分位数と最大値との間に入っていますので、「学業の時間が 450 分未満」である都道府県の数は全体の75%から100%までの間にあることがわかります。以上のことから、学業の時間が 450 分未満の都道府県は、表1-Bにおいては全体の 75%以上となっており、また、表1-Aにおいては 50%未満となっていますので、この選択肢は正しいことがわかります。
「③ 都道府県別の睡眠の時間と学業の時間を比較したとき,表1-Aと表1-B の中央値の差の絶対値が大きいのは睡眠の時間の方である。」
以下の図6は、問題文中の図1と図2のそれぞれに「表1-Aと表1-B の中央値の差の絶対値」を表すラインを赤線と赤矢印で示したものです。この図6をみると、睡眠の時間では、表1-Aと表1-B の中央値の差の絶対値は約 10 分程度であることが読み取れます。一方、学業の時間では、表1-Aと表1-B の中央値の差の絶対値は約 100 分程度であることが読み取れます。以上のことから、都道府県別の睡眠の時間と学業の時間を比較したとき、表1-Aと表1-Bの中央値の差の絶対値が大きいのは学業の時間の方であり、この選択肢は正しくないことがわかります。
なお、この選択肢③について考えるときには図1と図2とで横軸(時間)のスケールが異なっていることに注意する必要があります。つまり、単に「図1の赤ラインの間の幅が、図1の赤ラインの間の幅よりも小さい」と見た目だけで判断してはいけないということです。今回の場合はたまたま見た目にも「図1の赤ラインの間の幅が、図1の赤ラインの間の幅よりも小さく」なっていましたが、グラフの横軸のスケールの取り方によってはそれが逆転する場合があるので注意するようにしてください。
第4問 問3
問3は、「表1-Aの値から表1-Bの値を引いた差」が何を表しているかを理解することがポイントになってきます。表1-Aはスマートフォン・パソコンなどの使用時間が短いグループ、表1-Bはスマートフォン・パソコンなどの使用時間が長いグループでした。そのため、睡眠の時間を例にとると、「表1-Aの値から表1-Bの値を引いた差」が正の値をとる場合は、
表1-Aの値 > 表1-Bの値
となるので、これは「スマートフォン・パソコンなどの使用時間が短いグループの睡眠の時間が、スマートフォン・パソコンなどの使用時間が長いグループの睡眠の時間よりも長い」ということになります。
一方、「表1-Aの値から表1-Bの値を引いた差」が負の値をとる場合は、
表1-Aの値 < 表1-Bの値
となるので、これは「スマートフォン・パソコンなどの使用時間が短いグループの睡眠の時間が、スマートフォン・パソコンなどの使用時間が長いグループの睡眠の時間よりも短い」ということになります。これは、学業の時間についても同様です。
このことを考慮して、以下で選択肢ごとに見ていきます。
「A 学業の時間の差が正の値になっている都道府県の若年層は,スマートフォン・パソコンなどの使用時間が短いグループの方が,学業の時間が長い傾向にある。」
「学業の時間の差が正の値」ということですので、この場合、
表1-Aの値 > 表1-Bの値
となります。ですので、「スマートフォン・パソコンなどの使用時間が短いグループの学業の時間が、スマートフォン・パソコンなどの使用時間が長いグループの学業の時間よりも長い」ということがわかります。そのため、この選択肢は正しいと言えます。
「B 睡眠の時間の差が正の値になっている都道府県の若年層は,スマートフォン・パソコンなどの使用時間が短いグループの方が,睡眠の時間が短い傾向にある。」
「睡眠の時間の差が正の値」ということですので、この場合、
表1-Aの値 > 表1-Bの値
となります。ですので、「スマートフォン・パソコンなどの使用時間が短いグループの睡眠の時間が、スマートフォン・パソコンなどの使用時間が長いグループの睡眠の時間よりも長い」ということがわかります。そのため、この選択肢は正しくないと言えます。
「C スマートフォン・パソコンなどの使用時間による生活行動時間の差は,睡眠の時間よりも学業の時間の方に顕著に表れている。」
問題文中の図3(図7)を見ると、睡眠の時間に対する「表1-Aの値から表1-Bの値を引いた差」は中央値が 0 付近となっており、また最小値が約 -50 分、最大値が約 50 分程度となっているので、スマートフォン・パソコンなどの使用時間による生活行動時間の差は睡眠の時間にあまり表れていません。一方、学業の時間に対する「表1-Aの値から表1-Bの値を引いた差」は中央値が 100 分強となっており、また第1四分位数の値が正の値(約 50 分)のところにあることから、全体の75%以上で「スマートフォン・パソコンなどの使用時間が短いグループの学業の時間が、スマートフォン・パソコンなどの使用時間が長いグループの学業の時間よりも長い」という結果も得られるので、スマートフォン・パソコンなどの使用時間による生活行動時間の差は学業の時間に表れているということが言えそうです。つまり、この選択肢は正しいと言えます。
「D スマートフォン・パソコンなどの使用時間による生活行動時間の差は,学業の時間よりも睡眠の時間の方に顕著に表れている。」
これは、選択肢 C で解説した通り、睡眠の時間よりも学業の時間の方に顕著に表れているので、正しくないと言えます。
「E スマートフォン・パソコンなどの使用時間による生活行動時間の差は,学 業の時間と睡眠の時間の両方に同程度に表れている。」
これも、選択肢 C で解説した通り、睡眠の時間よりも学業の時間の方に顕著に表れているので、正しくないと言えます。
以上のことから、問3の答えは「⓪ AとC」となります。
第4問 問4
問4は、数学Iでも学ぶ「相関」の意味を理解しておくことがポイントになります。言い換えると、「相関」の意味さえ知っていればすぐに解ける問題です。
相関を復習しておくと、
「2つの変量のデータにおいて、一方が増えると他方が増える(減る)傾向が認められるとき、2つの変量の間に 正の(負の)相関関係 があるという。」
となります。
一方、データの散らばり度合いを見るには、データの分散などを計算することで見ることができます。
問題文を読むと、『都道府県単位でみたとき,学業の時間と睡眠の時間の間には,全体的には弱い負の相関があることが分かった。』とあります。実は、この問4はこの一文だけがポイントです。問題文中の図4に散布図なども載せてありますが、問4を解くことのみを考えると見なくてもよいものです。
以下、選択肢ごとに見ていきます。
「⓪ 睡眠の時間の方が,学業の時間より散らばりの度合いが大きいと考えられる。」
上記で説明したように、散らばりの度合いを見るためには、相関ではなく、分散などをみる必要があります。相関で解釈することはできませんので、これは「負の相関の解釈」とはなりません。
「① 睡眠の時間の方が,学業の時間より散らばりの度合いが小さいと考えられる。」
こちらも、⓪と同じ理由で、「負の相関の解釈」とはなりません。
「② 学業の時間が長い都道府県ほど睡眠の時間が短くなる傾向がみられる。」
これは、相関で見ることができます。また、「一方が長いほど他方が短くなる傾向」と言っているので、これはまさに負の相関の解釈と一致します。つまり、負の相関の解釈として正しいのは ② になります。
「③ 学業の時間が長い都道府県ほど睡眠の時間が長くなる傾向がみられる。」
これは、正の相関を表しています。つまり、負の相関の解釈とはなりません。
第4問 問5
問5は、回帰直線、変換値など、あまり聞きなれない用語が出てきますので、少し驚くかもしれません。ただ、この問5も問題文をよく読み、図をみてこれらの用語がどういうことを表しているのか推測しながら考えるとなんとなくわかってくると思います。
まず、回帰直線について考えてみます。問題文中の図5(図8)を見てください。
回帰直線は、各データ点からの残差を2乗してすべての点で和をとったものが最小になるように選ばれた直線です。誤解を恐れずに言うと、回帰直線は2つのデータ(ここでは学業の時間と睡眠の時間)の平均的な関係を表しているということができます。今回の回帰直線の式は$${y=-0.14x+491.17}$$となっています。例えば、学業の時間が$${600}$$分のとき、睡眠の時間は平均的に$${-0.14\times600+491.17=407.17}$$分になると推定することができます。これを推定値と呼んでいるわけです。
次は、変換値です。問題文に『残差を平均値 0,標準偏差 1 に変換した値(変換値)』と説明されています。そこでまず『残差を平均値 0 に変換する』ことを考えます。各データの残差を$${Y_i}$$($${i}$$は47都道府県を番号化したもの)とします。そして、これらの残差の平均値を$${\bar{Y}}$$とします。このとき各データの残差から平均値を引いた値$${Y_i-\bar{Y}}$$を$${\tilde{Y}_i}$$とすると、
$$
\sum_{i \in \mathrm{都道府県}} \tilde{Y}_i = \sum_{i \in \mathrm{都道府県}} (Y_i - \bar{Y})= \sum_{i \in \mathrm{都道府県}}Y_i - 47 \bar{Y} =0
$$
となるので、$${\tilde{Y}_i}$$は残差を平均値 0 に変換したものであると考えることができます。次に、『残差を標準偏差 1 に変換する』ことを考えます。$${\tilde{Y}_i}$$の標準偏差$${s_{\tilde{Y}}}$$は
$$
s_{\tilde{Y}}=\sqrt{ \frac{1}{47} \sum_{i \in \mathrm{都道府県}} \tilde{Y}_i^2 }
$$
で表すことができます。ここで、$${\tilde{Y}_i}$$をこの標準偏差$${s_{\tilde{Y}}}$$で割ったものを$${\hat{Y}_i}$$とします。このとき、
$$
\frac{1}{47} \sum_{i \in \mathrm{都道府県}} \hat{Y}_i^2 = \frac{1}{47} \sum_{i \in \mathrm{都道府県}} \frac{\tilde{Y}_i^2}{s_{\tilde{Y}}^2} = \frac{1}{ s_{\tilde{Y}}^2} \frac{1}{47} \sum_{i \in \mathrm{都道府県}} \tilde{Y}_i^2 = \frac{1}{ s_{\tilde{Y}}^2} s_{\tilde{Y}}^2 = 1
$$
となるので、$${\hat{Y}_i}$$は残差を標準偏差 1 に変換したものであると考えることができます。このような変換を行った残差を変換値と呼んでいます。
では、本題に戻ります。まず、「オ」について考えます。問題文中の図6(図9)を見てみます。「オ」は、『平均値から標準偏差の2倍以上離れた値を外れ値とする基準で考えれば,外れ値となる都道府県の数は何個である』かを聞いています。つまり、このグラフでは残差の標準偏差が 1 になるように変換しているわけですから、残差の変換値が 2.0 以上または -2.0 以下になっているデータの個数を数えればよいわけです。答えは 2 個(ちょうど問題文中の図6の⓪と②に対応しています)となります。
次は「カ」を考えます。そのために、Q県について考えてみましょう。問題文中の図5(図8)をあらためて見てみると、Q県は回帰直線の上側にデータ点があるので、残差は正の値を持っていることがわかります。また、Q県に対して回帰直線の式をもとに学業の時間から推定される睡眠の時間(推定値)は 406.8 分となっています。そして、問題文中の図6(図9)をみると、Q県のデータは横軸の睡眠の時間の推定値が 406.8 分 のところで、縦軸の残差の変換値が正の値を持つようにプロットされていることがわかります。
Q県に対するこの対応関係を考慮して、P県について考えてみます。問題文中の図5にP県の睡眠の時間の推定値がわかるように赤色で点線を引いてみました(図10)。
これをみると、P県は回帰直線の下側にデータ点があるので、残差は負の値を持っていることがわかります。また、P県に対して回帰直線の式をもとに学業の時間から推定される睡眠の時間(推定値)は 430 分と 440 分との間に入っていることがわかります。そして、問題文中の図6(図9)をみると、P県のデータは横軸の睡眠の時間の推定値が 435 分前後のところで、縦軸の残差の変換値が負の値を持つようにプロットされていることが推測できるので、問題文中の図6の①がP県であると考えることができます。
最後に、「キ」について考えます。問題文中の図6の①がP県であることがわかったので、①が外れ値になっているかどうかを判定すればいいわけです。①は、外れ値の基準である -2.0 よりもわずかに大きい値になっているので、外れ値にはなっていません。つまり、「キ」は「① 外れ値となっていない」となります。
まとめ
今回は、令和7年度の大学入学共通テスト(旧センター試験)で新たな受験科目となる『情報』について、独立行政法人大学入試センター(DNC)が出している『情報』の試作問題の第4問を考えてみました。
第4問は「データ分析」に関する問題で、データを分析する力やグラフから情報を読み取る力が問われます。『数学I』でも「データ分析」について学びますが、『情報I』ではデータを分析するだけでなく、データをうまく活用することを考えなくてはなりません。一度はじっくりとこの第4問に取り組んでおくことをお勧めします。
参考文献
独立行政法人大学入試センター(DNC)のWebサイト
「令和7年度試験の問題作成の方向性、試作問題等」https://www.dnc.ac.jp/kyotsu/shiken_jouhou/r7/r7_kentoujoukyou/r7mondai.html
高等学校『情報I』数研出版、ISBN:9784410821219
改訂版 教科書傍用 スタンダード 数学I(数研出版、ISBN9784410209178)
この記事が気に入ったらサポートをしてみませんか?