
100点満点にするのは時代遅れ?現代のテスト理論
テストと言ったら100点満点。小学校から我々日本人は多くテストで経験してきているのでそれが当たり前と刷り込まれている気がします。
(日本だけではないとは思いますが、私が住んだことがある日本以外の他の国々では100点が満点という意識は少なかったように感じます。)
ぴったり100問あるテストならともかく、多くのテストはそうではないので、問題ごとの配点や全体の点数配分を100点になるよう調整しなければなりません。
しかし、これは本当に必要なことなのでしょうか?また、これがテストの目的にどのような影響を及ぼしているのでしょうか?今回は、テストの点数配分に潜む落とし穴と、本質的な評価のあり方について考えてみたいと思います。
<今回の参考文献>
靜哲人 (2002). 『英語テスト作成の達人マニュアル』. 東京: 大修館書店.
配点の調整は本当に必要?
学校や資格試験など、多くのテストでは、全体の点数を100点にそろえたり、特定のセクションを一定の点数に調整したりする操作が行われます。しかし、実はこのような操作には根本的な問題が潜んでいます。
例えば、全体の点数を100点にそろえることを優先すると、試験作成者の意識が「大問ごとの配点」や「計算上の整合性」に向きがちです。その結果、もっと重要な部分、つまり「どのような能力を測るための問題を何問出題すべきか」という観点が後回しにされてしまうリスクがあります。
テストの本質は、受験者がどのような知識やスキルを持っているのかを適切に測定することです。点数配分の調整にこだわるあまり、本来の目的である評価の精度を損なう可能性があるのです。
配点を変える理由は何か?
配点を問題ごとに変える理由として、多くの人が次のように考えるでしょう。
「易しい問題よりも難しい問題の方が価値が高い。だから、難しい問題に重みをつけるべきだ。」
確かに一見理にかなっているように思えます。しかし、ここでテスト理論に目を向けてみましょう。
テストの信頼性(内的一貫性)が十分に高い場合、難しい問題が解ける人は易しい問題も解ける傾向にあります。つまり、難しい問題に高い配点を与えなくても、結果として点数に大きな影響は出ません。
【具体例】
例えば、ある英語テストを考えてみましょう。ここでは分かりやすく、10点満点の例にします。
・単語の意味を問う簡単な問題:1点×4問=4点
・長文読解を含む高度な分析を必要とする問題:3点×2問=6点
難易度やかかる時間などを考えて、単語は1点、長文は3点、合計10点満点になるような配点にしたとします。
では結果を見てみましょう。
Aさん・・・単語:3問正解=3点 長文:1問正解=3点 合計6点
Bさん・・・単語:4問正解=4点 長文:2問正解=6点 合計10点
Cさん・・・単語:2問正解=2点 長文:0問正解=0点 合計2点
Bさんは満点なので、単語も読解もほぼ完全に理解していると言えるでしょう。
Aさんは単語と長文それぞれ1問ミス。一定の理解はあるものの、まだ知識が不完全だと考えられます。
Cさんは単語の正答率が50%、長文は全く解けない状態です。この範囲を再度学習し直す必要がありそうです。
このように、テスト結果から受験者の知識やスキルを適切に測ることができているので、良いテストだと言えそうです。
では、この配点をすべて1点に揃えた場合、どう変わるでしょうか?
Aさん・・・単語:3問正解=3点 長文:1問正解=1点 合計4点
Bさん・・・単語:4問正解=4点 長文:2問正解=2点 合計6点
Cさん・・・単語:2問正解=2点 長文:0問正解=0点 合計2点
満点が変わるため、点数の絶対値は異なりますが、順位や結果の傾向は変わりません。つまり、全問に均等な配点をした場合でも、きちんとしたテストであれば結果に大きな違いは生じないのです。
「それはたまたま今回の例が良かっただけでは?」と思うかもしれません。そこで、別の例を見てみましょう。
Dさん・・・単語:0問正解=0点 長文:2問正解=6点 合計6点
Dさん・・・単語:0問正解=0点 長文:2問正解=2点 合計2点
(上:10点満点に調整した場合 下:均等に配点した場合)
Dさんは、単語は全然できませんが、長文は得意で満点を取りました。長文の配点を高くした場合は合計6点になり同じ条件のAさんと変わらないのに、すべて1点にした場合は合計2点と最下位のCさんと同じレベルになってしまいました。
こうして比較すると、単語しかできないCさんよりも、長文が解けるDさんの方がスキルが上なので、やはり配点を変えたほうがいいのでは?と思うかもしれません。
ここで、最初に述べたテスト理論の話をもう一度見てみましょう。
テストの信頼性(内的一貫性)が十分に高い場合、難しい問題が解ける人は易しい問題も解ける傾向にあります。つまり、難しい問題に高い配点を与えなくても、結果として点数に大きな影響は出ません。
信頼性の観点から考える
信頼性の高いテストであれば、Dさんのような「単語はできないが、長文は解ける」という矛盾は通常起こりません。単語が理解できていないのに応用的な長文が解けるのは、何か別の要因が関与している可能性があるからです。
例えば
挿絵を見て何についての文章か推測できてしまった。
以前に同じ文章を読んだことがあり、読まなくても解答できた。
このようなケースがある場合、そのテストは信頼性が低い可能性があります。したがって、配点が問題になるケースの多くは、そもそもテストに欠陥がある場合が多いのです。
まとめ
以上で見てきたように、テストの点数を100点満点にそろえる必要は必ずしもありません。得点調整ってやってみるとわかりますが、結構難しくて手間もかかるんですよね。そこに時間をかけるのなら、それよりも測定したい能力や知識を正確に反映する問題を作成し、バランスの取れた評価を行うことが重要です。
実際に「68点満点のテスト」とか作ってみると、ちょっと違和感があるかもしれませんが、結局「~%」とかで示してあげれば分かりやすくはなるので(勝手に学習者側も自分でどれぐらいできたか計算しますし)意外となんとかなるものです。
配点に過度にこだわるのではなく、本来の目的に立ち返り、「何を測るべきか」「どのように測るべきか」を真剣に考えることが、質の高いテスト作成への第一歩です。
次回テストを作成する際には、この視点を取り入れてみてはいかがでしょうか?