
良いテストとはどんなものか?
テストが良くできているか、テストの質が高いかどうか、をどう判断していますか?テストなどの測定方法自体の評価について考える際に、信頼性や妥当性、そして実現可能性という概念があります。ここでは、それらの概念について説明します。
信頼性(reliability)
信頼性とはテストの安定性のことです。例えば、全く同じテストを全く同じ能力を持つ人に受けてもらった場合には、同じ結果が返ってくる必要があります。しかし、同じ能力の人が同じテストを受けても、採点者の判断が大きく異なっていたり、テストの指示文が誤解を招くようなものであった場合、同じ結果にならなくなります。このようなテストでは、意味がないでしょう。これは測定誤差ともいえます。つまり、テストの誤差が小さくて安定していることは、良いテストであることの重要な要素なのです。
信頼性の低い状態は、しばしば弓矢と的に喩えられます。信頼性が低いとは、的への狙いが定まらず誤差が大きい状態のことをいいます。

信頼性が低い例
スピーキングやライティングテストにおいて、採点者の重視する要素が異なり、同じ生徒に別々の評価を付けてしまう。
文法知識を測るための問題がたった一つしかなく、文法問題で高得点を取れるかは運の要素が強い。
テストの指示文が曖昧で分かりにくく問題が場合によっては誤解されて解答されてしまったり、解答欄の場所を誤りやすい作りになっている。
信頼性が高い例
スピーキングやライティングテストにおいて、採点者間で評価の付け方の共通認識があり、同じ生徒には同じ評価を付けることができている。
文法知識を測るための問題が複数の文法項目から出題されており、文法知識を満遍なく評価することができている。
テストの指示文が明瞭で分かりやすく、どの生徒にとっても同じ解釈で問題が解答される。解答欄の場所を間違うことはなく、分かりやすい。
妥当性(validity)
妥当性とは、測りたいものをきちんと測れているかどうか、という概念です。本当に測りたいものが測れているかどうか、を判断するのは教育心理学者でも非常に難しいです。なぜなら、妥当性の評価には2つ以上のテストの相関を出すなどで評価するのですが、もう一方の信頼できる妥当な指標を探すことが現実の教育場面では困難だからです。
しかし、この概念を知っていることはテストづくりに非常に役立ちます。例えば、読解力を測りたい場合、教科書の本文をそのまま出題するのは適切でしょうか?教科書の本文や意味を丸暗記して解答されてしまえば、読解力を測定しているのではなく、暗記力のテストになってしまうことは明らかです。
妥当性の低い状態は、しばしば弓矢と的に喩えられます。妥当性が低いとは、狙いの的へ当たっていない状態のことをいいます。なお、信頼性が低い(誤差が大きい)状態では、必然的に妥当性も低くなります。

妥当性が低い例
スピーキング能力を測る目的で、リーディング読解問題を出題する(リーディング能力を測っている)。
リーディング能力を測るために、教科書で一度扱って内容理解をした本文に関する設問を出題する(記憶力を測っている)。
ライティング能力を測るために、中国語を英訳する問題を出題する(中国語と英語の能力を測っている)。
妥当性が高い例
スピーキング能力を測る目的で、選んだお題に関して英語で即興のやりとりを行い、発話内容を評価する。
リーディング能力を測るために、授業で一度も扱ったことのない英文に関する設問を出題する。
ライティング能力を測るために、和訳英訳問題を出題する。
実現可能性(practicality)
テストを評価する際には、そのテストの実行可能性も重要な要素です。例えば、ライティングの評価をするのに、間違い一つ一つを事細かに探して、間違い一つに付き1ずつ減点していくことを求められたらどうでしょうか?間違いか否かの判断を全ての文に行うにはとてつもない労力がかかり、40人の生徒を評価することを考えると、とても現実的ではありません。また、テストを行うために非常に高価な機器を使わないといけないとしたら、その場合もまた現実的ではありません。評価は継続的に行っていくものですから、テストは現実的なものでなければならないのです。
まとめ
良いテストとはどのようなものかを考える上での指標となる、信頼性、妥当性、実現可能性について説明しました。テストを作る上で、ぜひこれらの要素を考慮して作問や評価をしていくと、より良いテストを実施できると思います。