項目反応理論
加藤健太郎, 山田剛史, 川端一光 著『Rによる項目反応理論』(2014)
http://www.amazon.co.jp/dp/4274050173
Amazonの内容紹介より:
よりよいテストを提供するための評価手法「項目反応理論」をRを使って習得! IRTと言われる項目反応理論は、新しいテスト理論です。従来のテスト理論では母集団やテスト問題が異なる場合、テスト得点を比較することはできませんでした。それらの問題を解決するために登場したのがIRTです。大規模テストにおいて管理・運営・測定・評価の手法として大きな役割を果たしています。近年、日本にもその手法が定着しつつあります。Rを使って、IRTに関するさまざまな知識の習得を目標に、読むだけではイメージしにくかったパラメタの推定方法を、手順を追体験しながら理解することができます。
今私が取り組んでいることの一つに、ICT教育とデザイン教育の違いを比較調査することがある。だが、その2つを検討するにはまず受講生が違う(母数とその性質が異なる)こと、受講する授業が違う(比較対象が異なる)ことが問題であり、その両者を比較することは困難である。そこで、この「項目反応理論(IRT)」の存在を教えてもらった。Amazonの内容紹介を見ると、今まで比較できなかったものが比較できるようになる、と夢のような理論であるように思えた。結論から言うと、この場合には使えなそうだった。一般的にIRTは正解/不正解がはっきり決まっているテストに対して行なわれる評価方法である。例えば、TOEFLや数学基礎学力診断テスト、英語学力テストなど点数化できるテストである。一方、私が取り組んでいるものはPBL(Project-Based Learning)という課題解決型のグループ学習であるため、そもそも正解がない。成績付けは自己評価やメンバー評価にもとづいて、担当教員がグループ学習の様子を観察して行なわれる。そのため共通の評価指標が定めにくく、IRTは使いづらいという印象である。
とはいえ、考え方は他の場面で使えるかもしれないので理解した内容を以下にメモしておくことにする。項目反応理論は、一言で言うと確率が起こる確率を求めてその関係性を明らかにする考え方、であるように思う。
1. 項目反応理論: IRT
クイズ:
A中学の生徒がテストxを、B中学の生徒がテストyを受けたとします(2つのテストxとyは、同じ教科・内容ですが問題は異なるものとします)。このとき ……
Q1. A中学の片桐さんが80点、B中学の小林さんも80点だった。2人の実力は等しい?
Q2. A中学の仁くんの学内偏差値は65、B中学の健太郎くんの学内偏差値も65だった。2人の実力は等しい?
Q3. テストxの平均点は60点、テストyの平均点も60点だった。2つのテストの難易度は等しい? [pp.2]
このテストは素点である(100点満点のうちの◯◯点である)。そして、このいずれのQ. の答えは、言わずもがな「等しいとはいえない」である。
この例から、
① テストの難易度の評価は、そのテストを受けた集団のレベルに依存する(集団依存性 group dependence あるいは 標本依存性 sample dependence)
② 個々の受験者のテスト得点は、テスト項目の難しさに依存する(項目依存性 item dependence)
という性質が分かる。そのため、受験者集団が異なりテスト項目も異なる場合、それらのテスト得点を直接比較することはできない。この正答率や素点に基づいた従来の評価のための理論を、古典的テスト理論(classical test theory)とよぶ。そこで、これらを比較できるようにした理論が登場した。それが項目反応理論(item response theory: IRT)である。
2. 項目特性曲線: ICC
IRTの特徴は、テストに含まれる難しさ(項目困難度)と受験者の能力を別々に推定し、同じ物差し上で評価できることである。
① 項目によらない測定(item-free measurement)
② 受験者によらない測定(sample-free measurement)
が可能になる。
それを明らかにするための項目特性曲線(item characteristic curve: ICC)を次に示す。[図1.1 は、pp.5より抜粋]
縦軸はあるテスト項目{1, 2, 3}に正答する確率、横軸θは受験者の能力の高さを表す(θ値が高いほど能力が高い)。項目のなかの括弧にある aは項目識別力パラメタ、bは項目困難度パラメタであり、前者は曲線の傾きの大きさ、後者は曲線の位置を表す。この図から、次のことが分かる。
① 能力θの人がその項目{1, 2, 3}に正答する確率
θ=0 のとき
項目1 正答率=およそ0.8
項目2 正答率=0.7
項目3 正答率=およそ0.1
→ 能力θの人にとって、項目1の難易度が高い
② 正答率0.5になるために必要な能力θ
正答率0.5 のとき
項目1 θ=-1.0
項目2 θ=-1.0
項目3 θ=1.5
→ 項目3を正答するときに、最も高い能力が必要である
→ 項目3は、項目1や項目2より難しい設問である
③ 受験者の能力を見分ける指標として最適な項目
項目1(a=1.0, b=-1.0)と項目2(a=0.5, b=-1.0)を比較:
θ=-1.0 近辺のとき
項目困難度 b が等しいので、正答率 0.5 に対応する
受験者の能力はθ=-1.0 で等しい。
→ 項目1のほうがθ=-0.1 近辺の傾きが大きく、
受験者の能力を見分ける指標としては項目2よりも有効である。
(項目パラメタaは項目識別力ともよばれる。)
3. 等化
IRTで先に挙げた標本依存性や項目依存性の問題をクリアするためには工夫が必要で、適応するためには次の条件が必要となる。
・テストを構成する個々の項目について、項目困難度や項目識別力といった項目の特徴を示すパラメタの値がすでに明らかになっている。
・異なるテストについて、それらのテスト得点を比較可能にする手続き(等化)が行なわれている。
1つ目の条件のためには、すでにそのテストをどこかで実施している必要がある。そして実施する際には、本番と同じような性質を持った集団であるのが望ましい。すでに実施したテスト項目とそこで得たデータを集めたものを項目プール(item pool)あるいは項目バンク(item bank)という。IRTを利用することを前提とすると、コンピュータ化された適応型テスト(computerized adaptive testing: CAT)の需要が増えてくることが予想される。CATを利用することで、受験者の能力に合わせた出題項目を自動で選択することや、出題項目を操作し平均値を適切な値に変更することができる。
ただ、一度どこかで実施したテストであれば過去問として勉強できる。過去問を知った受験者がいる場合、適切な評価ができなくなるため、実施したテストを非公開にするなどの工夫が必要である。大学受験などのテスト項目においてはこれはあまり現実的ではない。そのため、非公開にできないテストではIRTを実施しづらいという問題がある。