項目反応理論の紹介

2024年2月28日 10:24

はじめに

こんにちは、ライフイズテックサービス開発部でデータサイエンティストをやっているホンディーです。

今回の記事では項目反応理論(Item Response Theory: IRT)を紹介します。これは教育や心理学の分野で試験やアンケートを作成、分析する際に使われる理論です。その必要性や利点を理解していただくため、まずは旧来のテスト理論が抱える課題から話を始めたいと思います。

旧来のテスト理論とその課題

試験やアンケートを作成する際には様々な方法が用いられますが、長い間多くの場面で使用されてきたのが「古典的テスト理論(Classical Test Theory: CTT)」です。前回のnote記事で紹介した項目特性図も古典的テスト理論で用いられている手法です。この理論では、試験の得点を直接受験者の能力や特性を反映するものと見なします。

例えば、数学のテストで高得点を取ればその人は数学が得意であると評価されるわけですし、平均点が低いテストは難しいテストと見なされます。しかし、このアプローチにはいくつかの課題があります。

その課題の中でも個人的に特に大きな課題として感じるのは複数のテスト間の比較が困難なことです。

要するに、ある生徒がある数学のテストで70点を取り、別の生徒が別の数学のテストで60点を取った場合に、生徒Aのほうが数学がよくできるとか、生徒Bが受けたテストのほうが難しかったといった主張はできないわけです。

この課題に対応するため、点数ではなく偏差値が使われることも多いですが、そのテストを受験した母集団が違えば偏差値を使っても対等な比較はできません。ある数学のテストは広く一般の高校生が受験して出て、別の数学のテストは難関大学受験を目指す理系の生徒だけが受験しているといった違いはよくあることで、偏差値50が示す学力がそれぞれ大きく違うことがあります。そして、そもそも偏差値ではテストの難易度の方は測れません。

この他にも古典的テスト理論には多くの課題が指摘されていますので興味のある方は専門書等の情報を確認してみてください。それらの課題に対応するために考案されたのが項目反応理論です。

項目反応理論（IRT）とは

Wikipediaの説明を引用しましょう。(Wikipediaでは項目応答理論という項目名になっていますが、各専門書のタイトルで項目反応理論と翻訳されていることが多いので僕は項目反応理論の方を使っています。)

項目応答理論（こうもくおうとうりろん）または項目反応理論（こうもくはんのうりろん）、略称IRT (Item Response Theory; Item Latent Theory) は、評価項目群への応答に基づいて、被験者の特性（認識能力、物理的能力、技術、知識、態度、人格特徴等）や、評価項目の難易度・識別力を測定するための試験理論である。この理論の主な特徴は、個人の能力値、項目の難易度といったパラメータを、評価項目への正誤のような離散的な結果から確率論的に求めようとする点である。

(中略)

項目応答理論は、運による要素や評価の相対性といった性質をもつ古典的テスト理論の限界を解消し、受験者の実力をより正確に測ろうとする理論である。項目応答理論では、個々の項目（問題）に対して、正答率や配点では無く、下記のパラメータを用い、受験者の能力を推定する。例えば、識別度が著しく低い問題の正誤は、受験者の能力を決めるのにほとんど影響が無いといったことが起こる。また、同じ正答率・得点を得た受験者同士でも、項目反応理論による能力値は違う結果になることが起こる。

項目応答理論 - Wikipedia

要するに、「この生徒がこのテストを受けたら何点だったよ」と生徒とテストのペアに対して得られた点数をそのまま使うのが古典的テスト理論で、個々の生徒にはその能力(学力)を表すパラメーターが存在し、個々のテスト問題にはその問題の難しさなどの性質を表すパラメーターが存在すると仮定して、これらを解答データから統計的に算出し活用しようと試みるのが項目反応理論です。

基本的な項目反応理論では問題の性質を示すパラメーターを何種類使うかで複数のモデルが提唱されています。

例えば、2パラメーターモデルでは、生徒の学力を示すもう1つのパラメーターと合わせて次の3種類のパラメーターが用いられます。

$${\theta_i}$$: 生徒の能力(学力)を表す。生徒ごとに存在する。
$${a_j}$$: その問題の生徒の学力を識別する力(識別力)を示す。
$${b_j}$$: その問題の難しさ(困難度)を示す。

そして、生徒iが問題jに正解する確率は以下の式で示されるものと仮定します。$${D}$$はロジスティック分布を正規分布に近似するための定数で、$${D=1.701}$$です。

$$
p_j(\theta_i) = \frac{1}{1+e^{-Da_j(\theta_i-b_j)}}
$$

数式だとイメージがつきにくいかもしれないので、識別力aと困難度bのうち一方を固定して、もう一方を変化させた場合の、生徒の学力別の正解率をプロットしたグラフを作成しました。どれも生徒の学力が高いほど正解率が上がっている点は共通していますが、様々なパターンを表現できることがわかります。

この他にも、識別パラメーター$${a}$$を全問題で共通の定数としてしまう1パラメーターモデルや、多肢選択式問題等に偶然正解してしまう確率$${c}$$を追加した3パラメーターモデル、更に正解率に上限があると仮定する4パラメーターモデルなどがあります。

他にも生徒の能力を示すのに複数のパラメーターを利用するものや正解/不正解の2値分類以外に対応するものなどより高度なバリエーションも存在します。

$${\theta_i, a_j, b_j}$$のパラメーターから問題の理論上の正解率を計算するのは上記の式に代入するだけなので簡単ですが、実際の運用で手に入るデータは各生徒が各問題に正解したかどうかの結果のみです。そのデータからパラメーターを逆算して推定する必要があるため、ここで最尤推定やベイズ推論などの統計的な手法を使います。

項目反応理論でできること

項目反応理論を用いると、生徒の学力と問題の難しさ等のパラメーターを切り離して評価できるため、多くの事が可能になります。いくつか紹介します。

1. 問題の難しさの精密な評価

この問題の正解率は何%というたまたまその問題を解いた生徒の学力に大きく依存した評価をする古典的テスト理論と違い、問題固有のパラメーターとしてその問題の困難度を算出することができるようになります。また、そこから学力ごとの正解率が算出できるため、このクラスの上位の生徒であればこの問題は80%程度正解できるが平均くらいの生徒であれば正解率40%くらいになる、といった情報を得られるようになります。

2.テストの難易度のコントロール

事前に問題ごとの正解率を推定できるため、テストを平均点や点数分布を事前に予測しながら作成することができます。これは特に難易度を揃えて複数のテストを作成したい場合に非常に有効です。理科や社会などの選択科目で受験生によって受験教科が違っても有利不利が出ないようにしたい、学習前後の成長を見るために同じ出題範囲の別の問題で難易度を揃えたテストを行いたい、といったケースで大いに役に立ちます。

3. 能力推定精度の向上

項目反応理論は生徒の能力をより正確に推定できるように設計されていて、従来の各問題に配点を設定して点数を出す方式よりも正確な評価が行えます。また、テスト途中であってもその時点までの回答結果から、その生徒の能力をより正確に評価するのに適した難易度の問題を選ぶことができ、生徒ごとに出題を変えながら少ない問題数で効率的に能力を測るといった応用も可能です。この特徴により項目反応理論は複数の資格試験等に取り入れられています。

ライフイズテックでの活用方法

項目反応理論が資格試験や心理テスト等に導入される場合、多くのケースでそのテストの受験者の能力や性格的な特徴を正確に測ることを目的としています。

しかし、最近のライフイズテックのサービス開発部では主として受験者ではなく問題の難しさ等の特徴を評価する目的で使っています。特に学習塾向けに提供している情報AIドリルで出題している問題が難しすぎたり、逆に易しすぎたりしないかといった基本的な分析から着手しています。

同一教材の分析で、利用している生徒が同じなのだから項目反応理論を使わなくても単純に正解率を見たら問題の難易度は比較できるのでは？と思われるかもしれませんが、それがそうでもないのです。

特に学習塾向けの情報AIドリルはまだ提供開始から1年経っておらず、多くの生徒様がすでに利用してくれたカリキュラムの初期の方と、リリース初期から利用を開始して長期的に使っていただいている生徒様が学習してくれている終盤の方の問題では、解答してくださった生徒様の学力の分布が違います。
そのため、序盤(1,2章)の正解率50%の問題と終盤(5,6章)の正解率50%の問題は難しさが違うのです。

これからいよいよ共通テスト本番が近づくにつれて、多くの生徒様に最初から最後まで学習していただけるとなったときに、序盤と終盤の正解率が同じくらいだから同じ難易度だろう、と油断していると最初の方の問題は易しすぎて最後の方の問題は難しすぎたといった課題が後になって発覚するリスクがあります。それに先手を打って対応するために項目反応理論を活用し、精緻な分析を行っています。

また、これからは他の資格試験等で利用されているのと同じ様に生徒様の各単元の理解度を正確に把握し、弱点を効率的に学べるなど一人一人に最適なカリキュラムを提供するといった活用もできるよう取り組んで行く予定です。

まとめ

今回の記事では項目反応理論の概要とその必要性について紹介させていただきました。僕自身、まだ項目反応理論を利用し始めて3ヶ月も経っていないのですが理論として美しく、応用範囲も広く大変面白い分野だと感じています。

普段から情報AIドリルの実際の学習データを用いて各種分析を進めていますが、項目反応理論のモデルを検証する中でご利用いただいている生徒の皆様が本当に真剣に学習に取り組まれていると感じることが有り、とても嬉しく思っています。項目反応理論を使うとこの生徒がこの学習項目の問題を解答すると正解率は何%くらいのはずと予想できるので、デタラメに解答して低い正解率になるとわかるのですが、そのような事例は少ないのです。

真剣に学習に取り組まれている皆様の努力が成果につながるものになるよう、より良い教材を提供するためこれからも頑張って行きたいと思います。

おしらせ

ライフイズテックサービス開発部では、気軽にご参加いただけるカジュアルなイベントを実施しています。開催予定のイベントは、 connpass のグループからご確認ください。興味のあるイベントがあったらぜひ参加登録をお願いいたします。皆さんのご参加をお待ちしています！