見出し画像

項目反応理論(IRT)で算出した問題の正解率はどのくらい正確なのか検証してみた

はじめに

こんにちは、ライフイズテックのデータサイエンティストのホンディーです。今回は久しぶりに項目反応理論(IRT)のお話です。

ライフイズテックが学習塾や予備校向けに提供している「情報AIドリル」というサービスがあります。この情報AIドリルではここ数ヶ月、共通テスト本番に向けて全国模試定着度テストなど新しいコンテンツを続々とリリースしています。これら2つは元々あった学習項目と異なり、期間限定で受験するテスト形式の教材です。

ライフイズテックでは、従来から教材の改善を目的として項目反応理論を活用しており、普段の分析によく使っているのは問題ごとに推定した困難度や識別力のパラメーターです。

しかし、項目反応理論の項目特性曲線は、本来は生徒と問題のパラメーターからその生徒がその問題に正解する確率を算出するものです。せっかく新しい問題も増えているので、改めて項目反応理論で算出した正解率がどのくらい正確なのか、という観点で検証をやってみました。

noteの記事としては(AICなどの専門的な指標より)シンプルに正解率で評価した結果がわかりやすいと思うので、最後に項目反応理論で算出した理論上の正解率と実際の正解率をプロットした図をお見せします。

検証した内容とその手順

検証したいのは、新規で追加した問題の正解率を項目反応理論でどのくらい正確に推定できるのかです。

ただし、新規で作成した問題はその困難度と識別力のパラメーターがわからないので、最初にそれらのパラメーターを推定する必要があります。そこで、次の手順で検証を進めました。

  1. ある程度学習量の多い生徒を、パラメーター推定用のグループA検証用のグループBに分ける。

  2. 正解率を検証したい問題とは別に、生徒の学力推定用の問題を用意する。今回は、従来から存在する「確認テスト」という学習項目の問題を利用します。

  3. グループAの生徒の学習データを用いて最近追加した新問題の困難度と識別力のパラメーターを推定する。

  4. 「確認テスト」の学習データから検証用のグループBの生徒の学力パラメーターを推定する。

  5. 項目特性曲線を用いて、グループBの生徒の新問題への正解率を算出する。

  6. グループBの生徒の新問題の実際の正解率を集計し算出した正解率と比較し評価する。

手順6の正解率の集計では、学力パラメーターが近い生徒をグループにまとめて集計しました。
例えば、学力パラメーター$${\theta}$$が$${0.75}$$以上$${1.25}$$未満の生徒を$${\theta}$$が「約1のグループ」、$${1.25}$$以上$${1.75}$$未満の生徒を$${\theta}$$が「約1.5のグループ」という具合です。

結果と考察

検証した結果を一部お見せします。ランダムに12問ピックアップしてグラフにしたものが次の図です。

青の実線は算出した学力パラメーター$${\theta}$$ごとの理論上の正解率です。そして、星印でプロットが学力グループごとに分類した生徒の実際の正解率を示しています。問題ごとに回答した生徒数が異なるため、プロットされている星の数は一部の問題で異なります。

すべての問題でピタリと予測できているというわけではなく特にデータ件数が少ないところで大きめにずれることもありますが、各問題の特徴をしっかり捉えられているように見えます。特に問題11などは生徒の学力によって大きく正解率が変わる問題ですが、それぞれの学力帯での正解率をかなり正確に予想できています。

検証対象の生徒の学力推定に使った問題は、日々の学習で取り組んでいただいているドリルの確認テストであり、評価用の問題は共通テスト本番を見据えて期間限定で配信した全国模試や定着度テストの問題である、という属性の違いを考えると、ここまでの精度が出たのは驚きでした。

今回の検証では問題の出題範囲を一切考慮せず生徒の学力パラメーターを推定して検証を行いました。今後は例えばプログラミングとかデータの活用といった分野ごとに分けて、正解率を推定したい問題と学力パラメーターの推定に使う問題を揃えるといった工夫で精度を上げることも考えられます。

今後の活用に向けて

情報AIドリルには、基礎的な問題から模試まで、さまざまな属性の問題があります。IRTを用いる際、これら異なる属性の問題をまとめて扱うか分けるべきか悩んでいましたが、今回の検証で統一的に分析しても十分な精度が保てることが確認でき、安心しました。

今後も新しいカテゴリの教材が増えていく中で、IRTを積極的に活用していくつもりです。また、日々のドリルの学習結果から推定した学力パラメーターが、模試等のテストでも効果を発揮することが確認できたのも大きな成果です。これは、確認テストをしっかり解けた生徒が、本番の初見の問題でも高い成績を残せることを意味するからです。

普段提供しているドリルの問題を解けるようになることが、ちゃんと本番での点数獲得につながるという自信を持って、今後も教材改善に取り組んでいきたいと思います。


おしらせ

ライフイズテック サービス開発部では、気軽にご参加いただけるカジュアルなイベントを実施しています。開催予定のイベントは、 connpass のグループからご確認ください。興味のあるイベントがあったらぜひ参加登録をお願いいたします。皆さんのご参加をお待ちしています!


この記事が気に入ったらサポートをしてみませんか?