
IRT(項目反応理論)についてのメモ
IRTってなに
Item Response Theoryの略。項目反応理論ないし項目応答理論と訳される。
項目応答理論は、運による要素や評価の相対性といった性質をもつ古典的テスト理論の限界を解消し、受験者の実力をより正確に測ろうとする理論である。
ちょっと仕事に必要になったので。例によって力尽きる可能性がある。
完全にメモなので人に読ませる気はない。Twitterだと流れるのでまとめた。
背景
全国学力テスト(正式名称:全国学力・学習状況調査)というものがある。
詳細については実施主体の文科省の資料や、分析を担当する国立教育政策研究所(以下NIER)の教育課程研究センターが毎年提出してくれている各種の資料を参照すること。
ここで重要なのはNIERが行った令和3年度の「経年変化分析調査」において「IRT」という理論が取り上げられたということ。



センターとかで〇〇〇点とったと言っても年度ごとに「難化」「易化」とか言われて、単純に比較が出来ないし、正確な実力の把握って無理だよなぁ、と思っていたので、お、経年変化を追跡調査できるんですか?と興味が湧いてもう少し深掘りすることに。
多分、S-P表に近いことをやっているんだと思うんだが。
S-P表
つまり、項目ごとにどういう特性があるのか設定して、この問題がとけたら学力はどれくらい、というある種「正答率」とはまったく関係ないテスト理論なのでは、という仮説がある。
もう少し詳しいことを言うと、一回のテストにおける「正答率」ではなくて、ある程度信頼の置ける「設問の難易度」という指標があり、これを解けるかどうかで実力を判定する、という理論なんじゃないかな。
簡単な問題がいくらとけても-機械的処理が得意であっても-評価にはつながらない、的な。
その結果、受験者集団ではなくて、項目に評価が依存するので一人で受けても別の集団と一緒に受けても、なんの問題もなく同様の評価がくだされるようになる、ということなのだと思う。
結果として県偏差値や全国偏差値、駿○偏差値、河合○偏差値の違いに振り回されることがなくなる、というのもありそう。
専門家によるIRTに関する解説
中教審の資料にIRTを解説する資料が。


日本と世界のテストの違いから始まり、

テスト理論について大きく2つに分けて説明。

重要な概念を超絶シンプルに解説。



更に、これまで日本においてIRTの発展に貢献された先人の紹介まで!

そろそろ著作権の関係で怒られるやもしらんので、後はPDFを各自確認してもらうとして、要点ば以下の通りとなる(と思う)。
IRTの要点
項目反応理論ではテストに含まれる項目(設問)の「統計的特性」を調査
項目の「統計的特性」を「項目パラメタ」と呼称する
得点の比較には
事前に「項目パラメタ」を知ることが必要
「プリテスト」で「項目パラメタ」を把握することができる
「項目バンク」というDBに統計的特性が明らかな項目を格納
事後に出題項目のパラメタを調べる必要がある
特定集団(共通受験者)によるモニター試験を行う
新作問題と統計的性質が既知の問題を同時に受験させる
雑感
ということで、存外テスト作る側の視点が主だったが参考になった。
今後はIRTのテストが増えそうだな、という仮説がある。
(TOEIC、TOEFLとかはそうらしい)
どこぞの市町村の教育委員会とかでIRTを利用した学力テストの作成を○○ルートとかと協力してやってる自治体はないものだろうか。
専門家のコメント
最後に大友先生によるCTTからIRTへの変遷についてのコメントを掲載。
つまり,受験者の能力を示す「能力値」(ability scores)というのは,これまで古典的テスト理論で述べられている「観測値」や「真値」とは,異なるものであるということである.観測値や真値は,受験するテストによって変わるものである.求めなければならない得点は,「受験するテストに依存しない能力値」でなければならない,ということである
電子情報通信学会誌 Vol92 No12 2009
