見出し画像

書記の読書記録#1135『テストは何を測るのか―項目反応理論の考え方』

光永 悠彦『テストは何を測るのか―項目反応理論の考え方』のレビュー


レビュー

「良いテスト」とは何かという問題を科学的に考える手段についてまとめられた教科書であり,項目反応理論の概要を知ることができる。Rでの実装つき。


もくじ

第1章 理論編I:試験という「道具」を理解する

1.1 試験は「能力を測定するための道具=問題」の集合体

1.1.1 測定のために決めなければならないこと
1.1.2 曖昧なものを測る場合

1.2 試験と疑似性格検査とアンケート

1.2.1 疑似性格検査と試験問題冊子の似ている点
1.2.2 疑似性格検査と試験は大きく異なる
1.2.3 疑似性格検査とアンケート調査の違い
1.2.4 アンケート調査と試験の異なる点
1.2.5 アンケートと試験の関係:フィールドテスト
1.2.6 疑似性格検査を試験に昇華させるには:概念的定義と操作的定義

1.3 単一の尺度による測定

1.3.1 TOEFL iBTにみる試験の中身
1.3.2 統一された単一尺度のメリット
1.3.3 規準集団を定義する
1.3.4 標準化テスト
1.3.5 規準集団上での「項目特性」を定める.
1.3.6 尺度の不定性を利用する
1.3.7 試験の「スコア」と標準化テスト

1.4 ハイ・ステークスな試験のために:信頼性と妥当性の確保

1.4.1 信頼性の確保
1.4.2 妥当性の確保
1.4.3 信頼性と妥当性の直感的理解
1.4.4 真に妥当な試験問題を作ることは困難
1.4.5 フィールドテストで信頼性の高い試験を
1.4.6 項目バンク:試験問題という「財産」
1.5 試験の流れの全体像

コラム1 「日本的テスト文化」

第2章 実践例紹介:共通語学試験の開発

2.1 試験の制度設計:実践例にみる試験開発の実際

2.1.1 試験を実施したい:大学からの要望
2.1.2 A 大学統一語学試験の基本設計

2.2 試験の設計と項目バンク構築

2.2.1 必要な問題数の決定と本試験のテストデザイン
2.2.2 問題の使い回しと問題冊子の管理
2.2.3 問題作成
2.2.4 フィールドテストのデザイン
2.2.5 フィールドテストの実施
2.2.6 項目反応理論のモデル
2.2.7 フィールドテストの結果を分析し,モデルを決定する
2.2.8 能力値からスコアへの変換方法を決める
2.2.9 クラスの振り分け方針を決める
2.2.10 問題のトライアウト(選抜)を行う

2.3 本試験の実施

2.3.1 本試験で用いる問題冊子の編集
2.3.2 本試験の実施からスコアの算出まで
2.3.3 項目バンク中の問題の事後検証
2.3.4 単位の実質化とcan-doステートメント

2.4 継続的な試験実施に向けて

2.4.1 10年後:新しいカリキュラムになったら
2.4.2 もう一つの試験実施デザインの検討:等化しながら実施する
2.4.3 等化方法の検討
2.4.4 等化のタイミングの検討

コラム2 「社会インフラ」としての試験

第3章 理論編II:数理モデルに基づくテスト理論

3.1 試験で用いられる「データ」からわかること

3.1.1 「分散」:ばらつきの大きさ
3.1.2 分布の形を正規分布とみなすと
3.1.3 「相関係数」:ともなって変わる度合いを表す

3.2 試験の「モデル化」の意義

3.2.1 スコアに込められた意味を紐解く
3.2.2 数値を用いたモデル化
3.2.3 データとしての数値→モデル
3.2.4 ガットマンスケール
3.2.5 どうして正誤が分かれたか:因果モデルの導入

3.3 数理モデル(1)古典的テスト理論

3.3.1 信頼性の指標を定義するために
3.3.2 数式には「読み方」がある
3.3.3 数式による信頼性の定義
3.3.4 折半法による信頼性係数の推定
3.3.5 クロンバックのα係数
3.3.6 信頼性係数はどの程度必要か
3.3.7 ふたたびスピアマン・ブラウンの公式
3.3.8 信頼性係数と問題数の関係.
3.3.9 モデルに「難易度」と「配点」の要素を入れる
3.3.10 古典的テスト理論の問題点.

3.4 因子分析:能力値の定義をデータから抽出する

3.4.1 身体的特徴の背後にある「原因」を明らかにする
3.4.2 データ分析事例による因子分析
3.4.3 因子分析の図的表現
3.4.4 因子得点と能力値
3.4.5 因子数の決定に関する問題点と確認的因子分析
3.4.6 因子分析から項目反応理論へ

3.5 数理モデル(2)項目反応理論

3.5.1 確率モデルの導入
3.5.2 問題項目特性と項目パラメタ
3.5.3 モデルを数式で表す
3.5.4 項目反応理論のモデルいろいろ
3.5.5 能力値の信頼区間
3.5.6 テスト情報量曲線
3.5.7 局所独立の仮定
3.5.8 局所独立の仮定が満たされない試験
3.5.9 段階反応モデル
3.5.10 パラメタ推定の方法
3.5.11 パラメタの標準誤差
3.5.12 項目パラメタの推定
3.5.13 項目パラメタ推定における無回答の取り扱い
3.5.14 安定した項目パラメタの推定のためには
3.5.15 モデルの当てはまりとモデル選択
3.5.16 正規分布に従うスコアへの変換
3.5.17 項目反応理論に基づく試験における満点と0点
3.5.18 can-doステートメントとスコアの対応
3.5.19 ニューラルテスト理論:標準化テストをさらに身近に

コラム3 尺度水準の違い

第4章 実践編:試験実施のための諸手法

4.1 データから試験問題を評価する:実際の分析手法

4.1.1 正答率
4.1.2 合計点との相関(I-T 相関)
4.1.3 信頼性係数
4.1.4 設問回答率分析図
4.1.5 S-P表による分析
4.1.6 項目反応理論の応用でさらなる検討を

4.2 等化:複数の試験をまたいだ共通尺度化

4.2.1 同時推定法
4.2.2 垂直等化・異なる受験者レベルを比較可能にする
4.2.3 水平等化・等質な能力の集団を統一する
4.2.4 共通項目デザインと重複テスト分冊法
4.2.5 共通受験者を用いたテストデザイン
4.2.6 項目パラメタを用いた等化(個別推定法)
4.2.7 等化方法の決定と等化の前提

4.3 リンキング.

4.3.1 等パーセンタイル法
4.3.2 リンキングを行う場面

コラム4 ハイ・ステークスな試験と標準化テスト

第5章 発展編:これからの試験開発に向けて

5.1 試験はどんな時に改まるか

5.2 試験でミスをすると何が起こるか

5.2.1 試験のミスで生じる不利益
5.2.2 項目反応理論による標準化テストでは

5.3 小論文試験の自動採点

5.3.1 人間の採点をコンピュータに学習させる
5.3.2 似たような答案を分類する

5.4 試験の実践における「1 因子」という制約

5.5 多面的な評価の重要性:テストバッテリと試験の効率性

5.5.1 標準化された面接,小論文試験の導入
5.5.2 採用試験にみるテストバッテリの例
5.5.3 選抜効果
5.5.4 試験の共通化で効率のよい試験を

5.6 効率的な評価のために:eテスティング

5.6.1 CBTとeテスティング
5.6.2 eテスティングの典型例:CAT

5.7 試験の合否決定方法と試験の「質」

5.7.1 テスト・スタンダードにみる合否決定方法
5.7.2 さらなる判定方法の改善のために
5.7.3 受験者の「試験対策」と適性診断

5.8 入試制度改革の困難さ

5.8.1 入試制度改革をめぐるいくつかの論点

5.9 科学的な試験という規範

5.9.1 根拠なく試験制度を構築すると
5.9.2 根拠に基づく評価は大切
5.9.3 確証バイアス
5.9.4 試験は経験の科学
5.9.5 推定方法の技術的進歩とこれからの試験

5.10 能力の経年変化をとらえる研究

5.10.1 大学入試センター試験の英語スコアの経年比較
5.10.2 公立高校生徒における英語能力の変化
5.10.3 学力調査の意義と課題

5.11 公平な試験と情報公開

5.11.1 公平な試験のために公表できないこと
5.11.2 項目反応理論による試験での情報公開
5.11.3 試験結果の学術研究への活用と情報公開

コラム5 道徳科目の導入にみる試験の制度化の難しさ

第6章 Rを用いたIRT 分析:lazy.irtx

6.1 Rを用いた統計分析

6.1.1 Rを用いた試験データ分析の利点と欠点

6.2 lazy.irtx パッケージ

6.3 lazy.irtx パッケージによる分析の手順

6.3.1 Rの導入
6.3.2 パッケージの入手
6.3.3 データの入力方法
6.3.4 項目情報の入力から推定まで
6.3.5 項目反応関数,テスト情報量曲線
6.3.6 グループの違いを考慮に入れた分析(多母集団IRT モデル)
6.3.7 同時推定法による等化
6.3.8 個別推定法による等化


本記事のもくじはこちら:


学習に必要な本を買います。一覧→ https://www.amazon.co.jp/hz/wishlist/ls/1XI8RCAQIKR94?ref_=wl_share