英語教育研究でAmazon Mechanical Turkを使うメリットはあるか(2)
以前の記事の続編。本当は追記として前の記事に書きたそうと思っていたのだが,思ったより前の記事が長くなってしまったのでこちらに書くことにした。以前はMTurkを予備調査的に使ったが,それをもとに本調査として行った結果・感想がこちら。
MTurkで行った調査
以下が行った調査の概要である。
・協力者(ワーカー):100名
・回答条件(無料):HIT Approval Rate (%) for all Requesters' HITs greater than or equal to 95 , Location is US , Number of HITs Approved greater than 100
・回答条件(有料):US Bachelor's Degree equal to true
・報酬・費用:$1.00 per task,諸費用含めると$1.90 per task
・課題:短い英文を読んでそれを6段階で評価するもの。全部で80の英文があったが,どれも簡単で短いものなので所要時間としては長く見積もって20分を想定。
調査の結果・感想
(1)時間について
100名のデータはおよそ3時間ほどで集まった。平均回答時間は想定よりも短く,約10分であった。これについては以下でもう少し詳しく述べる。また,100名ともなるとミスする人も出てきて,ワーカーはこちらに直接連絡ができるようになっているため「ミスしてしまったがどうすればいいか」というような問い合わせが複数来て,それに1つずつ対応するのが面倒だった。
(2)得られたデータについて
結果については予備調査通り,あるいはそれより期待に近いと言える結果が得られた。ただし,長く見積もって20分の課題だったとはいえ,5分程度で回答している人が複数いた。それらの回答をピックアップして見てみると,確かに適当に答えていそうな人もいるのだが,割と期待通りに答えている人もいる。こちらの期待に沿っていないからといってデータを削除するわけにもいかないので,客観的な基準が欲しいところ。しかし,上記のように回答時間が短い人が一概に悪いとは言えないので,回答時間を基準にデータをスクリーニングするのは難しそうだった。
適当に答えていそうな人の回答をもう少し細かく見てみると,かなり回答の偏りがあることに気がついた。つまり,6段階のうちほとんどが5や6で回答しているといったパターンである。これは通常の英語能力があれば考えにくいことで,課題への取り組み姿勢がかなり怪しくなる。そこで個人の回答にどの程度ばらつきがあったかを見てみると,さすがに全て同じ回答という人はいなかったが,6段階のうち4-6だけしか選択していない人が若干名いた(1-3だけはゼロ)。このようなケースはデータに含めないほうが無難かもしれない。といっても,100名中の若干名なので,仮にこれらを含めても含めなくても得られた結果にはほぼ影響がないのだが。
(3)まとめと今後への改善
今回100名というある程度の多くの人数からMTurkを通じてデータを収集したわけだが,必ずしもすべてのデータが課題に従事していると確証できるものではなかった。大規模なデータ収集の方法であるが故,そのようなノイズが混じるのは承知で,大規模なデータを取ればある程度評価や判断がはっきり分かれることが期待されるような課題にMTurkを使うのが適していると言えるかもしれない。
言い換えれば,条件間であまり大きな差異が期待されないような課題では,そのようなノイズが邪魔をしてしまうため,MTurkのような方法は適さないだろう。また,反応時間や読解時間などもMTurkと他のプログラムを掛け合わせることで収集可能であるものの,そういった環境や個人要因に影響を受けやすい繊細なデータについては,実施者の立ち合いのもとで課題に従事してもらうほうが(よっぽど大きな数のデータの収集を目的としない限りは)よいのではないか。
前の記事では,母語や第二言語の情報を協力者に自己報告させたところでその信頼性はどうなんだということを述べた。しかしながら,オンラインで大規模なデータを収集すれば今回のような課題に従事していなそうな人は必ず出てくるはずで,そういうパフォーマンスが怪しい人を精査する目的で,英語力に対する自信度や母語・第二言語の違い,学習歴などいくつかの背景質問を調査に含めておくことは有益かもしれない(その自己報告を以て回答集団を特徴・定義づけるのではなく)。少なくとも次回自分がやるときにはそうすると思う。