![見出し画像](https://assets.st-note.com/production/uploads/images/104236458/rectangle_large_type_2_042ab671dc7b9f5030f51ec474a3055f.png?width=1200)
TOEFL iBT®)e-rater®は何を見ているのか?①
◆e-rater®関連のペーパーを読んでみる
TOEFL iBT®のライティング採点に活用されているe-rater®ですが、今回は、このe-rater®がどのように作動しているのか探ってみます。
e-rater®に関しては、ETSのサイトでも紹介されていますが、情報はかなり限定的。そこで、今回はe-rater®に関するペーパーを参考にしていきます。
Automated Essay Scoring With e-rater® V.2
e-rater®関連のリサーチは複数あるんですが、どれも古いんですよね…上記ですら2006年のものです。新しいリサーチはなかなか見つかりません。意図的なんですかね。
なので、おそらく現在のe-rater®はさらに改良されているものと思われますが、参考にはなるはずなので、e-rater®の機能について興味のある方は読んでみてください。
◆e-rater®の基本情報
e-rater®は、AI技術・自然言語処理(NLP)技術を用いてライティング答案 ("エッセイ"と呼んでいきます) を評価する、自動エッセイ採点 (AES = Automated Essay Scoring) システムです。
TOEFL iBT®においては、人間による評価と、e-rater®による評価とが加味されて、最終的なライティングのスコアが算出されます。
今回のペーパーで言及されている e-rater® V.2 の特徴としては、「限られた数の(small)、直感的(intuitive)で、有意義(meaningful)な features」を使っていることが挙げられます。
feature(s)は「特徴」といった意味のあるワードですね。ここでは、エッセイを評価する際に使われる"観点"ぐらいの意味合いで考えると分かりやすいかもしれません。
AESのタイプによっては100を超える観点からエッセイを評価することもあるようですが、それだと後で人間が評価を見た時に納得感が薄くなります(要は、その評価になった理由を、人間が直感的に理解できない)。一方、e-rater® V.2 では、人間が見て理解しやすい観点(しかも数を絞っている)からエッセイを評価しているみたいです。
そこで、以下では、どのようなfeaturesからエッセイが評価されているのかを探ってみます。
※繰り返しますが、現在のTOEFL iBT®においても同じe-rater® V.2 が使われているとは限りません(というか、ほぼ確実に改良が施されているはずです)。なので、参考程度にしてくださいね。
◆The Feature Set (どんな観点から見られているのか)
◇Grammar/Usage/Mechanics と Style
日本での英語学習だと、grammar/usage/mechanics と分けて勉強することはないので、分かりにくいですね。ここでは思い切って3つをひとまとめにして、「ミスの割合(エラー率)」として紹介してしまいます。
具体的には、こんなミスが検出されます。
● agreement errors
→主語と動詞が一致していない。
例 These factors is important.
● verb formation errors
→動詞の形が誤っている。
例 They didn't played an important role.
● wrong word use
→予想ですが、似た単語と混同している等だと思います。
例 experienceとexperiment、intuitionとinstitution
●missing punctuation
→punctuationは「句読点、句読法」なので、
必要なコンマやピリオドが抜けている等。
●typographical errors
→入力ミスのことですね。
例 typicaly (正しくはlly)
日本だと、「ケアレスミス」と呼ばれるようなミスといったイメージでしょうか。これらは corpus based で statistical に検出される模様。
corpus (コーパス) というのは、言語資料、要は「機械がお手本として使う、膨大な英文の集まり」みたいなものを想像してください。
例えば、そのcorpusの中で、immersedというワードを調べたとき、
"immersed in" という言葉のセットが大量に出てくるとします(実際にそうなります:下図)。
![](https://assets.st-note.com/img/1682747684946-wZk8DPhEHQ.png?width=1200)
すると、たとえば受験者が "immersed about" と書いていたら、これは統計的に (statisticalに) 見て、ミスの可能性が高いといえるわけです。
上で挙げた例なら、下図のように、"did not play" と比較して、"did not played" という組み合わせは確率的に考えにくいよね ということです。
![](https://assets.st-note.com/img/1682748766818-QzCKX6essm.png?width=1200)
corpus based で statistical に、というのはこういうイメージで良いでしょう。
これに加えて、styleというfeatureがあります。これは、
受動態
非常に長い文・非常に短い文
同じワードを過度に繰り返し使っていないか
などを見ているようです。
ここは注意が必要で、たとえば受動態が悪いというわけではなくて、ただ受動態を多く使いすぎることは好まれないということです。
同様に、長い文・短い文があってはいけないということではありません(むしろ長い文・短い文を適度に組み合わせて使えるのは高いレベルの証拠)。ただ、非常に短い文、非常に長い文は、エッセイの読みやすさに(ネガティブに)影響しうる、ということでしょう。
例 (全ての文が非常に短い)
First, gasoline cars are bad. They emit greenhouse gases. Electric cars are eco-friendly. People should buy them. …
同じ語の使用についても、overly (過度に) 使っているとマイナス評価ということで、もちろん同じ語を使ってはいけない という意味ではありません。
ただ、可能な場合は別の表現で言い換える(パラフレーズする)のが良いでしょう。(パラフレーズの例は別の記事にしているので、良ければこちらもどうぞ。)
◆続きます
長くなりそうなので、今回は4つのfeaturesの紹介で一旦ストップしておきます。
ひとまず、ここまでの学びとしては、
ミスを減らす(減点の口実を与えない)
受動態・1文の長さには気をつける
同じ語を過度に繰り返さない(→パラフレーズする)
あたりですね。残りは別の記事で!
#toefl #toefl_writing #ielts #英語 #英語学習 #語学 #語学学習 #writing #english_writing #erater #e_rater