TOEFL iBT®）e-rater®は何を見ているのか？①

WRITING_er

2023年4月29日 15:52

◆e-rater®関連のペーパーを読んでみる

TOEFL iBT®のライティング採点に活用されているe-rater®ですが、今回は、このe-rater®がどのように作動しているのか探ってみます。

e-rater®に関しては、ETSのサイトでも紹介されていますが、情報はかなり限定的。そこで、今回はe-rater®に関するペーパーを参考にしていきます。

Automated Essay Scoring With e-rater® V.2

e-rater®関連のリサーチは複数あるんですが、どれも古いんですよね…上記ですら2006年のものです。新しいリサーチはなかなか見つかりません。意図的なんですかね。

なので、おそらく現在のe-rater®はさらに改良されているものと思われますが、参考にはなるはずなので、e-rater®の機能について興味のある方は読んでみてください。

◆e-rater®の基本情報

e-rater®は、AI技術・自然言語処理(NLP)技術を用いてライティング答案 ("エッセイ"と呼んでいきます) を評価する、自動エッセイ採点 (AES = Automated Essay Scoring) システムです。

TOEFL iBT®においては、人間による評価と、e-rater®による評価とが加味されて、最終的なライティングのスコアが算出されます。

今回のペーパーで言及されている e-rater® V.2 の特徴としては、「限られた数の(small)、直感的(intuitive)で、有意義(meaningful)な features」を使っていることが挙げられます。

feature(s)は「特徴」といった意味のあるワードですね。ここでは、エッセイを評価する際に使われる"観点"ぐらいの意味合いで考えると分かりやすいかもしれません。

AESのタイプによっては100を超える観点からエッセイを評価することもあるようですが、それだと後で人間が評価を見た時に納得感が薄くなります（要は、その評価になった理由を、人間が直感的に理解できない）。一方、e-rater® V.2 では、人間が見て理解しやすい観点（しかも数を絞っている）からエッセイを評価しているみたいです。

そこで、以下では、どのようなfeaturesからエッセイが評価されているのかを探ってみます。

※繰り返しますが、現在のTOEFL iBT®においても同じe-rater® V.2 が使われているとは限りません（というか、ほぼ確実に改良が施されているはずです）。なので、参考程度にしてくださいね。

◆The Feature Set （どんな観点から見られているのか）

◇Grammar/Usage/Mechanics と Style

日本での英語学習だと、grammar/usage/mechanics と分けて勉強することはないので、分かりにくいですね。ここでは思い切って３つをひとまとめにして、「ミスの割合（エラー率）」として紹介してしまいます。

具体的には、こんなミスが検出されます。

● agreement errors
　→主語と動詞が一致していない。
　　例 These factors is important.

● verb formation errors
　→動詞の形が誤っている。
　　例 They didn't played an important role.

● wrong word use
　→予想ですが、似た単語と混同している等だと思います。
　　例　experienceとexperiment、intuitionとinstitution

●missing punctuation
　→punctuationは「句読点、句読法」なので、
　　必要なコンマやピリオドが抜けている等。

●typographical errors
　→入力ミスのことですね。
　　例　typicaly (正しくはlly)

日本だと、「ケアレスミス」と呼ばれるようなミスといったイメージでしょうか。これらは corpus based で statistical に検出される模様。

corpus (コーパス) というのは、言語資料、要は「機械がお手本として使う、膨大な英文の集まり」みたいなものを想像してください。

例えば、そのcorpusの中で、immersedというワードを調べたとき、
"immersed in" という言葉のセットが大量に出てくるとします（実際にそうなります：下図）。

すると、たとえば受験者が "immersed about" と書いていたら、これは統計的に (statisticalに) 見て、ミスの可能性が高いといえるわけです。

上で挙げた例なら、下図のように、"did not play" と比較して、"did not played" という組み合わせは確率的に考えにくいよねということです。

corpus based で statistical に、というのはこういうイメージで良いでしょう。

これに加えて、styleというfeatureがあります。これは、

受動態
非常に長い文・非常に短い文
同じワードを過度に繰り返し使っていないか

などを見ているようです。

ここは注意が必要で、たとえば受動態が悪いというわけではなくて、ただ受動態を多く使いすぎることは好まれないということです。

同様に、長い文・短い文があってはいけないということではありません（むしろ長い文・短い文を適度に組み合わせて使えるのは高いレベルの証拠）。ただ、非常に短い文、非常に長い文は、エッセイの読みやすさに(ネガティブに)影響しうる、ということでしょう。

例（全ての文が非常に短い）
First, gasoline cars are bad. They emit greenhouse gases. Electric cars are eco-friendly. People should buy them. …

同じ語の使用についても、overly (過度に) 使っているとマイナス評価ということで、もちろん同じ語を使ってはいけないという意味ではありません。

ただ、可能な場合は別の表現で言い換える（パラフレーズする）のが良いでしょう。（パラフレーズの例は別の記事にしているので、良ければこちらもどうぞ。）

◆続きます

長くなりそうなので、今回は４つのfeaturesの紹介で一旦ストップしておきます。

ひとまず、ここまでの学びとしては、

ミスを減らす（減点の口実を与えない）
受動態・１文の長さには気をつける
同じ語を過度に繰り返さない（→パラフレーズする）

あたりですね。残りは別の記事で！

次の記事はこちら

#toefl #toefl_writing #ielts #英語 #英語学習 #語学 #語学学習 #writing #english_writing #erater #e_rater