見出し画像

TOEFL iBT®)e-rater®は何を見ているのか?①

◆e-rater®関連のペーパーを読んでみる

TOEFL iBT®のライティング採点に活用されているe-rater®ですが、今回は、このe-rater®がどのように作動しているのか探ってみます。

e-rater®に関しては、ETSのサイトでも紹介されていますが、情報はかなり限定的。そこで、今回はe-rater®に関するペーパーを参考にしていきます。

Automated Essay Scoring With e-rater® V.2

e-rater®関連のリサーチは複数あるんですが、どれも古いんですよね…上記ですら2006年のものです。新しいリサーチはなかなか見つかりません。意図的なんですかね。

なので、おそらく現在のe-rater®はさらに改良されているものと思われますが、参考にはなるはずなので、e-rater®の機能について興味のある方は読んでみてください。

  

◆e-rater®の基本情報

e-rater®は、AI技術・自然言語処理(NLP)技術を用いてライティング答案 ("エッセイ"と呼んでいきます) を評価する、自動エッセイ採点 (AES = Automated Essay Scoring) システムです。

TOEFL iBT®においては、人間による評価と、e-rater®による評価とが加味されて、最終的なライティングのスコアが算出されます。

今回のペーパーで言及されている e-rater® V.2 の特徴としては、「限られた数の(small)、直感的(intuitive)で、有意義(meaningful)な features」を使っていることが挙げられます。

feature(s)は「特徴」といった意味のあるワードですね。ここでは、エッセイを評価する際に使われる"観点"ぐらいの意味合いで考えると分かりやすいかもしれません。

AESのタイプによっては100を超える観点からエッセイを評価することもあるようですが、それだと後で人間が評価を見た時に納得感が薄くなります(要は、その評価になった理由を、人間が直感的に理解できない)。一方、e-rater® V.2 では、人間が見て理解しやすい観点(しかも数を絞っている)からエッセイを評価しているみたいです。

そこで、以下では、どのようなfeaturesからエッセイが評価されているのかを探ってみます。

※繰り返しますが、現在のTOEFL iBT®においても同じe-rater® V.2 が使われているとは限りません(というか、ほぼ確実に改良が施されているはずです)。なので、参考程度にしてくださいね。

  

◆The Feature Set (どんな観点から見られているのか)

◇Grammar/Usage/Mechanics と Style

日本での英語学習だと、grammar/usage/mechanics と分けて勉強することはないので、分かりにくいですね。ここでは思い切って3つをひとまとめにして、「ミスの割合(エラー率)」として紹介してしまいます。

具体的には、こんなミスが検出されます。

● agreement errors
 →主語と動詞が一致していない。
  例 These factors is important.

● verb formation errors
 →動詞の形が誤っている。
  例 They didn't played an important role.

● wrong word use
 →予想ですが、似た単語と混同している等だと思います。
  例 experienceとexperiment、intuitionとinstitution

●missing punctuation
 →punctuationは「句読点、句読法」なので、
  必要なコンマやピリオドが抜けている等。

●typographical errors
 →入力ミスのことですね。
  例 typicaly (正しくはlly

日本だと、「ケアレスミス」と呼ばれるようなミスといったイメージでしょうか。これらは corpus based で statistical に検出される模様。

corpus (コーパス) というのは、言語資料、要は「機械がお手本として使う、膨大な英文の集まり」みたいなものを想像してください。

例えば、そのcorpusの中で、immersedというワードを調べたとき、
"immersed in" という言葉のセットが大量に出てくるとします(実際にそうなります:下図)。

immersed [   ]

すると、たとえば受験者が "immersed about" と書いていたら、これは統計的に (statisticalに) 見て、ミスの可能性が高いといえるわけです。

上で挙げた例なら、下図のように、"did not play" と比較して、"did not played" という組み合わせは確率的に考えにくいよね ということです。

 corpus based で statistical に、というのはこういうイメージで良いでしょう。

  

これに加えて、styleというfeatureがあります。これは、

  • 受動態

  • 非常に長い文・非常に短い文

  • 同じワードを過度に繰り返し使っていないか

などを見ているようです。

ここは注意が必要で、たとえば受動態が悪いというわけではなくて、ただ受動態を多く使いすぎることは好まれないということです。

同様に、長い文・短い文があってはいけないということではありません(むしろ長い文・短い文を適度に組み合わせて使えるのは高いレベルの証拠)。ただ、非常に短い文、非常に長い文は、エッセイの読みやすさに(ネガティブに)影響しうる、ということでしょう。

例 (全ての文が非常に短い)
First, gasoline cars are bad. They emit greenhouse gases. Electric cars are eco-friendly. People should buy them. …

同じ語の使用についても、overly (過度に) 使っているとマイナス評価ということで、もちろん同じ語を使ってはいけない という意味ではありません。

ただ、可能な場合は別の表現で言い換える(パラフレーズする)のが良いでしょう。(パラフレーズの例は別の記事にしているので、良ければこちらもどうぞ。

  

◆続きます

長くなりそうなので、今回は4つのfeaturesの紹介で一旦ストップしておきます。

ひとまず、ここまでの学びとしては、

  • ミスを減らす(減点の口実を与えない)

  • 受動態・1文の長さには気をつける

  • 同じ語を過度に繰り返さない(→パラフレーズする)

あたりですね。残りは別の記事で!


次の記事はこちら

 

#toefl #toefl_writing #ielts #英語 #英語学習 #語学 #語学学習 #writing #english_writing  #erater   #e_rater     

いいなと思ったら応援しよう!