TOEFL iBT®）e-rater®は何を見ているのか？③

2023年5月1日 18:07

前回に続いて、e-rater®で参照されているであろう項目を見ていきます。

下記のペーパーを参考にしています。
Automated Essay Scoring With e-rater® V.2
（※おそらく現在のe-rater®はさらに改良されているものと思われるので、参考程度に読んでください。）

◆The Feature Set（続き）

ここまで、e-rater®での評価に使われているであろう以下の指標を紹介してきました。

● Grammar/Usage/Mechanics と Style (4)
● Organization/Development (2)
● Lexical Complexity → ①vocabulary + ②word length (2)

大きく３グループ、計8個のfeaturesです。
今回は最後の１グループ、少し複雑なfeaturesが対象です。

◇Prompt-Specific Vocabulary Usage
→ ①max. cos. + ②cos. w/6

ついにcos (コサイン) が登場…。数学が苦手な人は拒否反応が出るかもしれません。

ただ、書いている本人も正確な仕組みを完璧に理解できているわけではないので、「こんな感じかな」ぐらいで読んでもらえると助かります。

まず"prompt" というのは、ライティングの問題文だと思えば大丈夫です。「政府が電気自動車を促進することに賛成？反対？」みたいなやつ。

つまり、prompt-specific vocabulary というのは、「その問題文に特有の語彙」をどれぐらい使っているかということ。

たとえば以下２つの問題があったとして、使用される語彙のタイプはけっこう異なることが予想されますよね。

Prompt 1)
　政府が電気自動車を促進するのに賛成反対？
Prompt 2)
　子どもはより運動すべき？

1 なら「環境、規制、減税」、
2 なら「スポーツ、健康、学校」等々。

そこで、まず各々の問題文に対して、サンプルの答案を用意します。
0-5点の6通りに振り分ける採点をするとして、
「3点レベルのエッセイ」「5点レベルのエッセイ」のように、各レベルの答案を（おそらく沢山）準備するのをイメージしてみてください。

それで、「5点レベルのエッセイ」「4点レベルのエッセイ」…と、それぞれを"ベクトル化"します。

"ベクトル化"の時点で拒否反応が出た人もいると思います。ものすごく単純化して書きます。

たとえば、こんな３つの文があるとします。似通った２文を選べと言われたら、どれとどれを選びますか？

A) Children should play more sports to stay healthy.
B) Playing sports is important for children to remain healthy.
C) Greenhouse gases may prevent us from staying healthy.

直感的に、AとBの文が近いと感じるのではないかと思います。

では、(to, is等は除いて）含まれている表現を表にまとめてみましょう。

すると、使用されている語彙から見ても、やはりA・Bが近しいという印象が得られます。

ここで、上の表から、文Aを
[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
と表すことができそうです。

文Bなら [1, 1, 1, 0, 1, 1, 1, 0, 0, 0] ですね。

英単語の羅列だった文を、このように数字の並びに変換することを「ベクトル化」という、ぐらいの理解でいきましょう。

ただ、いま人の目で「文Aと文Bが似てる」と判定しましたが、機械はどうやってそれが分かるのか？　…というところに、コサインが関係してきます。

ここも細かい説明は思い切って省いて、結論だけ書きます。

たとえば文A・文Bをそれぞれベクトル化して（要は数字が並んだものに変換して）、この両者の コサイン類似度 というものを計算すると、どれだけ２つのベクトルが似通っているのかを数値で表現することができます。

このコサイン類似度は「マイナス１～プラス１」の値をとり、値が１に近いほど「類似している」と判断できるわけです。（興味のある方は「コサイン類似度」で検索するとたくさんページが出てきます。ただし初めてだと理解するのはけっこう難しいと思います…。）

なんとなくの理屈はイメージしてもらえたと思います。
実際には、文という単位ではなく、エッセイまるごとの単位でベクトル化するので、登場しうる単語の数も莫大です。

ここで、「５点レベルのエッセイ」のベクトル、「４点レベルのエッセイのベクトル」…と、レベル別のベクトルが得られたと想像してみてください。

そうすれば、仮に「５点レベルのエッセイ」のベクトルと、受験者の答案をベクトル化したものとを用意して、この両者のコサイン類似度を計算すれば、「この問題文に対して、どれだけ５点レベルのエッセイと同じような語彙を用いているか」が判断できることになります。

ここで使用されているのが、
①max. cos. と
②cos. w/6 の２つのようです。

①max. cos (Score Point Value)

答案をベクトル化したものをまず用意して、

それと
「５点レベルのベクトル」とのコサイン類似度、
「４点レベルのベクトル」とのコサイン類似度、
　…　と、それぞれの評価点ごとにコサイン類似度を計算していきます。

そうして、仮に「４点レベル」とのコサイン類似度が最も高かったとき、問題文に対応した語彙という面では「４点レベル」と最も近しい答案だと想定することができます。

②cos. w/6 (Cosine Correlation Value)

今度は、答案と、満点レベル（たとえば５点レベル）の答案とのコサイン類似度を計算します。

こうすれば、今度は「ベストなレベルのエッセイとの類似度」が割り出せます。

→これら２つのコサイン類似度によって、prompt-specific vocabulary に関するfeaturesを得ることができます。

◆とりあえずfeaturesの説明おわり

上のコサインの話は、実際にはもっと複雑な説明がペーパーには書かれているんですが、私自身も完全には理解できてはいないので、上記の大まかな紹介で今回は勘弁してください…。

これでひとまず、（実際には他の観点も使用されているかもしれませんが）一通りのfeaturesを概観したことになります。もう一度まとめておくと：

● Grammar/Usage/Mechanics と Style (4)
● Organization/Development (2)
● Lexical Complexity
→ ①vocabulary
　　②word length (2)
● Prompt-Specific Vocabulary Usage
→ ①max. cos (score point value)
　　②cos. w/6 (cosine correlation value) (2)

というわけで、大きく４グループ、計10個ですね。

つまり、
● ミスを検出し、好ましくない表現も検出して、
● エッセイの構造・話の展開を把握し、
● 一般的な語彙レベルを判定した上で、さらに
● 問題文のテーマに合った語彙使用についても判断
しているという感じですね。

ただ、これらの要素が全て同じ重みで最終スコアに貢献するわけではありません。（もしかしたら、それについて別の記事も書くかもしれません。）

さて、これらfeaturesは、最初の記事で書いたように、
「限られた数の(small)、直感的(intuitive)で、有意義(meaningful)な features」
ですよね。

すなわち、納得の項目ばかり。（もちろん、『コサイン類似度で本当にエッセイ同士が似通っているのか正確に分かるの？』みたいな疑問はあるかもしれませんが、features自体は採点基準としてそこそこ納得感が大きいよねということです。）

そこで、学習者としては、e-rater®で良い評価を得るためだけにfeaturesを絶対視して学習する必要はなく（それはTOEFL®を実施しているETSも望んでいないでしょう）、シンプルに「良いエッセイを書けるように練習」していくことが大切なのではと思います。

e-rater®の観点は、目安として頭においておく、ぐらいが丁度良いかもしれません。

「あ、同じワードを繰り返し使いすぎだな。ちょっと言い換えてみよう」

「ちょっと簡単な単語ばかり使いすぎかな。ChatGPTの力を借りて、もう少し難易度の高い表現に置き換えられないか調べてみよう」

…など、本質的な英語の力を伸ばしていけるように活用してもらえると嬉しいです。

TOEFL iBT®では（今のところ）人間の採点者も評価に参加していますから、どちらにせよe-rater®を絶対視したからといって最高の評価が得られるとも限りません。「こういった観点が重要な指標（の一部）として考えられているんだな」程度の気持ちで参考にしてください。

では！　:)

【参考１】公式のWritingセクション評価規定

●Independent Taskがある期間は：
　Writing Rubrics (PDF)
●Academic Discussionが始まって以降は：
　Writing Rubrics (PDF)

【参考２】
Automated Essay Scoring With e-rater® V.2

その他、A Developmental Writing Scale など複数（※ただし、どれも古めの文献なのが寂しいです）。

ETSのe-rater®紹介サイトはこちら： e-rater® Scoring Engine

#toefl #toefl_writing #ielts #英語 #英語学習 #語学 #語学学習 #writing #english_writing #erater #e_rater