Zhang & Li (2021):コロケーション指標とL2ライティングの質に関する研究
先日コロケーションの強さ(結合度)と読解中の処理に関する論文を読んだが,コロケーションの結合度に関してあまり深い議論がされていなかったので,今度はライティング研究ではあるが以下の論文を読んだ。(読んだのはだいぶ前で書きかけだった)
Zhang, X., & Li, W. (2021). Effects of n-grams on the rated L2 writing quality of expository essays: A conceptual replication and extension. System, 97, 102437. https://doi.org/10.1016/j.system.2020.102437
タイトルにある通り追従研究であり,追従の対象となったのはbigrams, trigramsの頻度および結合度の指標とL2ライティングの質の関係を検証したGarner et al. (2019) である。この研究の枠組みをもとに,対象を中国語L1話者の英語によるexpository essaysのライティングとして(Garner et al.では韓国語L1話者の英語によるargumentative essays),bigrams, trigramsの範囲 (range),頻度 (frequency),結合度 (association strength) という3つの指標に基づいてエッセイ得点を予測するモデルを構築している。
今回は内容をまとめるというよりも,気になったところをメモ程度に残しておきたい。基本的には論文の内容に基づいているが,まだ勉強し始めな部分もあるので,もし記述に誤りや誤解があったら是非ご指摘いただきたい。
コロケーション (n-gram) の結合度について
コロケーション (n-gram) の結合度については,Mutual Information (MI), t score, MI squred, collexeme strength, Delta Pが使用されていた。以下,論文中のレビューに基づいて簡単にまとめる。(このあたりのことはKyle et al. (2018) でもレヴューされているので,こちらも参考にされたい)
MIは効果量のようなもので,低頻度語からなるn-gramでは値が高くなりやすい。一方,t scoreは仮説検定の有意 (significance) のようなもので,高頻度語からなるn-gramでは値が高くなりやすい。しかしながら,t-scoreは正規分布を仮定するという制限があったり,これらは双方ともn-gram内の語順を考慮しない (e.g., cause damageとdamge causedが同じ値になる) という問題がある。
MIにおける低頻度語の影響を緩和するためにはMI squaredが,t scoreにおける高頻度語の影響を緩和するためにcollexeme strengthが用いられることもある。なお,collexeme strengthは正規分布を仮定しない。
n-gram内の語順を考慮しない点への対応としては,Delta Pが提案されている (Gries, 2013)。Delta Pではn-gramの結合度をforwardとbacwardの2種類で区別し,その差に基づいてn-gramがright predictiveか,left-predictiveかが決まる。
論文ではこれらの指標とライティングの質に関する先行研究がレビューされており,ここでは詳細は割愛するが,Garner et al. (2019) についてのみ記すと,得点の高いL2ライティングの特徴として,結合度の強い
academic bigrams and trigrams, 頻度の高いacademic trigrams, そして 結合度の強いspoken trigramsを含むことが明らかにされている。
本研究では,COCAのSpoken, Academicのサブコーパスをもとに上記5つの結合度の指標を算出している。Trigramに関しては1+2番目の語と3番目の語の結合度と,1番目の語と2+3番目の語の結合度の2パターンが算出されている。
統計モデルについて
興味深かったのは,先行研究では線形回帰モデルが採用されていたのに対し,本研究ではregression treeが採用されていたことである。論文の記述によれば,regression treeを採用した理由は以下の通りである。
It has been argued that regression trees are eminently suitable for data mining due to the fact that very little knowledge or assumptions about how the different variables are related are made in advance. Consequently, this method is able to reveal relationships between variables that would not have been possible using other methodologies (James et al., 2013). What is more, regression trees have been found to outperform linear regression (Fernandez-Delgado et al., 2014), and are now gradually gaining popularity in social sciences. (p.5)
確かに得られた結果は直感的に理解しやすかったし,以前の記事で書いた重回帰における変数の重要度の比較に関する問題もtree-based modelなら解決されるのかもしれない。一方,エッセイ得点という割と解釈しやすい尺度(今回は10段階評価)であれば結果が理解しやすくなるが,これが読解時間のようなデータの時にも同じように有用なのかはやや疑問に思った。
このあたり,以前にレヴューしたGries (2021) に書いてあることとも関連するかもしれない。たとえば,Gries (2021) では "regression approaches, in general, do not necessarily have the highest degree of predictive power but excel at helping users of these approaches to interpret the results (whereas other, more black boxy, approaches such as support vector machines or random forests often predict better but can be harder to interpret)" と述べてる。
(個人的には,特に国内の学会誌で,テキストマイニングのワードクラウドを載せる論文が増えたように,深い考えもなしにtree plotを載せることで「それっぽく見せる」論文が増えないでほしいとも思う)
結果について
論文ではn-gramの範囲,頻度,結合度で個別のモデルを作った後に,これらすべての指標をまとめたモデルを作っているのだが,ここでは後者のみに触れる(実のところ,3つの指標で個別のモデルを作る必要性をあまり感じなかった…)。このモデルでは,spoken bigram proportion 10k, spoken trigram Delta P, spoken bigram MI, log-transformed spoken bigram range, spoken trigram Delta P, and spoken trigram 2 Delta Pの6つの指標が予測変数に含まれ,頻度の高いspoken bigramおよび範囲が広いspoken bigramが含まれるとエッセイ得点が低くなり,MIとDelta Pで評価される結合度の強いspoken bigram and trigramが含まれるとエッセイ得点が高くなるという関係にあった。
Garner et al. (2019) の結果と比べると,結合度の強いn-gramを含むエッセイが高得点になるというのは一致するが,頻度については逆の傾向になっている。本文でも述べられているが,書いているエッセイのジャンルも違うし,評価基準 (rubric) も違うので,追試でありながらそもそも比較が結構難しいのではないかなと思う。加えて,Garner at al. (2019) で有意になった頻度指標はacademic trigramであり,本研究ではspoken bigramであるから,コーパスのレジスターが違っているというのも関係していそうである。
結論の最後には "automated essay scoring systems should take into account these indices so as to assign more valid scores on writing assignments." (p. 13) と書いてあるのだが,この結論に持っていくのは尚早な感じもした。というのも,他の言語的特徴と比べたうえでこのn-gram featuresがどの程度重要になるかというのを検討しなくてはならないと思うからだ。この点は関連したことが本文でも言及されていて, "...call for the need to systematically assess the predictive power of n-gram measures, other measures such as lexical diversity, lexical sophistication, syntactic complexity, and their interactions on L2 writing quality across different genres." と書かれていた。今後の研究で,このような検証がなされるのかもしれない。