Bilingualism: Language and Cognitionに論文を出版しました
Cambridge University Pressが発行するBilingualism: Language and Cognitionに,以下の論文がオンライン先行で公開されました。
Nahatame, S. (2023). Predicting processing effort during L1 and L2 reading: The relationship between text linguistic features and eye movements. Bilingualism: Language and Cognition. 1-14.
https://doi.org/10.1017/S136672892200089X
本研究は,L1・L2での英文読解中の眼球運動データを文章の読みやすさ(処理労力)を示す指標として扱い,それを文章の様々な言語的特徴から予測することを目的としたものです。公開されているEye trackingのコーパス(GECO)から英語母語話者 (L1 English) とオランダ語を母語とする英語学習者 (L2 English) の読解中の注視回数及び注視時間のデータを抽出・整形・統合して基準変数とし,Crossley et al. (2017, 2019) などの読みやすさ研究で用いられているNLPツールを使って算出した語彙,統語,結束性に関わる指標を使って統計モデル(重回帰分析)を構築することを試みています。
本研究から得られた知見は,以下の3つに要約されます。
総語数及びそれに単純な言語的特徴(語長,文長)を加えたモデルよりも,多様な言語的特徴に基づくモデルのほうが眼球運動データの予測に優れる(特にL2読解でその傾向がある)。
読解中の眼球運動データの予測に有用となる変数は,L1・L2ともに語彙に関するものがほとんどである。
複数語単位 (bigram, trigram) の頻度は,L1・L2読解の両方において眼球運動データの予測に役立つ可能性がある。
(これ以降,これらの点について補足的に書こうと思ったら,思いのほか長くなってしまいました。結果の重要な点だけ分かれば良いという人はここで読むのを止めても良いかと思います。)
1に関しては,多様な言語的特徴に基づいて構築したモデルを,総語数のみのモデル,及びそれに語彙の長さ・文の長さという単純な言語的特徴を加えたモデルと比較し,AICや説明する分散の大きさを検討しました。読みやすさ研究では,語彙と文の長さだけでは予測に不十分でそれ以外の多様な言語的特徴の指標が有用となるということはよく主張されることなのですが,本研究はこの知見を眼球運動データに反映される読解中の処理負荷の観点から支持するものです。読みやすさ研究のレヴュー論文でも,文章の読みやすさ推定において眼球運動データが有用な新しい指標となり得ることが言及されています(Collins-Thompson, 2014)
構築したモデルは総語数の影響が非常に大きいのですが,注視回数・注視時間という圧倒的に語数に影響を受ける指標を基準変数にしていることを踏まえると,総語数だけのモデルからさらに追加で10%近い分散を説明していることは理論的に意味のある結果だと考えています。ただ,単純な特徴と多様な特徴に基づくモデルで期待していたほどの違いが出なかったのも事実で,これは基準変数に注視時間・注視回数を採用していることに加え,読解中の眼球運動モデル (E-Z Reader) で想定されるように眼球運動には語彙の長さがかなり重要な役割を果たしているのではないかと思います。この点は論文中でも言及しており,今後の研究でも引き続き検討していこうと思っている点です。
2に関しては,変数選択の過程を経て最終的なモデルに含まれたのはL1とL2とも語彙に関する変数がほとんどで(頻度,親密度,具象性,連想,n-gramの指標など),統語に関する指標はわずか,結束性に関してはどれもモデルに含まれなかったという結果に基づいています。先に述べたように眼球運動データが語彙の特徴と最も関連しているというのは当たり前のように思えるのですが,今回は統語や結束性など別の言語的特徴も総合して吟味したうえでの結果であること,L1・L2読解ともにこの関係が当てはまることが面白いところだと思います。
当初は,L2読解では単語認知など低次の読解処理の負荷が大きくなることから,L2読解のモデルで語彙の変数が多く含まれ,L1読解ではより高次の処理に関わる統語や結束性の変数が多く含まれるのではと予測していました。しかしながら,結果はそのようにはなりませんでした。査読者からは「BilingualismのジャーナルなのにL1読解とL2読解の違いが明確になってない」と指摘されたのですが(確かにジャーナルの特性を考えればその指摘も一理ありますが),個人的にはむしろそこが重要な点だと思っています。論文の結論部分にも書いていますが,もしL1・L2読解で文章の特徴と読解の処理負荷の関係に大きな違いがないのであれば(=どちらも語彙特徴が処理負荷の予測に重要になるのであれば),L1・L2で共通の読みやすさの指標を開発・利用できるのではないかと考えるためです。L1とL2それぞれに応じた読みやすさの指標を作るべきという考えもありますが,L1とL2で共通で使える指標があるのならば,別々の指標を作ったり使ったりするよりもそのほうが実用的だと思います。本研究ではその可能性を示唆しています。
ただ,最後の限界点にも書いていますが,語彙の指標の重要性は今後文章のジャンルを変えてみて検討する必要があると思います。というのも,今回のデータで読解の対象となった文章は小説であり,説明文などと比較すると統語的な複雑さや結束性の特徴が表れにくいのではないかと考えるためです。
3に関しては,L1・L2読解の両方のモデルでbigram, trigramの頻度がモデルに含まれその効果が有意であったこと,相対的重みづけ分析で総語数以外ではこの2つの変数が最も多くの分散を説明していたことを総合的に解釈しています。テキストに頻度の高い複数語単位が含まれているほど処理負荷が低くなるというもので,forumulaic langaugeの理論とも合致していると思います(※本研究で扱ったのはあくまでn-gramである点には注意が必要です)。
ただし,相対的重みづけ分析の結果はあくまで判断材料の1つではあるのですが,論文でも言及している通りその扱いや解釈には注意が必要だと認識しています(論文のRevise中にMizumoto, 2022が出たので,十分ではないですがかなり参考にさせて頂きました)。また,これは論文全体を通して感じたことですが,今後このような研究を続けていくのであれば,モデリングアプローチの選択やモデルの選び方,変数の理論的・統計的な選択の仕方,外れ値の扱い方などをもっと検討・洗練していく必要性を強く感じました。自分なりに様々な方法を検討していたのですが,実際のところ今回の論文ではこれらの点について十分に対応できたとは言えません。また,Collins-Thompson (2014) では,読みやすさのモデルにおいてはモデリングアプローチの選択よりも変数選択のほうが重要になるとも言われているので,この辺りも今後考えていく必要がありそうです。これらの点については,Supplementary Materialsのほうで結果を詳しく記載していたり,実際に用いたデータや分析過程もオープンにしているので(※編集のミスで原稿上のハイパーリンクが誤ったものになっていますが,URLを直接コピペすれば飛べます;あるいはこちらからも飛べます),そういう意味でも今後の研究に役立てばと思います。
正直なところ,上にいろいろと書いたように,自分でも課題の多い論文だなと感じています。ただ,本論文の良いところを挙げるとすれば「文章の多様な言語的特徴から読解中の眼球運動データを予測する」というアイデアを初めて形にすることができたということです。初めてだからこそ課題も多く見つかっているのですが,今後この論文を読んだ人がここから着想を得ていろいろな研究につながっていけばよいと思いますし,自分自身でも今回の研究で見つかった課題について現在進行形で行っている研究では積極的に取り組んでいく予定です。
最後に,査読について。査読は,初めての経験だったのですがsingle blind(査読者には著者が誰だかわかる形式)でした。また,投稿時に査読者を指名するシステムで,割り当てられる3~4人の査読者のうち1~2人くらいはその中から選ぶということでした。私は5人くらい挙げてみたのですが(全員海外の研究者),実際の査読では確かに2人くらいはその中から選ばれていたと思います(1人はsigned, 1人はコメント内容からの推測)。
ただ,これは私の投稿時の話で,最近になって投稿規定が変わりdouble blindになっているように読めます。私のように海外に強いコネクションがない人間には関係ないですが,single blindで査読者指名制だと人によってはかなり有利に査読者を選ぶことができてしまうかもしれないので,こっちのほうが良いなと個人的には思います。
あと,Editorial processが長かったです(採択後含めて)。