CommonLit Ease of Readability (CLEAR) Corpus論文のレヴュー
最近出版された以下の論文についてレヴューしたい。
筆頭著者であるScott Crossley氏はこれまでL1, L2を問わずリーダビリティーに関する研究を多く発表しており(こちらやこちらでレヴュー),その流れを汲んだ最新の論文である。この論文では,CommonLitと呼ばれる非営利の教育組織との協同で構築されたリーダビリティー算出のための大規模コーパスが紹介されている。
背景
先行するリーダビリティー研究や自然言語処理の手法を用いた言語的特徴の評価など,理論的な背景は過去の論文のレヴューを参照されたいが,本研究における重要な背景としては以下のことを挙げることができる。
伝統的なリーダビリティーの指標は,特定の年齢層向けに,あるいは特定の分野で書かれたテキストから構成される小規模のコーパスに基づいている。
自然言語処理の技術を活用した近年のリーダビリティーの指標の多くは,そのアルゴリズムが公開されていない(ETS作成のTextEvaluatorなど)。
これらの点を踏まえて作成されたのがCommonLit Ease of Readability (CLEAR) Corpusである。2点目を踏まえ,コーパスに含まれるあらゆるデータは公開されている。
コーパス構築の方法
本コーパスを構成するテキストは,CommonLitのデータベースに加え,Project GutenbergやWikipediaなどデジタルテキストが公開されている様々なデータベースから収集されたものである。これらは1791年から2020年まで幅広い年代で書かれたものであり(多くは1900年前後),各テキストは140語~200語の区切れのいいところで抜粋されている。また,テキストのジャンルはinformational, literatureのいずれかである。
収集されたテキストは,(1)3~12学年の教室で使われるレベルのもの
,(2)トピックが適切かという観点から2名によって選定され,さらにtraumaticな語が含まれていないかを自動的に検索した。この過程を経て,最終的に選定されたのが4793のテキスト(の抜粋)である(分析の過程でもう少し減ることもあるが)。
選定されたテキストは,CommonLitのプールから集められた1800人の教員(課題の取り組み度などを踏まえて最終的には1116人)によって難易度が評価された。各評価者は,並列して提示される2つのテキストについて,どちらがより理解しやすいかを選択するというタスクを100組に対して行っている (pairwise comparison)。
各種分析と結果
Study 1とStudy 2でそれぞれ異なる分析をしているが,Study 1ではまず,各テキストの評定データに基づいてBradley–Terry Modelを構築し,各テキストのcoefficients(リーダビリティースコアに相当)を算出している(この過程でSDやSEが大きいものを除外し,テキスト数は4724に)。この値と,テキスト数を半分にした場合のモデルの値との相関を分析し,.84, .88と高い係数を得ていることからコーパスデータの信頼性が保たれているとしている。また,literatureよりもinformationalテキストのほうが難しいと評定されやすいこと,テキストが書かれた年とリーダビリティースコアには弱い相関があり,近年に書かれたテキストのほうが読みやすいと判断される傾向にあることが確認されている。
Study 2ではBradley–Terry Modelに基づくリーダビリティースコアについて,(1)既存のリーダビリティー指標との相関,(2)テキストの言語的特徴による予測という2つを行っている。(1)については,ARTE(Automatic Readability Tool for English)によって算出される7つのリーダビリティー指標(FRE,FKGL,ARI,SMOG,DC,CAREC,CML2RI)との相関を分析し,いずれも .50前後の比較的強い相関を示している。最も高い相関を示したCARECは .58であるが,説明率に換算すると34%ほどになる。
(2)については,語彙の洗練度(TAALES),多様性(TAALED),統語的複雑さ(TAASSC),結束性(TAACO),感情(SEANCE)の5つの観点(ツール)でテキストを分析している。最初は800近い指標を得ていたものを,ゼロとなるデータが20%あるものを除外したり,リーダビリティー指標と少なくとも弱い相関を示したもののみに絞り,107まで選定している。これらの指標を使って,stepwise 10-fold CVによってリーダビリティースコアを予測する線形回帰モデルを構築し, 最終的なモデルには28の言語的特徴の指標が含まれた。相対的重みづけ分析では,これらのうち語彙の範囲,具象性,接触年齢など語彙認知に関わる指標の重要性が示された。その他,名詞句の複雑さなどの統語的複雑さ,社会的関連などを示す語などの感情,隣接する文間の命題の重複などの結束性の指標も含まれている。モデルの説明率は50%を超えており,既存のリーダビリティー指標と比較して高い説明率を示している。
まとめ
本論文では,CLEAR コーパスがリーダビリティー指標の開発や検証を行いたい研究者にとって有益であることを示すことが目的であったが,このコーパスの強みとして,(1)その規模,(2)幅(収集されたテキストが書かれた年代やソース,複数のジャンルがあることなど),(3)テスト得点などではなく人による難易度の評定値が付与されていること,の3つが挙げられている。