コーパス言語学サマースクール＆学会参加報告

2023年8月2日 16:25

コーパス（Corpus）との出会い

初めて「コーパス」という言葉に出会ったのは高校時代、NHKテレビの『100語でスタート!英会話』という番組です。「コーパス」については後ほど詳しく解説しますが、2003年からスタートしたこの番組は頻度の高い100語の英単語が実際に文脈でどのように使われているかを学習できるというものでした。

その番組の講師を務めていたのが東京外国語大学教授の投野由紀夫先生です。高校時代にこの番組に魅了され、毎晩録画したものを週末にまとめて視聴する習慣が付き、高校2年の時には「投野由紀夫のコーパス超入門（小学館）」を購入し、頻度の高い英単語をノートにまとめたり、自分の後輩に教えたりしていました。

大学1年時に高校の恩師から投野由紀夫先生が高校で講演してくれることになった！という連絡を頂き、卒業生の立場で参加させてもらい、初めて生で投野由紀夫先生に対面しました。この時の感動（田舎の高校生が芸能人にあった感覚）は今でも忘れられず、書籍には熱いメッセージとサインを頂きました。

時は過ぎ去り、大学院進学を考え始めた大学3年次、青山学院大学の渋谷キャンパスでは大学院生が受講する専門科目の履修登録ができたため、山内豊先生の「英語コーパス研究方法論」の授業を受講することにしました。この授業ではコーパス言語学の基礎基本からコーパス分析ツールであるAntConcの基本的な使い方までコーパスの入門レベルの内容を学び、学期末課題としてコーパスデータを作成し、分析した結果を発表し、教材開発に応用しました。1学期間で洋画を使ったコーパス分析とジブリ映画の日英比較を行いました。

その後、投野由紀夫先生のプロジェクト（科学研究費補助金基盤研究（A））の3年間の研究の方向性について議論する「学習者コーパスによる英語CEFRレベル基準特性の特定と活用に関する総合的研究」の公開会議に参加してみたり、コーパスに関する学会やセミナーに参加し、CEFR-Jの『CAN-DOリスト活用　英語到達度指標CEFR-J ガイドブック』を購入し、データをダウンロードして分析してみたりしました。結局大学院ではコーパスを使用することなく、2017年に修士課程を修了しました。素人レベルでAntoConを使いながら英単語リストを作ったり教材開発に活かしたりしていましたが、思い通りのリストを作れず、経験論をベースにした書籍ばかりを世に出してきてしまいました。例えばこちらの「IELTS必ず☆でる単スピードマスター」はAcademic Word Listを使用しながらも、9割はコーパスではなく自分が英国留学中にメモした役立つコロケーションを主観的な判断で収集しリスト化しました。また僕が監修するオンライン英語学習プログラムLinguaHackersの語彙リストは教養テーマ別に頻度ではなく、議論をする上での重要度で主観的に判断し、リストとテストを作成しています。

Lancaster Summer Schools in Corpus Linguistics 2023

投野由紀夫先生への憧れもあり、博士課程進学のタイミングを虎視眈々と狙いながら、ランカスター大学のHPを眺めていて見つけたのがLancaster Summer Schools in Corpus Linguistics 2023です。このサマースクールはESRC Centre for Corpus Approaches to Social Scienceによる奨学金制度があり選ばれると無料で参加できます。コロナの影響で昨年までオンライン開催でしたが、今回は対面での実施とのメールがあり、即応募すると奇跡的にオファーメールが来ました。志願書に「博士課程ではコーパスを使いたい」という理由を書いておいたのが効いたのかもしれません。

5年ぶりにヒースローに向かい、ロンドンに1泊してからイギリス北西部のランカスターに電車で向かいました。ランカスター駅からランカスター大学へのアクセスは非常に悪く、駅から徒歩で大学までは1時間以上かかるため、バスに乗ってUnderpassというバス停で降り、ランカスター大学の寮に向かいました。大学寮のゲストルームは一般の人でも宿泊可能で、ある中国人の孫と祖父母が大学キャンパス体験で宿泊していて衝撃でした…

時差ボケに耐えながら初日の授業が始まります。5日間のサマースクールは予想以上にハードでCELTAを思い出しました。周りを見渡すと参加者の半分くらいが博士課程の学生、残り3割程度が博士取得済み＆大学の先生、そして残り2割がコーパスを専攻する修士課程の学生で、ただ1人UCL言語学在籍の学部生（圧倒的最年少）が参加していました。日本人の参加は僕含め2名、コーパスで博士を取った都内の私立大学の先生でした。なんと400名以上の応募があり、80名の参加者が選ばれたそうです。

ここで気づきました…学部時代の1学期間しかコーパスを勉強していない僕が圧倒的に知識不足であること。もっと予習すべきだったと後悔している暇もなくサマースクールは物凄いテンポで進んでいきます。まずは導入として1960年代からランカスター大学でのコーパス研究は盛んであり、世界的コーパス権威の多くはランカスターで学び教えているという教えを受けました。

このサマースクールは講義型の授業と研究室での実践が交互に行われる構成で、インプットとアウトプットを高速に繰り返していくスタイルです。講義はランカスター大学の教授や講師、博士課程の学生が担当し、大量の情報をインプットしていきます。そして研究室に移動し、そこで学んだことを即応用してコーパス分析するという課題が出されます。通常はアクセスできないコーパスデータを使って分析をしたり、自分のオリジナルのワードリストを作成するという課題も出ます。

コーパス（Corpus）の定義

ここでコーパスの定義を見ていきましょう。コーパスとは世の中の書き言葉・話し言葉を大量に集め、コンピュータ分析できるように集められた「言語テキストの集合体」のことです。そしてコーパス言語学（Corpus Linguistics）は言語研究を行う言語学（linguistics）の一分野であり、1960年後半以降に生まれた比較的新しい領域です。それ以前は主に統語論（syntax）専門の言語学者の直感（intuition）や少ないサンプルから導き出されたデータを基に「この言葉はこう使われる」というものでした。それ以降はコンピュータ分析で大量のデータを扱えるようになり、言語的特徴が明らかになることで、辞書編纂（Lexicography）から社会言語学（Sociolinguistics）まで幅広い分野に応用されるようになりました。

投野由紀夫先生のコーパス超入門によると、コーパスは「テキストの集合体」であり、コーパスとして扱われるための3つの条件が提示されています。1つ目の条件は「ある目的をもって集められたテキスト」、2つ目の条件が「実際に使われた言葉である」、3つ目の条件が「コンピュータ処理できる」です。

それでは学術論文での「コーパス言語学（Corpus Linguistics）」の定義を見ていきましょう。まずはコーパス言語学の先駆者であるJohn McHardy Sinclairの定義です。彼はバーミンガム大学（University of Birmingham）と出版社コリンズ（HarperCollins Publishers）のCOBUILD（Collins Birmingham University International Language Database）共同プロジェクトを始動したことで有名です。まさに手作業（manual analysis）では得られにくい情報が手に入るのがコーパス言語学の特徴です。

Corpus linguistics is a discipline that uses computational tools and software to analyze large amounts of text data, providing insights into language use that would be difficult to obtain through manual analysis. (Sinclair, 1991)
訳：コーパス言語学は、計算ツールやソフトウェアを使って大量のテキストデータを分析する学問分野であり、手作業による分析では得られにくい言語使用に関するインサイトを提供する。

Sinclair, J. (Ed.) (1991). Corpus, Concordance, Collocation. Oxford, UK: Oxford University Press.

次に紹介するのはユニヴァーシティ・カレッジ・ロンドン（UCL）で修士号と博士号を取得し、ランカスター大学名誉教授を務め、Lancaster-Oslo/Bergen (LOB)コーパスの生みの親でもあるGeoffrey Leechです。彼はコーパス言語学だけでなく文法論・意味論・語用論・文体論の分野の発展にも貢献しました。客観的（objective）であり、実験に基づいた（empirical）データであることがコーパス言語学の特徴です。

Corpus linguistics is a discipline that complements traditional, introspective methods of linguistic analysis, as it provides objective, empirical data on language use. (Leech, 1992)

Leech, G. (1992). Corpora and Theories of Linguistic Performance. In J. Startvik (Ed.), Directions in Corpus Linguistics (pp. 105-122). Berlin: Mouton de Gruyter.

コーパスデータ（Corpus Data）

次に世の中にはどのようなコーパスデータがあるのかを見ていたいと思いますが、個人所有のコーパスからある特定の研究のために作られたコーパス、ある地域のみのコーパス、話し言葉と書き言葉のコーパス、モノリンガルとバイリンガルのコーパス、通時コーパス（Diachronic Corpora）や共時コーパス（Synchronic Corpora）、モニターコーパス（Monitor Corpora）や学習者コーパス（Learner Corpora）、そして誰でもアクセス可能な大規模コーパスまで存在します。ここでは主要な5つのコーパスについて紹介します。

BNC（British National Corpus）

BNC（British National Corpus）は90%の書き言葉と10%の話し言葉で構成される1億語以上のイギリス英語が集められたコーパスです。

Brown Corpus

Brown Corpus は1964年にアメリカのブラウン大学でアメリカ英語の書き言葉をジャンル別に計100万語以上が集められたコーパスです。

LOB (Lancaster-Oslo/Bergen) Corpus

LOB CorpusはBrown Corpusのイギリス英語版で同様のサンプリング方法で集められたイギリス英語のコーパスです。

COCA(The Corpus of Contemporary American English)

COCAはアメリカ現代英語を4億5000万語以上が集められた誰もアクセス可能な大規模コーパスです。

CLC(The Cambridge Learner Corpus)

CLCはケンブリッジ英語検定やIELTS受験者から集められた書き言葉の英語学習者コーパスです。

コーパス分析（Corpus Analysis）

次に様々なコーパス分析ツールを紹介します。その前にコーパス分析の基礎基本となるコンコーダンス（Concordance）について見ていきましょう。コンコーダンスはKWIC(Key Word in Context)の機能を用いることで特定の語彙や表現の前後の共起語をアルファベット順に表示できます。

まず1つ目は僕が学部時代にも使用した早稲田大学のLaurence Anthonyが開発した多言語対応のAntConcです。独自に作成したIELTS OfficialのコーパスをKWICでuniversityと検索した結果がこちらです。

メニューバーには以下のようにuniversityが全テキストのどの部分で使用されているかを調べるプロット検索や調べたい語彙の実際のテキストを検索するファイルビュー検索、クラスター検索、nグラム検索、共起語など1つのターゲット語彙がどのような場面でどの単語と相性がよく、どのような言語特徴があるかなどを分析できます。

ちなみにコンコーダンスの魅力としてSet of concordance lines often provide unexpected information: this is the ‘serendipitous’ and joyful aspect of corpus research (Hunston, 2022).という考え方もあり、コンコーダンスを眺めていると予期せぬ幸運に遭遇するかもしれません。

AntConcのライバルにあたるのが今回のサマースクールで学んだVaclav Breziaがプロジェクトリーダーを務めるLancboxです。今回のサマースクールのメイン講師と言って良いほどランカスター大学コーパス研究の中心的人物です。この授業ではBNC2004から2014のアカデミック文献の比較研究で、本来アカデミックライティングでは避けるべきとされる短縮形（contraction）が28%も増加しているというデータです。コーパスを使って時代における言語使用の変遷も数字で表すことができます。

ちなみにVaclavによるLancsBoxの使い方に関する動画はこちらです。LancsBoxは残念ながらMac非対応のため、帰国後はAntConcを使用していますが、ランカスター大学はより初学者向けの優しいユーザーインターフェースのコーパスウェブサイトを公開しています。

より高度な分析をする必要がある場合はRやPythonの知識が必須のようです…ですが中高生でも使えるサイトがBNClabです。単語やフレーズを入力すると性別や年齢や地域で使い方が異なるということをビジュアルで表示してくれます。特にイギリス英語は地域毎に顕著な違いがあるため、どの表現がどの地域でよく使われているか、時代によってどう変化したなどをコーパスの知見がなくても利用することができます。

他にも用途に合わせて活用できるソフトフェアやウェブサイトがありますがサマースクールで教えてもらったリンクはTwitterで紹介していますのでご活用ください。

【コーパス言語学で使えるWebサイト一覧】
LancsBoxhttps://t.co/uF9UonwGau
LancsLexhttps://t.co/1RExLvA1ch
Lancaster Stats Tools onlinehttps://t.co/PQmNd2Mcaq
BNClabhttps://t.co/cvoxHt2Mkn
SKELL: Sketch Engine for language learninghttps://t.co/SotS0JjsNs
FLAX: Flexible Language…
— 嶋津幸樹/ Koki Shimazu (@Koki_Shimazu) June 28, 2023

サマースクールではあらゆる言語テキストを使って分析する方法を学び、研究室ではコーパスに関して僕が知らないことを何でも知ってる博士課程の学生がつきっきりで指導してくれました。

計24時間の研修を終え、Lancaster Summer Schools in Corpus Linguistics 2023の修了書を頂き、参加者でランカスターキャッスル散策ツアーに出かけたり、ランカスター大学のパブで乾杯したりしました。

Lancaster Summer School in Corpus Linguistics 2023 #LancsSS23 @LAEL_LU @CorpusSocialSci pic.twitter.com/8qVWt9qkWl
— Koki Shimazu ｜Learning by teaching (@kokishimazu) June 30, 2023

#LancsSS23 is over - a huge 'thank you' to our participants for making it such a wonderful week for all of us here at @LancasterUni! And although the summer schools are over for this year - we very much hope that the new knowledge & friendships will stay with us for much longer! pic.twitter.com/LA3DUxG3eS
— Dana Gablasova (@danagablas) July 1, 2023

Corpus Linguistics 2023 Conference

そして翌週から始まったCorpus Linguistics 2023 Conference、イギリスの大学で2年に1度開催されるコーパス言語学の学会です。ここには世界中から研究者が集い、最新のコーパス言語学の研究発表をします。

サマースクールで引用されていた論文の著者が続々と出現し、まさにコーパス言語学の世界的権威が集結し、議論している感じでした…初日からCorpora in Applied Linguisticsの著者でバーミンガム大学教授のSusan Hunstonの発表があり、思わずサインを求めてしまいました。

サマースクールでお世話になった超優秀な中国出身の博士課程の学生は異次元の分析結果を使って発表していましたが、一ミリも理解できませんでした。

そして日本からもスーパースターが何人か参加していてTwitterでフォローしていた20年以上前にランカスター大学でMAを取った名城大学の藤原先生にも初対面！

さらにあのAntConcの開発者Laurence Anthonyもいる！

さらに世界の村上と呼ばれるケンブリッジ大学博士でバーミンガムフェローのAkira Murakamiがディナーで隣の席！

さらに奇跡が起きます。そうです、Akira Murakamiの恩師でもある、あの投野由紀夫先生にディナーに誘って頂き、Lancaster Houseという豪華なレストランで美味しいワインをご馳走になりました。15年前にAlways Furtherという言葉をもらったあの時の感動を再度お伝えして、感謝の気持ちを伝えました。

編集後記

2020年コロナ以降、仕事と家庭の両立に苦戦し、アカデミックな活動に時間を割けず、初めての学会参加でした。商業的な活動に没頭するのではなく、やはり常に学び続けなければいけない＆AIによりコーパスの形も変わるかもしれないという危機感と共に本質的に価値のある活動、社会的貢献度の高い仕事にフォーカスせねばと改めて考えさせられました。2025年までにIELTS普及活動を終え、新しい挑戦の準備を進めていきます！

Reference

Brezina, V., Weill-Tessier, P., & McEnery, A. (2020). #LancsBox v. 5.x. [software]. Available at: http://corpora.lancs.ac.uk/lancsbox.
Brezina, V., Timperley, M., & McEnery, T. (2018). #LancsBox v. 4.x [software]. Available at: http://corpora.lancs.ac.uk/lancsbox.
Brezina, V., McEnery, T., & Wattam, S. (2015). Collocations in context: A new perspective on collocation networks. International Journal of Corpus Linguistics, 20(2), 139-173.
Hunston, S. (2002). Corpora in Applied Linguistics (Cambridge Applied Linguistics). Cambridge: Cambridge University Press. doi:10.1017/CBO9781139524773
Leech, G. (1992). Corpora and Theories of Linguistic Performance. In J. Startvik (Ed.), Directions in Corpus Linguistics (pp. 105-122). Berlin: Mouton de Gruyter.
Sinclair, J. (Ed.) (1991). Corpus, Concordance, Collocation. Oxford, UK: Oxford University Press.