【校閲ダヨリ】 vol.64　僕の夏休みの自由研究③（計量言語学の手法Ⅱ）※難

2021年9月24日 11:35

みなさまおつかれさまです。
前回は、「コーパス」という単語調査ツールがちらっと登場したところでお話を終えたかと思います。

コーパスとは、英語では「corpus」と書き、「（文書・法典などの）集成、収集」という意味がある単語です。ちなみに次に立つ意味が、「体（body）、（特に犯罪の客観的な証拠としての）死体」だったりする少々不気味な単語であることは、辞書で調べるまで知りませんでした。（これだから言葉の研究はやめられないのです）

さて、こと日本において「コーパス」という単語は「言語研究のために集積された一群の資料。個別言語や、ある作家のテキスト、母語話者の発話記録などを網羅的に集めたもの。言語資料体。」（日本国語大辞典）という意味でのみ使われる、専門用語に属するかと思います。

コーパスは、計量語彙論の研究には欠かせないものですが、私などのように計量的な手法を自論の裏付けに用いる「ライトユーザー」にも非常に役立ちます。
たとえば、「ら抜き言葉」について「自然な文例がほしい」と思った時などに「見れる」「着れる」などで検索をかけることによって、日常会話レベルのものまで調べることが可能です。
さらにお手軽なところだと、私はGoogle検索や、Twitter検索をよく利用します。特にTwitterは、話し言葉に近い用例を集めることができます。
　　　

※ブログやTwitterから用例収集する場合ですが、基本的に公開情報とみなされるため「引用の許諾」は不要です（vol.13参照）。しかし、発信者への配慮は必要です。私が例として使わせていただく場合は、該当単語の直前直後あたりのみに絞り、発信者がわからないようにしたり、似たようなテイストの別の文を自作したりして（この場合は自作なのでそもそも引用ではなくなります）、読者の方が検索をかけても「ヒットしない」もしくは「多数ヒットする」よう匿名性をあえて持たせていますが、これは論文を書くとき、根拠としては使えません。あくまで参考程度のライトな使用法というふうに捉えていただければと思います

　　　
　　　
　　　
コーパスには「書き言葉」「話し言葉」それぞれに特化した代表的なふたつがあります。
　　　
　　　

書き言葉：「現代日本語書き言葉均衡コーパス（BCCWJ）」
　　　
話し言葉：「日本語日常会話コーパス（CEJC）」

　　　
　　　
BCCWJ、CEJCは、ターゲットがそれぞれ異なるため、当然その特徴も変わってきます。
簡潔に示すと、以下のようになります。
　　　
　　　
〈品詞の割合〉（延べ語数／短単位）　※短単位：「見出し語」とほぼ同義

・BCCWJ：名詞、助詞が多い
・CEJC：名詞の割合が下がり、感動詞、副詞、助動詞が増加

　　　
　　　
〈品詞の割合〉（異なり語数／短単位）

・BCCWJ：名詞が圧倒的に多い
・CEJC：名詞が多い、動詞、副詞が書き言葉に比べて多い

　　　
　　　
〈語種の割合〉（延べ語数／短単位）

・BCCWJ：1位和語、2位漢語
・CEJC：1位和語、2位漢語だが、BCCWJよりも和語の割合が高い

　　　
　　　
〈語種の割合〉（異なり語数／短単位）

・BCCWJ：1位漢語（27.4%）、2位和語（20.8%）
・CEJC：1位和語（38.0%）、2位漢語（30.9%）、外来語はBCCWJより多い

　　　
　　　
大きく2項目、その中で「延べ語数」と「異なり語数」でさらに違いを見ていますがいかがでしょう。
異なり語数はいわゆる「重複使用」を排除したものですので、やはり差が出ていますね。
これはそのまま、「書き言葉（BCCWJ）」と「話し言葉（CEJC）」の違いといってもよいでしょう。
　　　
現代では、このような特徴をもった「コーパス」を使用してデータを集め（正確には「網羅的に集められたデータから必要なものを拾う」）、分類して分析をしていくのが計量言語学の手法ということになります。
　　　
　　　
　　　
計量言語学の下位分野・計量語彙論では、「語彙の統計的法則」を数式で表します。
これはどういうことかというと……

たとえばある数式があったとします。私が書いたこの校閲ダヨリに登場する単語の割合と、別の誰かが書いた本に出てくる単語の割合をそれぞれその数式に代入して計算すると、同じ（もしくは近似の）値を示します。
ほかの作家の作品でも同じような値が出れば、その数式は「書き手が用いる単語の割合」にかんして、本質をついているということになるわけです。
　　　
これは、宇宙の成り立ちを数式で示そうとする理論物理学に近いものを醸し出しており、計量言語学の神髄とも呼べるのではないでしょうか。
ここからは、代表的な3つの数式について紹介いたします。
　　　
　　　
1.【Zipf（ジップ）の法則】

r × f(r) = C
　　　

これは、テキストにおける「語の頻度順位」×「その順位における語の頻度（出現数）」が、各順位で一定になる
というものです。
　　　
　　　

……は？？？

　　　
　　　
　　　
そうなりますよね。
説明しましょう。
たとえば、この校閲ダヨリのなかでよく登場する単語を順位をつけて数えるとします。
　　　

1位思い：100回
2位考え：50回
3位だろう：33回
4位ます：25回

　　　
あくまで例ですが、こんな感じになっていたとします。
「語の頻度順位」×「その順位における語の頻度（出現数）」ですので、1位の場合は「1×100=100」、2位は「2×50=100」、3位は「3×33=99」、4位は「4×25=100」で、それぞれの積が非常に近い値を示す、ということなんです。
この数式は、都市の人口や地震の規模など、さまざまなもので成立するとされていますが、今回はそこには触れません。（面白そうですが）
　　　
さて、この数式が神の数式かというと、なかなかそうすんなりとはいかず、いくつか修正式が出ているようです。
代表的なものを紹介します。
　　　
　　　
・Mandelbrotの修正式

p(r＋B)C乗=A（一定）　　

※A、B、Cはテキストに依存する定数、pは第r順位の語の使用率

　　　
　　　
・水谷の修正式

φ(p)=p/(αp＋β)

※φ(p)は使用率の（近似的）分布関数、αとβはテキストに依存する定数

　　　
　　　
私の可処分時間では、修正式を噛み砕いて理解することは叶いませんでしたが、気になった方は深掘りしてみてください。
このZipf法則＆修正式のポイントは「語の使用頻度」に焦点を当てたものであるという点です。
次のふたつは、また違った観点から導き出した法則なのですが、今回はここまでで終わりにしたいと思います。
　　　
　　　
　　　
早晩冷えてきましたので、ご自愛くださいませ。
それでは、また次回。
　　　
　　

参考文献
『日本国語大辞典』（小学館）
『日本語学大辞典』（東京堂出版）
『日本語文法事典』（大修館書店）
『講義「ことばを数える―計量語彙論の世界―」』（山崎誠、国立国語研究所）

#校閲ダヨリ #校閲 #校正 #出版 #雑誌 #本 #書籍 #エディトリアル #日本語 #言語 #言葉 #国語学 #文法 #proofreading #magazine #book #publishing #create #editorial #language #peacs

【校閲ダヨリ】 vol.64 僕の夏休みの自由研究③（計量言語学の手法Ⅱ）※難

r × f(r) = C

……は？？？

p(r＋B)C乗=A（一定）

φ(p)=p/(αp＋β)

いいなと思ったら応援しよう！

【校閲ダヨリ】 vol.64　僕の夏休みの自由研究③（計量言語学の手法Ⅱ）※難

r × f(r) = C
　　　

p(r＋B)C乗=A（一定）