【校閲ダヨリ】 vol.64 僕の夏休みの自由研究③(計量言語学の手法Ⅱ)※難
みなさまおつかれさまです。
前回は、「コーパス」という単語調査ツールがちらっと登場したところでお話を終えたかと思います。
コーパスとは、英語では「corpus」と書き、「(文書・法典などの)集成、収集」という意味がある単語です。ちなみに次に立つ意味が、「体(body)、(特に犯罪の客観的な証拠としての)死体」だったりする少々不気味な単語であることは、辞書で調べるまで知りませんでした。(これだから言葉の研究はやめられないのです)
さて、こと日本において「コーパス」という単語は「言語研究のために集積された一群の資料。個別言語や、ある作家のテキスト、母語話者の発話記録などを網羅的に集めたもの。言語資料体。」(日本国語大辞典)という意味でのみ使われる、専門用語に属するかと思います。
コーパスは、計量語彙論の研究には欠かせないものですが、私などのように計量的な手法を自論の裏付けに用いる「ライトユーザー」にも非常に役立ちます。
たとえば、「ら抜き言葉」について「自然な文例がほしい」と思った時などに「見れる」「着れる」などで検索をかけることによって、日常会話レベルのものまで調べることが可能です。
さらにお手軽なところだと、私はGoogle検索や、Twitter検索をよく利用します。特にTwitterは、話し言葉に近い用例を集めることができます。
コーパスには「書き言葉」「話し言葉」それぞれに特化した代表的なふたつがあります。
BCCWJ、CEJCは、ターゲットがそれぞれ異なるため、当然その特徴も変わってきます。
簡潔に示すと、以下のようになります。
〈品詞の割合〉(延べ語数/短単位) ※短単位:「見出し語」とほぼ同義
〈品詞の割合〉(異なり語数/短単位)
〈語種の割合〉(延べ語数/短単位)
〈語種の割合〉(異なり語数/短単位)
大きく2項目、その中で「延べ語数」と「異なり語数」でさらに違いを見ていますがいかがでしょう。
異なり語数はいわゆる「重複使用」を排除したものですので、やはり差が出ていますね。
これはそのまま、「書き言葉(BCCWJ)」と「話し言葉(CEJC)」の違いといってもよいでしょう。
現代では、このような特徴をもった「コーパス」を使用してデータを集め(正確には「網羅的に集められたデータから必要なものを拾う」)、分類して分析をしていくのが計量言語学の手法ということになります。
計量言語学の下位分野・計量語彙論では、「語彙の統計的法則」を数式で表します。
これはどういうことかというと……
たとえばある数式があったとします。私が書いたこの校閲ダヨリに登場する単語の割合と、別の誰かが書いた本に出てくる単語の割合をそれぞれその数式に代入して計算すると、同じ(もしくは近似の)値を示します。
ほかの作家の作品でも同じような値が出れば、その数式は「書き手が用いる単語の割合」にかんして、本質をついているということになるわけです。
これは、宇宙の成り立ちを数式で示そうとする理論物理学に近いものを醸し出しており、計量言語学の神髄とも呼べるのではないでしょうか。
ここからは、代表的な3つの数式について紹介いたします。
1.【Zipf(ジップ)の法則】
r × f(r) = C
これは、テキストにおける「語の頻度順位」×「その順位における語の頻度(出現数)」が、各順位で一定になる
というものです。
……は???
そうなりますよね。
説明しましょう。
たとえば、この校閲ダヨリのなかでよく登場する単語を順位をつけて数えるとします。
あくまで例ですが、こんな感じになっていたとします。
「語の頻度順位」×「その順位における語の頻度(出現数)」ですので、1位の場合は「1×100=100」、2位は「2×50=100」、3位は「3×33=99」、4位は「4×25=100」で、それぞれの積が非常に近い値を示す、ということなんです。
この数式は、都市の人口や地震の規模など、さまざまなもので成立するとされていますが、今回はそこには触れません。(面白そうですが)
さて、この数式が神の数式かというと、なかなかそうすんなりとはいかず、いくつか修正式が出ているようです。
代表的なものを紹介します。
・Mandelbrotの修正式
p(r+B)C乗=A(一定)
・水谷の修正式
φ(p)=p/(αp+β)
私の可処分時間では、修正式を噛み砕いて理解することは叶いませんでしたが、気になった方は深掘りしてみてください。
このZipf法則&修正式のポイントは「語の使用頻度」に焦点を当てたものであるという点です。
次のふたつは、また違った観点から導き出した法則なのですが、今回はここまでで終わりにしたいと思います。
早晩冷えてきましたので、ご自愛くださいませ。
それでは、また次回。
#校閲ダヨリ #校閲 #校正 #出版 #雑誌 #本 #書籍 #エディトリアル #日本語 #言語 #言葉 #国語学 #文法 #proofreading #magazine #book #publishing #create #editorial #language #peacs