見出し画像

10個の単語で英語の1/4が作られている 言葉の世界に潜むジップの法則

私たちは日々の生活の中で、何気なく言葉を発して、文章を読んで、周囲の人とコミュニケーションを取っています。そのありふれた言語の交換の裏には、ある法則が隠されているといわれています。

「the」「be」「to」「of」――

この何気ない英単語たちが、実は私たちの言語が持つ重大な謎を握っているそうです。

人類が使う言葉の謎に迫る上で大切な『ジップの法則』について、見ていきたいと思います。


オックスフォード大の研究結果

英国オックスフォード大学による「オックスフォード英語コーパス」は、現代英語の膨大なデータベースを構築し、言語の多様性と法則性を分析しているプロジェクトです。

その20億語を超えるデータを解析してみると、わずか10個の英単語が全体の約25%(4分の1)を構成しているということが明らかになりました。

さらに進めると、上位100語がデータベース全体の約50%(2分の1)を占めていました。[1]

その10個の単語とは?

1. the(その、その〜)
2. be(be動詞)
3. to(〜へ、to不定詞)
4. of(〜の)
5. and(そして)
6. a(1つの)
7. in(〜の中に)
8. that(その、あの)
9. have(持っている)
10. I(私)

80年前の『ジップの法則』との一致

なんと、この結果は80年以上前に予測されていた現象と一致していたのです。

米国ハーバード大学の言語学者であるジョージ・キングズリー・ジップは、1935年に、ジップは当時、膨大な量のテキストデータを分析しました。その結果、ある不思議な法則性を見出したのでした。

頻度と順位の奇妙な関係

その法則性とは、単語の使用頻度は、その頻度順の順位に反比例する というものです。ジップが提唱したのは、出現頻度の高いものが全体を支配するという経験則でした。これが『ジップの法則』と呼ばれるものです。

具体的に言うと、

・ 最も使用頻度の高い単語(1位)の使用回数を100回とすると
・ 2番目に使用頻度の高い単語(2位)の使用回数は、その半分である50回程度になる
・ 3番目に使用頻度の高い単語(3位)の使用回数は、1位の1/3である33回程度になる
・ 4番目に使用頻度の高い単語(4位)の使用回数は、1位の1/4である25回程度になる

…といった具合に、順位が下がるにつれて、使用頻度が規則的に減少していくという法則です。逆にいえば、最も一般的な単語は次に一般的な単語の約2倍、3番目に一般的な単語の約3倍の頻度で出現するとされています。

ジップは、このような分布が観察されるのは、私たちがより使いやすい言葉を頻繁に使用するためだと考えました。

例えば、アメリカ英語のブラウンコーパスでは、「the」が最もよく使われる単語で、全体の約7%を占めています(約69,971回、全体で100万回以上)。ジップの法則に従って、2位の「of」は約3.5%(36,411回)、その次の「and」は28,852回出現しています。[2]

なぜ、言葉に偏りは起こるのか

言葉の使用頻度に大きな偏りが見られることについては、実は依然として未解決なのですが、ジップ自身による『最小努力の原則』の仮説が妥当であるといわれています。[3]

例えば、私たちが普段よく使う言葉は短くて言いやすいものが自然と多くなりますよね。かあさん、ふろ。めし。あれ。

ジップの法則は、私たちが普段無意識に行っている「楽をする」という行動が、言葉の使われ方にも表れていることを示しているそうです。

これは、人間同士がコミュニケーションを取る際に、できるだけ少ない労力で、効率的に意思疎通を図ろうとする本能的な欲求を持っているためだと考えられています。

普段、頻繁に使用する概念には短い単語が当てられ、使用頻度の低い概念には長い単語が当てられる傾向があります。

その結果として、言語は全体として効率的に整理されていき、扱いやすくなっていると考えられています。

最小努力っていい言葉です。


参考文献

[1] Business Insider. (2013, October 25). Zipf's law and the most common words in English. https://www.businessinsider.com/zipfs-law-and-the-most-common-words-in-english-2013-10

[2] Fagan, Stephen; Gençay, Ramazan (2010), "An introduction to textual econometrics", in Ullah, Aman; Giles, David E. A. (eds.), Handbook of Empirical Economics and Finance, CRC Press, pp. 133–153, ISBN9781420070361. P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."

[3] Ramon Ferrer i Cancho & Ricard V. Sole (2003). "Least effort and the origins of scaling in human language". Proceedings of the National Academy of Sciences of the United States of America. 100 (3): 788–791. doi:10.1073/pnas.0335980100https://ieeexplore.ieee.org/document/1306541

いいなと思ったら応援しよう!