〈読書感想〉言語とフラクタル
こんにちは。
図書館で借りた「言語とフラクタル」という本を読んでいましたが、読み終わる前に返却期間が過ぎて罰則ポイントが貯まりつつあるので、読んだところまでで感想を書いておきたいと思います。
以前、〈読書準備〉として目次のマインドマップを作ったので、念のためリンクを張っておきます。
統計的言語普遍
本書では、統計的な手法を用いて言語の特徴を分析することで、言語を言語足らしめている法則を解き明かそうとする研究について書かれています。
著者曰く、物理学に含まれる熱力学や統計力学の考え方を用いて、言語の特徴を説明しようとしているようです。
統計力学と言えば、原子や分子などの挙動を統計的に表現して、物理的な性質を説明しようとする分野だと思います。
※自身がないのでコトバンクで調べた文章も貼っておきます。
単語や文字などの集合体の巨視的な性質を統計や確率を使って表すということで、このような表現をしているのかもしれません。
この分野では、単語や文字の集合体(”集積”と表現してました)をコーパスと呼んでるようです。新聞や小説がコーパスの例です。
このようなコーパスに対して、普遍的に成り立つ法則を”統計的言語普遍”といい、これについて説明した本です。
フラクタルの由来
統計的言語普遍として紹介されている法則は、基本的にはべき乗則、つまり、$${y\propto x^{b}}$$の形の表現されるものです。
タイトルの「フラクタル」は、このべき乗則に由来します。
それは、自己相似性、スケールフリー性が成り立つためです。
自己相似性は、
$$
y \propto (kx)^{b} \propto k^{b}x^{b} \propto x^{b}
$$
となって、自身の中に同じ形が見つけられる性質です。
また、スケールフリー性は、系の大きさに依存せずに同じ関係が成り立つことをいうようです。
このような法則が、フラクタルな図形にも当てはまることから、タイトルに使われているようです。
ただ、言語は有限なために文中では”壊れたフラクタル”という表現になってます。
言語を特徴づけるべき乗則
しっかり読めたのは第Ⅱ部までですが、ここまでで基本的な法則が記載されています。それは、順位頻度分布、単語頻度分布、語彙成長関数の3つのべき乗則です。
著者によれば、これらの3つ分布からそのコーパスを特徴づけることができるといいます。
詳しい数式は書ききれないし、本を読まないと理解できないので書きませんが、これらの分布を調べることで、定量的にコーパスを評価することができます。
第Ⅲ部以降は、サラッと目を通した程度ですが、基本的なべき乗則を元にして、様々な統計的な法則が説明されています。
感じたこと
自分の勝手な想像だったのかもしれませんが、言語学といえば、様々な地域の言葉や過去と現在の言葉を比較することで、言語の由来や使われ方の法則性を調べる学問をイメージしていました。以前、言語の系統に関して説明している本を読みましたが、数式は一切出てこなかったので定量的な話はあまり無いものだと思っていました。
しかし、言語を統計的に分析すると多くの共通法則が見られ、それが体系的に研究されていることには驚きました。
冷静に考えれば、これだけ統計学が広まっているので、こういう研究されているのも当たり前ですね。
特に、機械学習などが実用化されだして、人の言葉を機械に認識させる必要が出てきているので、本書に書かれているような研究は益々重要になってくるような気がします。
使っている数学はそれほど難しくはないと思いますが、内容はかなり専門的でなかなか読み進めることができませんでした。
興味はあるんですが、他にやらないといけないこともあるし、今これにリソースを費やすべきではないと思って、途中でリタイアすることにしました。
また機会があれば、挑戦したい本ですね。
この分野の仕事をすることがあればいいんですが、現状は全く違う方向なので難しそうです。
ただ、何かのヒントになるかもしれないので、頭の引き出しにしまっておきたいと思います。
今日は以上です。