【読書メモ】西内啓『統計学が最強の学問である』18
読んだ本
読書マインドマップ
読書メモ
第6章 統計家たちの仁義なき戦い
テキストマイニング:自然言語で書かれた文章を統計学的に分析すること
文章の分析に数が持ち込まれるようなった歴史は意外に古い
→19世紀頃から行われている(計量文献学)初期の計量文献学
→シェイクスピアの文体を研究
→シェイクスピアはフランシス・ベーコンではないか?という仮説を検証
→文章の数量的特徴(平均的な単語の長さや単語の数)から、シェイクスピアはフランシス・ベーコンではないと結論づけられた形態素解析:文章を単語ごとに分割し、どのような単語が何度使われているかを集計する作業のこと
N-Gram:機械的に重複を許したN文字ずつの文字列を切り出し、そこから求める単語を探す
感想
テキストマイニングとは直接関係ないかもしれませんが、自然言語で書かれた文章を統計学的に分析するために作成されるコーパスにも言及してほしかったと思います。コーパスはコロケーションの分析をするときに、威力を発揮します。
文章を統計的に分析した研究は日本語や日本文学にもあります。
ずっと前から結論がでなかった仮説が、統計学的な手法で結論を出せるのを見ると、統計学の可能性が感じられます。
いいなと思ったら応援しよう!
最後まで読んでくださった方ありがとうございます。よろしければサポートいただけますと幸いです。本を買い、noteを書き続け、読書文化の輪を広げるために使います。