見出し画像

AIテキストマイニングで自分の文体を分析してみた【5分】

ちょうど2週間前に、こんな記事を書いた。

この記事が、自己紹介、受賞報告をのぞいた私の記事のなかでは、いただいたスキの数がいちばん多かった。

その大半が、note会員ユーザーからのものだったので(スキをくれる非会員ユーザーのほとんどは私の友人知人と思われる、いつもありがとうございます)、noteの住人は、「文体」に関心があるのだなあ、と気がつくにいたった。

noteの住人は、みんな、文章を書く人なのだから、当然かもしれないけれど。

そこで、今日は、私ユミヨシの文章を分析して、文体に対する解像度を上げる取り組みをしてみようと思う。


分析方法

分析には、こちらの、ユーザーローカルAIテキストマイニングツールを用いた。

分析対象

2024年6月3日AM10:00時点での、「弓吉えり」のnote、20記事を対象とした。

それら20記事の、本文のうち、目次、引用、ハッシュタグをのぞいた、合計37,577字を解析したところ、以下の結果が得られた。

ワードクラウド

スコアが高い単語を複数選び出し、その値に応じた大きさで図示しています。 単語の色は品詞の種類で異なっており、青色が名詞、赤色が動詞、緑色が形容詞、灰色が感動詞を表しています。

ユーザーローカルAIテキストマイニングツール
ワードクラウド

大きく表示されているのは、記事のテーマにした単語がほとんどだ。

それにしても、中心に「弓吉」が、どーーーん、と鎮座していて、ちょっと笑ってしまった。

だって私の名前だもの、とは言ってもそんなに使っている自覚はなくて、ほかの単語に比べて、私の文章に特有である度合いが強いから、スコアが高く出たんだろうなあ、と読んでいる。

あともうひとつ笑ったのが、形態素解析の結果、どうやらカタカナ表記の「ユミヨシ」が「ユミ」と「ヨシ」に分断されたらしいこと。

ユミ・ヨシ・エリ、ミドルネーム的なものと思われている?

単語出現頻度

文章中に出現する単語の頻出度を表にしています。単語ごとに表示されている「スコア」の大きさは、 与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。 通常はその単語の出現回数が多いほどスコアが高くなりますが、 「言う」や「思う」など、どの文書にもよく現れる単語についてはスコアが低めになります。

ユーザーローカルAIテキストマイニングツール
単語出現頻度(名詞・動詞)
単語出現頻度(形容詞・感動詞)

名詞では、名前をのぞくと、「短歌」「エッセイ」「文体」がスコア200を超えており、いかに私が、noteでそのあたりの話を繰りひろげているのかが、わかる。

動詞で、「ゆるす」「謝る」のスコアが高く出ているのは、こちらの記事の影響と思われる。

共起キーワード

文章中に出現する単語の出現パターンが似たものを線で結んだ図です。出現数が多い語ほど大きく、また共起の程度は強い方から順に 太い実線 > 細い実線 > 破線 で描画されます。

ユーザーローカルAIテキストマイニングツール
共起キーワード

2つに分断された「ユミ」と「ヨシ」が、ぶっとい実線で結ばれており、またしても笑ってしまった。

だ〜か〜ら〜〜〜、1単語なんだってば……。

まじめな分析に戻ると、ほとんどの共起は、同じ記事内であつかった単語で、「母」「おめでとう」「ありがとう」「伝える」あたりが典型的だ。

下のほうにあらわれている、「型」と「高い」、「ペンネーム」と「感じる」の結合が、ちょっと予想外だった。

そんなに共起してるかな。

2次元マップ

文章中での出現傾向が似た単語ほど近く、似ていない単語ほど遠く配置されています。距離が近い単語はグループにまとめ、色分けしています。

ユーザーローカルAIテキストマイニングツール
2次元マップ

このマップも、おおむね納得。

ただ、ワードクラウドや、単語出現頻度にもあった、「しれる」という動詞が正体不明で、「しる」の可能形?でもそれって、「高が知れる」くらいでしか使わなくない?と思って、詳細を確認した。

すると、この「しれる」の正体、「〜かもしれない」の「しれ」の部分の原形だった。

私は、どうやら、〜かもしれない、という語尾がずいぶん多い、のかもしれない。

係り受け解析

係り受け解析では、「名詞」に係る「形容詞」「動詞」「名詞」についての解析結果を表示します。 「スコア」は、出現回数やその係り受け関係が全組み合わせのうちに占める割合などを複合的に判断し、独自に算出した数値です。 「スコア」が高いほど、よりその係り受け関係が重要であることを示します。 また、単語の後に「(否: 50%)」 などとついている場合、 集計された係り受け関係のうち50%が否定表現(例:「高い」→「高くない」)として使われていることを意味しています。 ネガポジは名詞にかかる形容詞がポジティブ(ネガティブ)な単語かどうかを表しています。

ユーザーローカルAIテキストマイニングツール
係り受け解析(名詞ー形容詞)

下から4番目、「関係ーあわい」の係り受けは、私としては「あわい=間」という名詞のつもりで使ったのだけれども、形容詞判定されていて、まあ、ひらがなで書いたし、そこまでの精度は求めたらいかんよね〜という印象。

係り受け解析(名詞ー動詞)

名詞ー動詞の係り受けは、係り受けのなかでもわかりやすい部類だと思うのだけれども、「卵ー入る」のスコアが圧倒的に高くて、どんだけ卵が入ってる食品の話をしとるんじゃい、と突っ込まざるを得ない。

まちがいなく、この記事の影響。

「紹介ー思う」「ペンネームー生きる」あたりの係り受けが、比較的に独自色があるかなあ、と思うのだけれど、スコアがあまり高く出ないのが不思議。

係り受け解析(名詞ー名詞)

名詞ー名詞の係り受けは、全納得。

階層的クラスタリング

文章中での出現傾向が似た単語をまとまりとしてとらえられるよう樹形図で表したものです。グループは色分けして表示しています。

ユーザーローカルAIテキストマイニングツール
階層的クラスタリング

シンプルに、樹形図ってひさしぶりに見るなあ、と思った。

進化論とかで見たやつ。

「弓吉ーえり」の類似度が高くて(当然)、でもいちおう、大きなまとまりだと、青グループに入る、という解釈でよいのかな?

いっぽう、「ユミーヨシ」は緑グループっぽくて、「弓吉ーえり」と「ユミーヨシ」のグループがちがうのは、どうしてなんだろう。

課題点

今回用いたテキストマイニングツールでは、自立語のみを対象としている。

付属語である、助詞・助動詞といった部分にも、むしろそういった部分にこそ、文体の特徴が出ることもあるので、さらなる分析を行いたいところ。

また、自立語のなかでも、用言だったらどんな活用形が多いか、漢字の閉じ開きはどうなっているか、などといった要素も、文体には含まれてくるはずだ。

肌感になるが、私ユミヨシの文体の「らしさ」は、付属語や、漢字の閉じ開きにある気がしている。

おわりに

今日の短歌

ありがとう、おめでとう、嬉しい、すごい そのままでいい消えないでいて/弓吉えり


究極的に、私が目指す文章は、チアリーディングみたいに、読み手を励まし、そっと背中を押せるような、そんな文章だ。

だから、私の文章は、あたたかい言葉であふれていてほしい。

もちろん、あたたかい言葉を使えば、そのままあたたかい文章になるかといえば、そう単純な話ではないのだけれど。

ワードクラウドを見て、「あたたかい」という単語が、そこそこ大きく表示されていて、すごくほっとした。

いっぽうで、「ありがとう」「おめでとう」「うれしい」「すごい」といった単語は、表示こそされているけれど、小さくて、そんなに遠くない未来、消えてなくなってしまいそうで不安だ。

「ありがとう」「おめでとう」「うれしい」「すごい」が消えないように、願うだけではなく、実際に行動していたいのは、文章のなかだけの話ではない。

#創作大賞2024 #エッセイ部門

いいなと思ったら応援しよう!

この記事が参加している募集