じぶんの記事をAIテキスト分析してみた。
わたしは、2023年からnoteを利用しています。わたしがこれまで書いてきた記事にはどんな特徴があるのか、フリーのテキストマイニングツールを使って分析してみました。
■ 分析手順
1) noteの記事を抽出する
noteの「エクスポート機能」を利用して、すべての「じぶんの記事」を抽出しました。
わたしの記事は全部で100本ちょっとのため、エクスポートが開始されてから10分後にエクスポート完了のメールがとどきました。完了メールにあるリンク先からダウンロードすることができました。
2) データを加工する
1)でダウンロードしたファイルは、xmlファイルでした。記事の本文のみ抽出したいため、わたしは、ChatGPTさんに記事の本文が入っている要素のみ抽出したcsvファイルを作成してもらいました。正確には、記事の本文には、htmlタグや不要なデータも入っていたため、それらも削除しています。
3) テキストマイニング
AIテキストマイニングは、下記の無料ツールを利用しておこないました。
2)で作成したcsvファイルをアップロードして、「テキストマイニングする」ボタンをポチッとおすだけです。とっても簡単に分析できます。
このツールには、特定の形式のテキストをテキストマイニングに適した形式に加工する「整形ツール」も提供されています。たとえば、Amazonレビューや楽天市場のレビューページからレビューだけを抽出したテキストファイルを作成することができるようです。
■ 分析結果
さて、分析結果はどうだったのでしょうか。
このツールではさまざまな観点で結果が表示されますが、この記事では「ワードクラウド」「単語出現頻度」「感情分析」についてご紹介します。
1) ワードクラウド
こちらが作成された図です。
「無印良品」でかっ……。
スコアが高い単語が大きく表示されています。スコアは、単語の出現回数だけでなく、重要度を加味した値です。
「余白」が大きいのは、クリエイター名に「余白」が入っていることも関係しているかもしれません。
2) 単語出現頻度
ワードクラウドは、この単語出現頻度をもとに図式化したものです。単語出現頻度は、ワードクラウドの詳細情報といってよさそうです。
名詞・動詞・形容詞・感動詞と品詞ごとに結果が出力されます。
これをみると、じぶんがよく使っている言葉がわかりますね。
3) 感情分析
こちらが感情分析の結果でした。
中立的な記述が66.5%と多く、残りの部分でポジティブな感情とネガティブな感情がちょうど半々を占めていました。
あまり感情的な記事は書いていませんので、そのとおりだなと思いました。右側のグラフの「怒り」や「恐れ」も小さめです。
■ まとめ
これまでは、じぶんがそのとき書きたいと思ったことを、書きたいタイミングで、気ままに投稿してきました。
今回の分析をとおして、noteをはじめて1年半がたったじぶんの記事の傾向を客観的にみることができました。
無印良品は好きですが、こんなにも「無印良品」のスコアが高いとは予想していませんでした。
ワードクラウドからも、「家事」「掃除」「整理」「子ども」「次女」といった暮らしや子育てに関する言葉が大きくみえました。「作品」というキーワードは、今年続けている美術展レポの記事からスコアが高かったようです。
わたしは、シンプルライフ・余白のある暮らしを理想としています。気ままな投稿からみえるわたしの傾向をながめながら、今後もこのような投稿がつづくのだろうと思います。
1年後にふたたび分析してみると、傾向がどんなふうに変わっているのか、まったく同じなのか、それもまた楽しみです。
* * *
以上、じぶんの記事を客観的にみてみたら、ちょっとおもしろかったな、というはなしでした。
最後までお読みくださりありがとうございました。