見出し画像

じぶんの記事をAIテキスト分析してみた。

わたしは、2023年からnoteを利用しています。わたしがこれまで書いてきた記事にはどんな特徴があるのか、フリーのテキストマイニングツールを使って分析してみました。



■ 分析手順

1) noteの記事を抽出する

noteの「エクスポート機能」を利用して、すべての「じぶんの記事」を抽出しました。

【エクスポート機能の使い方】
1. noteのアカウントにログインする
2. 右上のプロフィールアイコンを選択しメニューを表示
3. [ 自分の記事 ] を選択
4.「自分の記事」の右上、[ エクスポート ] を選択
5. [ エクスポートを開始 ] を選択
6. エクスポートが開始される
7. エクスポート開始のメールが届く

【エクスポートされたデータをダウンロードする方法】
1. エクスポート開始後、3日以内にエクスポートの完了メールが届く
2. 完了メール内の [ ダウンロードページ ] を選択
3. [ ダウンロード ] を選択
4. 任意の保存先にデータがダウンロードされる 

noteエクスポート機能の使い方 

わたしの記事は全部で100本ちょっとのため、エクスポートが開始されてから10分後にエクスポート完了のメールがとどきました。完了メールにあるリンク先からダウンロードすることができました。


2) データを加工する

1)でダウンロードしたファイルは、xmlファイルでした。記事の本文のみ抽出したいため、わたしは、ChatGPTさんに記事の本文が入っている要素のみ抽出したcsvファイルを作成してもらいました。正確には、記事の本文には、htmlタグや不要なデータも入っていたため、それらも削除しています。


3) テキストマイニング

AIテキストマイニングは、下記の無料ツールを利用しておこないました。

2)で作成したcsvファイルをアップロードして、「テキストマイニングする」ボタンをポチッとおすだけです。とっても簡単に分析できます。

AIテキストマイニング
入力画面

このツールには、特定の形式のテキストをテキストマイニングに適した形式に加工する「整形ツールも提供されています。たとえば、Amazonレビューや楽天市場のレビューページからレビューだけを抽出したテキストファイルを作成することができるようです。


■ 分析結果

さて、分析結果はどうだったのでしょうか。
このツールではさまざまな観点で結果が表示されますが、この記事では「ワードクラウド」「単語出現頻度」「感情分析」についてご紹介します。


1) ワードクラウド

ワードクラウド
スコアが高い単語を複数選び出し、その値に応じた大きさで図示しています。 単語の色は品詞の種類で異なっており、青色が名詞、赤色が動詞、緑色が形容詞、灰色が感動詞を表しています。

AIテキストマイニングより引用

こちらが作成された図です。

ホシコの記事のワードクラウド

「無印良品」でかっ……。

スコアが高い単語が大きく表示されています。スコアは、単語の出現回数だけでなく、重要度を加味した値です。

「余白」が大きいのは、クリエイター名に「余白」が入っていることも関係しているかもしれません。


2) 単語出現頻度

単語出現頻度
文章中に出現する単語の頻出度を表にしています。単語ごとに表示されている「スコア」の大きさは、 与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。 通常はその単語の出現回数が多いほどスコアが高くなりますが、 「言う」や「思う」など、どの文書にもよく現れる単語についてはスコアが低めになります。

AIテキストマイニングより引用

ワードクラウドは、この単語出現頻度をもとに図式化したものです。単語出現頻度は、ワードクラウドの詳細情報といってよさそうです。

名詞・動詞・形容詞・感動詞と品詞ごとに結果が出力されます。

これをみると、じぶんがよく使っている言葉がわかりますね。


ホシコの記事/単語出現頻度
名詞と動詞


ホシコの記事/単語出現頻度
形容詞と感動詞


3) 感情分析

文書全体を分析し、感情の傾向を可視化しています。「ポジネガ」は、文章に含まれるポジティブな感情の文とネガティブな感情の文の存在比を示しています。「感情」は、文章に含まれる各感情の度合いを数値に換算しています。なお、各感情の数値は、全ての感情の平均値を50%とした偏差値です。

AIテキストマイニングより引用

こちらが感情分析の結果でした。

ホシコの記事の感情分析

中立的な記述が66.5%と多く、残りの部分でポジティブな感情とネガティブな感情がちょうど半々を占めていました。

あまり感情的な記事は書いていませんので、そのとおりだなと思いました。右側のグラフの「怒り」や「恐れ」も小さめです。


■ まとめ

これまでは、じぶんがそのとき書きたいと思ったことを、書きたいタイミングで、気ままに投稿してきました。

今回の分析をとおして、noteをはじめて1年半がたったじぶんの記事の傾向を客観的にみることができました。

無印良品は好きですが、こんなにも「無印良品」のスコアが高いとは予想していませんでした。

ワードクラウドからも、「家事」「掃除」「整理」「子ども」「次女」といった暮らしや子育てに関する言葉が大きくみえました。「作品」というキーワードは、今年続けている美術展レポの記事からスコアが高かったようです。

わたしは、シンプルライフ・余白のある暮らしを理想としています。気ままな投稿からみえるわたしの傾向をながめながら、今後もこのような投稿がつづくのだろうと思います。

1年後にふたたび分析してみると、傾向がどんなふうに変わっているのか、まったく同じなのか、それもまた楽しみです。


*  *  *

以上、じぶんの記事を客観的にみてみたら、ちょっとおもしろかったな、というはなしでした。

最後までお読みくださりありがとうございました。


いいなと思ったら応援しよう!