#60 自分の過去記事アナリティクス
1月25日。月曜日。今日は、月曜日だった。それ以上でもそれ以下でもなし。
今日は60回目ときりがいいので、【自分の過去記事アナリティクス】ということで。ツールを使って自分の過去記事を分析します。暇を持て余した院生の、遊び。
今日の記録
8時頃、起床。フルグラを食べる。9時からバイトなので、いそいそと支度。
バイト、眠い上に、暇。ベジ系のお店を登録する作業を掛け持ち。京都のいろんなヴィーガン対応店舗を調べる。
今日調べた中だと、↑の焼き芋屋さんのホームページがよかった。『みつ密』というお店(2密や)。プロフィール欄が、すごく読み応えあって面白し。僕もシベリア鉄道に乗ってみたくなった。
13時から、オンライン授業。今期最後の授業だった。この講義、いつまでも期末レポートの告知してくれないなと思ってたら、僕が気づいていないだけだった。来週締め切りという修羅。
あとはバイトして、Tully'sでちょっと勉強して、今に至れり。書く内容が決まっている日は、良識的な時間に更新できる。書き終わったらレポートに取り組むべし。
自分の過去記事アナリティクス
(3000字ぐらい)
この前、久しぶりに高校の友達と話したときに、「お前のnote見てみたけど、常に罪悪感抱えながらスマブラしてるね」と言われた。確かにこのnoteでは、いつもスマブラに時間を費やし、そのたびに後悔したり懺悔したりしている。ので、そう言われても仕方なし。人は罪の意識を感じずにスマブラできない。
で、これを言われたとき、ある疑念が沸いた。ひょっとして、僕のnoteで一番の頻出単語は「スマブラ」なんじゃないか? そうだとしたら悲しい。ので、今日はテキスト分析ツールを使って、僕の過去記事をアナライズしてみたいと思います。
いわゆる、テキストマイニングというやつ。「テキストマインちゃんって何?」という人は、文字や言葉で説明するよりも、この記事の【結果】パートを見た方が早いかもしれない。テキストの傾向を、図やグラフで表したりするものです。
以前情報学の授業で触った「KH Coder」を使おうと思ったが、どうもMacだとインストールが面倒らしい。ので、代わりに「AIテキストマイニング」というツールを使用。一応こちらは↓の記事経由で発見。
こうした解説ありがたし。以下、簡単にやってみた手法と結果を解説します。
【手法】
① 「AIテキストマイニング」に会員登録
今回は、僕の過去記事60個分相当をテキストマイニングにかける。ので、正確には分からないが、多分8万字とかそのぐらいになるんじゃなかろうか。
AIテキストマイニングは、初期状態だと1万字までしかぶち込めない。が、会員登録をすると、なんと20万字までぶち込める。す、すごい、、、
② 自分のnoteをコピペしていく
AIテキストマイニングのテキストボックスに、ひたすら文章を入れていく。手法は、原始的にコピー&ペースト。本当はファイル化とかすれば楽だったのかもしれないが、まあめんどくさいのでいいかなと思った。
ちなみに、noteをコピペするときは一度編集状態に戻して、Ctrl+Aで全選択すると便利。
③ 固有名詞などを登録(辞書設定)
一応簡単に、固有名詞・除外語・同義語などを設定。本来なら、ここが一番凝るところかもしれない(情報学の授業ではここに一番時間をかけいていた)。まあ今回は簡単にということで、確実に「スマブラ」を認識させるために固有名詞で登録、「僕」はどうせ頻出だろうから削除、「ヴィーガン」系の話題は同義語として一つにまとめるという措置をとった。
④ 全部ぶち込んだら分析
全部コピペして入れてみた。疲れた。よほど暇じゃないとこの作業はできない。
ここで驚くべきことに、僕の過去60記事(正確には61記事)を入れたところ、全部で約18万字になった。18万て。でも確かに、1記事3000字ぐらい書いていれば、3000×60=18万ということになるか。日々の積み重ねは、恐るべし。
【結果】
結果編。雑なセッティングだが、一応分析自体は成功。その結果を見ていきましょう。
① ワードクラウド
こちら、ツイート分析とかで見かける、アレですね。これは単純な「出現頻度順」を表したもの。一番存在感を表しているのは、「思う」でした。つまり僕が思考する人間だということ(違います)。これは誰がやっても頻出ワードらしいので、除外対象にしてもよかったかもしれない。
こちらは頻出単語を「スコア化」したもの。スコア化は、よくわからないけど、特徴的なのを目立たせるというものだと思う(てきとう)。「思う」とかは誰がやっても頻出になるわけで、もう少し「僕の記事」に特徴的なワードを表したものになるかな。
「書く」が存在感を表すのは当然として、次点で目立っているのは「ヴィーガン」だった。その次に「研究」「動物」という感じだろうか。
僕は特にテーマを設定せず、思いつくままに更新している。ので、一貫した話題とかは見られないだろうなと思っていたのだが、「ヴィーガン」は突出していた。同義語登録で補正をかけているのもあるが、それでも僕が一番情報を発信している分野ということになるだろう。
② 頻出単語
こちら、上の画像のグラフ化のようなもの。それぞれ「名詞」「動詞」「形容詞」「感動詞」ごとに分けられている。
「名詞」で最も使われていたのは、「記事」と「ヴィーガン」。やっぱりヴィーガン関連の話題が多いんだなあ。ちなみに、「僕」を排除ワードに設定しているが、これをしていない場合はこれが断トツで1位だった。
「形容詞」パートについて。僕はいっつも、よいとかよくないとか言っている。ので、正直、ここで1位を取るのは「よい(よくない)」だろうなとの予想は付いていた。
「動詞」については、上から6番目に「しれる」というのがある。これは「しれない」も一緒に集計されているので、これが指すのは9割方「かもしれない」のことである。これが多いのも、予想通り。
③ 共起ワード
共起ワード(よく一緒に使われる言葉)。正直、テキストマイニングは、ここを見るのが一番面白いと思う。のだが、僕のはまあ、そんなに面白い結果にはならなかった。普通という感じ。セッティングがよくなかったかな。
小さな見所としては、右上の方で、「授業→終わる→バイト」がつながっていること、左の方で、「寒い→しんどい」がつながっているあたりだろうか。あと、一番左で「最近→悪い」がつながっているのも面白い。もう少し、「最近→よい」が増えるように頑張ります。
ちなみに、当初の目的であった「スマブラ→罪悪感」については、よくわからなかった。というのも、わざわざ固有名詞に「スマブラ」を登録したにも拘わらず、頻出単語に出てこなかったため。なぜかはわからん。一応、メモ帳の検索を使ったら、僕の記事の中で「スマブラ」は33回登場していました。60記事なので、単純計算、2回に1回はスマブラやっとるね。
④ 感情分析
最後。感情分析。僕の記事における「ポジティブ」「ネガティブ」ワードを分析して、それを図にしたもの。
これを見て思うのは、「ポジティブ少ねえ」ということ。あと、「怒りと悲しみが強い」ということですね。まあ確かに、僕の胸の内には世間への怒りと人間への悲しみが渦巻いていることですよ(多分)。僕は普段、明るく愉快な記事が書きたいと言っているけれど、単語レベルで分析したらこの有様ですよ。
以上。すっっごい雑にツールを使っただけなので、「俺もこれを参考にして、国会の議事録分析したろ!」とかは思わないでください。ちゃんと解説したサイトが無数にあるので、ぜひそちらをご参照を。
今回やってみた感想は3点。①18万字も書いていたんだなあということ。②「怒り」「悲しみ」が思ったより強かった、ということ。これは潜在意識が現れているような、気がする。そして最後に、③ツールは正しく使うことが大事ということです。多分、設定とかを少しいじくるだけで、また違う世界が見えてくると思う。今回はてきとうに使っただけだけど、本気で使ったらもっと面白いはず(あと、もっとデータを増やす必要もあり)。
11月から始めたこの日記も、ついに#60に突入しました。全部で18万字ですよ。#30ごろに人に見せたのは、正解だったな。今これを見せられても、いや多過ぎて読まんわってなりそうなので。
今日はそんな感じです。AIテキストマイニングさん、ご協力ありがとうございました。