見出し画像

#13 BERTopicの分析結果

こんばんは。

自分が部活で大変お世話になっていたOBの先輩で、某世界的IT企業G社の偉い方がいらっしゃり面白い話をしていただいたので書いておきます。
「話が面白い人とそうでない人の違いは何か?」という話を僕がした時に、彼は「AIがどれだけ発達したとしても、スナックやバーのママというのは絶対無くならない。人の話を聞いて適切な話を返す技術は代替できないだろう」と力説していました。AIとなくなる仕事は議論になりがちですが、さすが現場の意見で鋭い視点だなと思いました。


今回は以前のWordCloudで立てたテーマの仮説からBERTopicによるトピックわけがどう違っているか?という点について説明していきたいと思います。


前回立てた仮説の表を再び載せておきます。

表1  WordCloudから立てたトピックの仮説

同じツイート群をBERTopicで分類した結果が以下の2つの表です。以下の2つの表の見方を説明しようと思います。
一番上の表のIndexとTopicはトピックの番号と考えてもらうとわかりやすいと思います。Countはそのトピックにカウントされているツイートの数で、Nameはそのトピックを代表する単語をいくつか表示しています。
一番上のTopic-1の部分は外れ値すなわちどのトピックにも属していないツイート群を指しています。このBERTopicの方法においてハズレ値の数が非常に多い(3割程度)というのがBERTopicの特徴で外れ値が多く出る現象は他の論文においても言及されています。(以下のリンクに掲載しておきます)
単語がところどころ切れているのは、形態素解析する際に現在形単数に直したりする過程でうまく処理できなかった部分であると考えられます。修正方法についても調べてみたいと思います。

https://www.diva-portal.org/smash/get/diva2:1678697/FULLTEXT01.pdf

下の図は樹形図(デンドログラム)といい、類似したトピックの単語が近い位置に配置されています。トピック同士の関係を視覚的に捉えるのに有用な方法です。

図1  上位25トピック


図2  100トピックの関係性の図

では、この図から仮説のトピックわけを検証していきましょう。

<発見1>
再生水に関係が薄いplastic, bottleなどの用語が多く含まれていることに気がつきました。これはplastic bottle water のrecycleを意味していて、"recycled water"という検索ワードだと引っかかってしまいます。上位1・2・4位のトピックに含まれるなどかなり目立っています。

ここから自分の考えたこととしては、recycled waterというネーミングはあまり再生水を表現するのに良い表現ではない、どうしてもプラスチックのリサイクルの話題に持って行かれていまうということを考えました。この良い表現か悪い表現かを表すために、このネーミングについてのツイートと肯定・否定の関係について次回の感情評価で調べたいと思います。

<発見2>
再生水の用途・活用例・水質の懸念といった点についてはある程度トピックわけされているように感じました。番号は下の図からのものです。
再生水の活用例  上の51-91のエリア(singapore etc)
                              下の77-65のエリア(golf cource etc)
水不足の懸念   下の27-90のエリア(desalination/drought etc)
水質の懸念    上の37・63のエリア(bug etc)

また友人曰くdinosaurとpissの関連性があるのは「あなたが飲んでいるのは恐竜のおしっこだ」という表現がアメリカにあり、これは水循環を示しているのではないかと考えました。恐竜がおしっこする→蒸発する→雲になる→雨として降る→雨水を飲む→おしっことして出す、、、という繰り返しであるという水循環の例えばなしです。

この発見から次に気になるのは、それぞれのトピックに反対と賛成の傾向があるかということです。単純に考えると否定的なツイートについては水質に対する懸念が多く、肯定的な見解については水不足や実用例(実際に他の地域で導入しているから問題ない)という考えができると思います。


次回はSVMを用いてツイート群を分類し、手法の詳細の説明と数の面からの分析したいと思います。読んでいただきありがとうございました。分析結果の考察や気づきがあればコメントいただけると幸いです。