20230809 青森ねぶた祭での暴行行為に対する一般人の反応
先日,祭に関する一般人の反応を残すことの難しさについてNOTEに書きました。
そして,今回青森ねぶた祭で暴行行為の動画が拡散し,それを見た人の反応を分析したい!と思ってみたのですが,やはりその実現には高い壁が立ちはだかられてしまったので,今回は具体的にその壁について書きたいと思います。
まず,青森ねぶた祭の暴行行為については,祭の地元の青森テレビ(ATV)が丁寧に取材をされれて,それが動画および文章で説明され,それをYahoo!ニュースで取り上げられています。
上にはYahoo!ニュースの記事へのリンクを貼りましたが,このリンクはすぐに消えてしまうので,まだリンクが残りやすいと思うATVの該当記事へのリンクも貼っておきます。
そして話をまたYahoo!ニュースに戻しますが,8月8日21:09に配信されたこのニュースに関して書き込まれたコメントはこれを書いている8月9日の17:38の時点で4418件!
こんな貴重なデータが保存できずにおそらく1週間ほどもしないうちにネット上から消えるはずです。・゜・(つД`)・゜・。なんてもったいない。
しかし!Twitterに関しては,ついすぽというChromeの拡張機能を使用すれば,数百くらいであれば内容を保存できることが分かりました!歓喜!
https://tilde.afonomics.com/TweetExport/
で,さっそく「ねぶた」のワードで検索した結果をついすぽで抽出すると…888件のデータを無事に保存することができました!なんて末広がり!
そしてそのデータをなんのデータクリーニングもせずにそのままKH-Coderにぶち込んでわけもわからず共起ネットワークを作図してみました!
ハッピーセットポケモン? ライオンズ? 藤崎詩織???
なんというか,関係のない広告や関係のない話題のみが抽出された感じですね。・゜・(つД`)・゜・。。
よくよく考えたらTwitterのデータって,ニュース記事へのリンクを貼ったツイートをリツイートしたものも含まれるし,広告も混入するしで,ノイズがいっぱい入りまくるのだなあと…。
RTなどに関しては自動的に削除してくれるツールがありそうだなあ…と思って探そうと思ったのですが,その間何もしないのも残念…と思いKH-Coderで時間のかかる自己組織化マップを作成してみることにしました。
すると,最初に,共起ネットワークで抽出された「無駄な要素」であるハッピーセットポケモンやライオンズなどの単語を分析から外しましたという表示がだされて,それはすごいうれしいことですがどのようなアルゴリズムによるのかなと。
KH-Coderについては全然その原理などを知らないまま毎回「試しに」使ってみるだけで,全然実用に向かえていないのが事実なので,ちゃんと買った書籍を読みながら分析してマスターせねばと反省した出来事でした。
上に自己組織化マップを表示させてみましたが…まあ,解釈はちゃんとデータクリーニングをした上でのデータで分析してからにしたいと思います。
・・・・・・・・・。
ということで,この文章を最後まで読んでくださっているならば共同研究の先輩も許してくれると思うのですが,今私が一番早く取り掛からないといけないのが教科書の修正なのに,それができないのにこんな作業をしているのをお許しいただけると幸いです。