夏休みの自由研究
はじめに
夏ですね。暑いですね。夏といえば自由研究ですよね。
ということで、将棋ついったらーとして有名な某氏の研究をしてきましたのでその成果を発表します。(なお、この記事に将棋要素は一切ありません)
さて、今回研究対象に選んだのはみんな大好きうみかぜ氏(@umikaze103)https://twitter.com/umikaze103です。
で、今回の自由研究では「ツイートの感情分析」ってのをやってみました。
感情分析って何?
例えばAmazonの商品レビューで「これはいい商品でした!」とか「使い物にならなかった金返せ」とかあると思います。人間が見るとその人がどれくらい喜んだのか、怒っているのかなんとなくわかります。これを機械的(AIとか使って)に判定出来ると、大量のレビューを自動集計出来たりするわけです。今回はこの技術を使って、うみかぜさんの年々の感情変化を追ってみたいと思います。
用意するもの
・ツイッターデベロッパーへの登録(ツイート一覧を取得するのに必要)
https://pocco.net/twitter-developer/
・Pythonが使える環境
・極性辞書(後ほど説明)
おおざっぱな流れ(プログラムのコードについては触れません。誰も興味ないと思うので。)
①まずは彼のツイートをひたすらかき集めます
②各ツイートを単語に分解します
(例:今日の対局も負けました。→今日 の 対局 も 負け ました 。)
③単語のそれぞれを極性辞書と照らし合わせて感情スコア化します
極性辞書とは、単語とそれに紐づく感情の値を紐づけたものです。
今回は東工大が公開しているものを使いました。
http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html
例えば「嬉しい」には0.99、「つらい」には-0.99というスコアがつけられ
てました。このように1~-1のスコアが付きます。
(ちなみに「将棋」は-0.75でした。どうして。。)
④ツイートに含まれる単語のスコアの平均値=そのツイートの感情値として
導出します
⑤グラフにします
結果発表
まずは彼の過去12000ツイート分の分析結果です。
うーん。あまりにもマイナス感情が強いですね。。心配です。
ちなみに0.00が多いのは、彼が極性辞書に載ってない単語を使いすぎてることを意味します。正しい日本語を使いましょう。
続いて、x軸を時間軸に、y軸を感情スコアとして散布図を作りました。
(12000ツイート取得しても2020年3月までしか作れず。。どんだけつぶやいてんのよ。)
先程同様マイナス感情強めですね。さらに2021年に入ってからツイート数自体が激減していることがわかります。2021年途中から復活傾向にあり、プラス感情もやや増えているような感じがします。
このことから2020年末に彼女と別れ、2021年4月頃に新しい彼女が出来たことが分かりますね。
まとめ
・うみかぜさんはとてもネガティブ思考。病んでいるかも。
・うみかぜさんには最近新しい彼女(彼氏)が出来た。
・やっぱり非リアは嘘
非常に有益な研究結果が得られました!かがくのちからってすげー
最後になりますがここまで読んでくださったみなさま、
またこの研究を快く許して下さったうみかぜさんに感謝いたします。