Twitter 男女別データ比較

こんにちは。

今日はTwitterAPIを使って取り出したデータを使ってお話していきたいと思います。


TwitterAPIを使えば、

・ツイート本文

・いいね数

リツイート

・投稿日時

・ユーザー情報

など、様々な情報を手に入れることができます。


今回は「菅田将暉 ANN」で検索した結果のツイートを男女別に分析してみました。

リツイート、URLを含むツイートははじいています。


ツイートごとのいいね数の平均値を男女別に比較してみましょう。

いいね数男女別平均値

女性のほうがややいいねが多い傾向があるようです。
今度はばらつきの大きさをみてみましょう。

男女別ばらつき

女性の方がばらつきが大きいと出ています。

つまり女性の方がいいねが多いものから少ないものまでばらついているということですね。


ここまで簡単に男女別にデータ分析をしてきましたが、実はTwitterAPIでは性別はわかりません。そもそもTwitterの性別はアカウントの持ち主からしかわからないようになってます。

ではどうやって性別のデータを手に入れたか?

今回はベイズ統計モデルの機械学習を使用しました。

機械学習といっても、教師なし学習なので教師データは要りません

詳しいアルゴリズムは割愛しますが、ツイッターの本文を読み込ませて男女に自動分類させました。


実はこの男女の判別こそが今回手がかかっったところであり、上の統計はオマケです笑

ツイートに限らずあらゆるテキストを男女に分類することができ、他の場面でも活躍しそうです。


ちなみにこの分類アルゴリズム


観測データ

例えばこのようなデータをインプットすると、

色分け分類データ

このように3つに分類してくれます。

確かに近しいデータ同士をひとかたまり(クラスター)として分類してくれていますね。

同じように男女を分類しています。


では。

いいなと思ったら応援しよう!