Twitter 男女別データ比較
こんにちは。
今日はTwitterのAPIを使って取り出したデータを使ってお話していきたいと思います。
・ツイート本文
・いいね数
・リツイート数
・投稿日時
・ユーザー情報
など、様々な情報を手に入れることができます。
今回は「菅田将暉 ANN」で検索した結果のツイートを男女別に分析してみました。
※リツイート、URLを含むツイートははじいています。
ツイートごとのいいね数の平均値を男女別に比較してみましょう。

女性のほうがややいいねが多い傾向があるようです。
今度はばらつきの大きさをみてみましょう。

女性の方がばらつきが大きいと出ています。
つまり女性の方がいいねが多いものから少ないものまでばらついているということですね。
ここまで簡単に男女別にデータ分析をしてきましたが、実はTwitterのAPIでは性別はわかりません。そもそもTwitterの性別はアカウントの持ち主からしかわからないようになってます。
ではどうやって性別のデータを手に入れたか?
機械学習といっても、教師なし学習なので教師データは要りません。
詳しいアルゴリズムは割愛しますが、ツイッターの本文を読み込ませて男女に自動分類させました。
実はこの男女の判別こそが今回手がかかっったところであり、上の統計はオマケです笑
ツイートに限らずあらゆるテキストを男女に分類することができ、他の場面でも活躍しそうです。
ちなみにこの分類アルゴリズム、

例えばこのようなデータをインプットすると、

このように3つに分類してくれます。
確かに近しいデータ同士をひとかたまり(クラスター)として分類してくれていますね。
同じように男女を分類しています。
では。