見出し画像

noteでMBTIを公表した3913アカウントのbioの長さとかスクレイピングした話

「土を掘る前に資料を掘れ」

 52歳の若さで命を落とした偉大な探検家、八十島隆造が遺した言葉です。
 MBTIにとっては個々の人間が一番の資料です。

 ということで、「noteに投稿記事があり、noteのbioや名前にMBTIのタイプを記載しているアカウント」を計3913人分抽出してスクレイピングしたので、タイプごとに違いがあるかを見ていきましょう。
※noteへの負荷はそんなにかけていないはずです。

【抽出対象】
・名前/ID/bioにMBTIのタイプ名を含む
・1回以上投稿している
・16personalities等、出所はMBTI公式以外でも良い
【抽出項目】

・名前、フォロー数、フォロワー数、bio、直近16記事の投稿時点 等

 記事タイトルの分析や休眠チェック、botアカウント排除のため、1記事以上投稿していることを抽出条件としています。


1. note記事投稿者のMBTIタイプ分布

 タイプごとの違いを検討する前に、noteの記事投稿者のうち、各MBTIタイプが何人存在しているかを把握します。
 従来はクリエイター検索やタグの概数で推定していたようですが、この記事では記事投稿者をリスト化し正確な分布を把握しました。

note記事投稿者のMBTIタイプ分析 INFJが圧倒的でINFP、INTJと続く

 結果、INFJが圧倒的で、以下INFP、INTJと続いていることが分かりました。Googleトレンド(下記参照)ではINFPが検索数1位だったことからすると、noteにはINFJを引き付ける何かがありそうです。

2. アクティブ記事投稿者のMBTIタイプ分布

 今回の分析では記事投稿者の最新記事の投稿時点を把握しているので、1か月以内に記事を投稿した記事投稿者をアクティブと見なし、その分布を見てみます。

アクティブ投稿者のMBTIタイプ分析 順位変動はなし

 結果はあまり変わりませんが、ESTPやESTJを名乗るアクティブ記事投稿者がかなり少なく、絶滅が危惧されます。

3. クリエイター名が最も長いMBTIタイプは?

 ここからは分析項目から各タイプの定量的な違いを明らかにしていきます。INFJの分布が圧倒的なので、分布から影響を受けづらい項目を優先的に検討します。
 まずは名前の平均的な長さをMBTIタイプごとに計測し比較します。

名前の平均文字数 IS族は総じて少ないが、ES・ENはESFPを除いて文字数が多い傾向にある

 IS族はひらがな3文字など、ひねらない名前が多い傾向にあり、文字数の少なさとして表れています。N型やE型は凝った名前や自分の属性を名前欄に入れる人が一定存在し、平均値が押し上げられているようです。
 ちなみに私のクリエイター名は「イブリガッ子」です。体感ですがNTPは名前にネタを仕込む割合が多い気がします。

4. bioが最も長いMBTIタイプは?

 次にbio(自己紹介)の平均的な長さをMBTIごとに計測しました。bioは人によって使い方が様々ですが、基本的には他人に伝えたい属性を記載する箇所です。タイプごとの違いがありそうですが、どうでしょうか。

bioの平均文字数 EJが4強、ISJが続く 対照的にISPは2弱

 面白い結果ですね!EJ→ISJが上位を占める一方、ISPは2弱という結果になりました。それぞれbioに書いている内容をざっと眺めると、やはり「自分はこういう人間なんだ!」といった内容が多そうです。
 EJとISJは全体的に自分の属性を丁寧に説明する傾向がありそうです。ISPとINTPはMBTIしか書いてないことも結構あります。以下極端な例です。

【ENFJ】(匿名加工済み)
■■■■■■■■■■■■|■■■■■■■■■■■■|■■■■×■■■■×■■■■|主人公(ENFJ-T)|■■■■/■■■■/■■■/■■■■/■■■■|■■■■■■■■■■■|#■■■■■■■■■■■■■■|#■■■■■■■|#■■■■■■■

【ISFP】
MBTIとちいかわが好き

実際のbioより紹介

 名前にも言えることですが、同じタイプでも双方のbioの書き方が混在していますが、比率が違うため平均ではISPが低く、EJが高くなります。面白かったので箱ひげ図も置いておきます。

箱ひげ図 ISPとINTPは中央値や第一四分位数が低いが、ENFJやESTJは高い IJは分散が大きい 

 ちなみに私のbioは「30代前半子持ちENTPコンサル生命体」です。ISFPの中央値より短いですね。
 MBTIに加えて、分かった方が安心できる要素(世帯属性・職業)を記載し、伏せた方がロマンがある要素(性別・国籍・地域)は記載していません。Neはロマンを食べて生きています。

5. bioで句点を使いがちなMBTIタイプは?

 bioの文章中に1つ以上句点を含むかを調べています。
 本当はbioをもう少し解析したいですが、手間がかかるので今回は句点だけで我慢しました。
 句点はbioに文章を書いていること、かつその文章を句点で閉じていることを示します。これも性格が出そうですが、どうでしょうか。

bioに句点が含まれる/含まれないアカウント数の割合 N族、特にIN族がINTPを除き強い

 これまた結構差がつきました。INFPとISTJでは30%近く割合が変わるようです。bioの長さでは中位程度のINFが2強というのは面白いですね。句点があると文章に厳かで静かな感じが生まれますが、そのあたりがINFを引き付けるのでしょうか。
 句点以外で文章を閉じているパターンもあるため、引き続き調査してみたいですね。実は記事タイトルの分析もできるのですが、今回は様子見しておきます。

6. 記事投稿が続かないMBTIタイプは?

 5回以上記事投稿をしていない人、それ以上記事投稿を続けた人の割合をMBTI別に示しています。
 スキが多ければ2回目も書こうかなとなりそうなので、読者も多そうなN系が有利かもしれません。あとは動機付けが外部にあるJ型も相対的に続きそうですが、どうでしょうか。(結果を出す前に書いています)

10記事以上投稿した人/してない人の割合 タイプが入り乱れる結果

 タイプが入り乱れる結果が出ました。このまま検討することもできますが、箱ひげ図も見つつ検討してみます。(仕様上、記事数×2が表示されています)

箱ひげ図 中央値はESTJ、ISP、ENP等で低い ENTJ、INFJ、INTPが高い ESFJは第一四分位数が高い

 中央値も見るとより傾向が明確になりました。
 ESTJはやはり低いです。あくまで推察ですが、noteに投稿する行為自体を無駄と考えて損切りしたのではないか…と感じます。ENTJは反対にN型からそれなりの反響が得られるため、投稿の継続が魅力的な選択肢となった可能性があります。
 ISFPの低さは計画性の無さ、ISTPはマイペース、ENPは飽きっぽさでしょうか。このあたりはMBTI的な説明を当てはめてもいいですが、色々可能性はありそうです。
 INTPとENTPでこれだけ差がつく理由はなんでしょうね。ENTPも飽きっぽくなければ5記事の差を覆せるのでしょうか。

 私は飽きやすいので、燃料がある間に怒涛の勢いで記事を投稿しています。とすると他の人についても最初と最後の記事の投稿間隔を見たほうが良さそうですが、今回は様子見です。

7.まとめ

 今回分析したデータから把握できそうな情報をひととおり整理してみました。それなりにタイプ別に違いのある結果を得られたので、16personalitiesを含めてもそれなりに人の振り分けに成功しているように感じました。
 フォロー数とフォロワー数は使えませんでしたね。INFJとINFPが多いので、どういう形であれ影響が生じていそうです。物事には経路依存性があり、INFJやINFPが巣食う界隈はESTJにとって居心地が悪いものになってしまう、ということもありそうです。

 今回の分析はお試しな部分が大きいので、次は記事タイトル等分析の対象を広げたり、bioを踏み込んで解析してみたり、色々検討してみたいと思います。良いアイディアがあればコメントで教えてください。
 もともと、各MBTIタイプの典型的な人間を自分があまり把握していないということで始めた調査でした。クリエイターリストを作成できたので、それぞれの記事を定性的に分析して傾向を見出す、というアプローチもあるかもしれません。
 今後、スクレイピングを使ったMBTI分析は「MBTIスクレイピング」というタグで管理する予定です。大事なことですが、noteに過剰な負荷をかけるようなスクレイピングはしません。
 
 


いいなと思ったら応援しよう!