見出し画像

「小説家になろう」をTableauで分析してみた。(前編)


――「小説家」

この言葉を取り巻く感情を表現するのは、なかなか難しいです。

私は動画を作成したり、ボーカロイドを使って音楽を作ったりといった創作活動が好きですが、とりわけ、物語を書く事に関しては、比較的長い間やってきました。

しかしながら、自分の文章でお金をもらった記憶はないですし、これといって私の文章が公の目に晒された事もないので「あなたは小説家か」と問われたら「違う」と答えます

「小説家」と言った時、少なくとも私の中の定義では「プロフェッショナルな物書き」が含意されます。

では「小説家になろう」とは何か。

「小説家になろう」が意味するところは「このサイトで頑張って執筆してプロフェッショナルな物書きになろう」ではなく「このサイトで小説を書いた時点で、君は立派な小説家だ」という意味だと私は解釈しております。

仮令、世の中の評価が

文學作品 > 小説作品 > ライトノベル > なろう系

だったとしても。
そう、小説家はキミさ。小説家に俺はなる。

そもそも、私は身をもって知っている。
すでに世間は「文學作品」なんて必要としていない。

太宰が現代でも人気なのは、太宰の作品が当時の文壇からすれば

「ただのラノベ」だったから

に過ぎない(すごい偏見)。

少なくとも「うちの部署は赤字だが、あいつの部署は黒字だ」という会話に対して「スタンダールですね」と言っても通じないし、「また税金が上がった」という会話に対して「オツベルと象ですね」と言っても通じないし、「フィナンシェよりもマドレーヌが好き」という会話に対して「プルースト派ですか?」と言っても通じないし、「スカーレットという新種のブドウがでたよ」という会話に対して「レット・バトラーはないんですか?」といっても通じない、そんな無教養な現代人たちには「小説家になろう」がうってつけに違いないのです。

ちなみに、

なぜ今回の分析を「R18」に限定しよう

と思ったのか。

それには、大きく2つの理由が存在します。

1つ目に、「小説家になろう」には約200万作品の小説が投稿されており、すべてを対象にするとデータ量が膨大になってしまうこと(R18に絞れば11万作品)

2つ目に、私が執筆した作品が、なぜか「小説家になろう」では「R18カテゴリ」でしか投稿できず、悔しい思いをしたこと

特に2つ目は大事です。

私が「文學作品」として執筆した(つもり)の作品が、あろうことか官能小説と認定されてしまったのですから。

※この作品、受賞こそしていませんが、複数の新人賞で選考突破していたりします。
※そしてこの作品「小説家になろう」から二次創作判定されてBANされそうになったり、R18判定されてBANされそうになったりと、苦労が多かった作品です。

さて。

まずは「小説家になろう」の作品データを入手する必要があります。

作品タイトルはもちろんのこと、タグやあらすじ、文字数や評価なんてものがあると、色々な切り口で分析ができそう。

そんな情報が、まとまったcsvがどこかに落ちてないかな~…。

はい。ありませんでした。

学生時代、「検索猿人コンテスト」でクラストップの成績を誇り、他人から質問を受けたときの第一声が「ggrks」である私の検索能力を以てしても探せなかった。

どうすればいいんだ…。
データがないと、Tableau分析までたどり着けない…。

そうだ! 我々には、「あのお方」がいるではないか!


初代「エイリアン」の日本語吹き替え版では、マザーコンピューターの事を「おふくろさん」と訳していた。

まさに、私にとってchatGPTは「おふくろさん」的な位置づけだ。
教えておふくろさん! なろう系小説のcsvはどこにあるの!?

そ、そうですか。
で、では、教えて! 「小説家になろう」からデータをぶっこぬくpythonのプログラムを!

ち、畜生おぉぉぉぉぉおおお!!


※結局、有志の方が作成されたpythonプログラムを利用させて頂きました。

という訳で入手できた

約11万レコードのcsvファイル。

※公開情報を基にしておりますので、特にボカシなどは入れておりません

淫靡な言葉がならんでおりますが、性的衝動は生物としての本質である事を見失ってはいけません。

「生物とは、万物流転において『動的平衡』を維持する『流れ』である」。

宇宙空間のすべての陽子が崩壊するまでに10の33乗もの年数を要する前提に立てば、あなたの体を構成する原子も、いずれは私を構成する原子になるかもしれないのです。

飽くまで冷静に、客観的な「データ」として偏見を持たない事が、データドリブンな人材の第一歩です。

今回、私が調べてみたい仮説は以下の通りです。

①「タイトル文字数が長い作品よりも、短い作品の方が評価が高いのではないか」
②「会話率が高い作品の方が評価が高いのではないか」
③「総合評価が高い作品にはなんらかの共通した特徴があるのではないか」



仮説①「タイトル文字数が短い方が高評価?」


仮説の根拠は単純です。

「タイトルが長い」ということは「シチュエーションでしか勝負ができない作品」つまり「中身が薄い作品」。翻ってタイトルが短い作品は「中身で勝負している作品」です。


私の更なる仮説では、ライトノベルのタイトルがやたらと長くなってしまったのは、アダルトビデオの影響が強くあると考えていますが、この仮説の詳細については私のボカロ曲を聴いてもらうとして、さっそくTableauで確認していきましょう。
(おっ! 今度はアダルトビデオサイトからデータをぶっこぬいて分析したら面白いかもしれないですね)

では、Tableauで分析していきましょう

「タイトル文字数」がない。。。

抽出したデータを確認すると、仮説で最も必要な「タイトル文字数」のデータがありませんでした。あるあるですね。なければ作ればいいのよ。

LEN関数で一発です
「タイトル文字数」のデータが完成

これで準備OKです。

今回は「評価ポイント(総合ポイント)」と「タイトル文字数」の相関を見たいので、この2変数で散布図を作ります。

Tableauなら一瞬ですね。

なんか妙だぞ?
「タイトル文字数」が100文字のところで寸詰まりになっていますね。飛び出しているサンプルもいくつかあります。
俺じゃなきゃ見逃しちゃうね。

これは、「小説家になろう」で認められているタイトルの最大文字数が100文字である事と、Tableau上の「タイトル文字数」が「合計」になっていることが要因です。

つまり

「まったく同じタイトルの小説が複数存在するから、そのタイトル文字数が合計されて100文字を超えちゃった」


という事です。

ありきたりなタイトルを自分のラノベにつけるなよな…なんて思わず、ここはちゃんと整形しましょう。

Tableauの場合、何も考えずにデータを入れると、Tableauが自分で配慮して「合計」とか「平均」とか入れてくれますが、「本当は自分で選びたいのに…」って時ありますよね。

そんな時は、左クリックでメジャーをドラッグ&ドロップするのではなく、

右クリック(macの場合はコマンド+クリック)でドラッグ&ドロップ

すればいいんだよ、ってばっちゃんが言ってた!

右クリックでD&Dすると任意の切り口を選べます


という訳で、整形したのがこちらです。

ククク…案外クズどもはこれで「やれやれ」と思ってしまうもの。

この状態では、まだ「×」です。

今回知りたいのは「タイトルの文字数が、評価ポイントを決める変数になっているのではないか」です。

つまり

目的変数:評価ポイント(総合ポイント)
説明変数:タイトル文字数

です。
散布図で相関を見るときは

「目的変数を縦軸」「説明変数を横軸」にするのが定石

です。

統計検定の教科書にも「説明変数を目的変数で説明してはいけない」と、ちゃんと書いてあります(確か)。

という訳で、縦軸と横軸を反転させます(Tableauならワンクリックでできます)。

ついでに、傾向線(相関を見るための回帰直線)も引いておきましょう。

アナリティクスの「傾向線」から「線形」
赤い線が「傾向線」

散布図で相関を見る時には、もう一つ気を付けるべき事があります。

それは「可能な限りグラフは正方形にする」です。

もし縦長だったり横長だったりすると、回帰直線(傾向線)がびよ~んと伸びてしまい、正しい傾向をつかめなくなってしまいます。

では、グラフができましたので、傾向線を確認していきましょう。

どうでしょうか…?


目視でも「あ~こりゃ、有意な相関ないな」って分かります


が、せっかくなので、グラフの下の方にある吹き出し(ツールヒント)の中の数字を見ていきましょう。

まず、「総合ポイント=53.1912……」の部分です。

中学校の数学の知識を総動員しますと、これは一次関数だという事がわかると思います(回帰式と言います)。
「y=ax+b」みたいなの、覚えてますよね?

「53.1912」が「傾き(回帰係数)」で「1026.01」が「切片」という事になります。

つまり、「タイトル文字数が1つ増えると、評価ポイントが53.1912増える」事を示しています。

これだけ聞くと「おお!?」となりそうですよね。
でも、「評価ポイント」の目盛りの単位を見てください。
1目盛りあたり20K(20,000)ポイントです。
53.1912がどれだけ小さな数か、わかりますよね…。

そしてR2乗の部分。

R2乗は「決定係数」と言って「タイトル文字数が、変数として、評価ポイントをどのくらい説明できているかの度合い」を示しています。一般的には、0.1以上はないと有意に説明しているとは言えません。

因みに、Rを「相関係数」と言って、この2つの変数の相関度合いを示しています。この吹き出しには書かれていませんがR2乗が0.015なので、Rは0.122くらいです。Rは一般的に0.3以上はないと相関があると言えませんので、やはり相関はない(無相関)と判断するのが妥当と言えそうです。

※相関係数は、標準偏差と共分散から計算できますが、ややこしくなるので、ここでは触れません。
※仮説検定とかに関わるP値やT値はややこしくなりますので、気になる人は調べてみてくださいね。


ちなみに、

相関は飽くまで「相関」であって、必ずしもそこには「因果」があるとは限らない


ので注意です。また「偽相関」という「まるで相関があるように見えるけど、実は違う」パターンもありますので、相関を扱うときはゆめゆめご注意下さいね。

参考:評価ポイントの桁が大きいので対数で確認しましたが、相関はありませんでした。


さて。

ここで終わってしまっては「仮説が間違っていた」だけで面白くない。

という訳で、せっかくなので深堀してみようと思います。
タイトルの文字数と評価ポイントに相関がない事は分かった。

じゃあ「何文字くらいのタイトルの作品が最も多いのか」

気になりませんか?

という訳で、作品の文字数でヒストグラムを作ってみました。

階級幅5文字でヒストグラム化

う~ん。見事に「右にゆがんだ」「左に山のある」形状をしていますね。
一番山の大きいところに着色をしました。どうやら「5~9文字」のタイトルが、最も多く、約3万作品もあるようです。

意外と短いタイトルの作品が多くないですか?

私、もっと長ったらしいタイトルばかりだと思ったので、ちょっと意外でした。

じゃあ、どんなタイトルがあるんでしょうかね~??


調べてみましょう。
まずは、着色した約3万作品に絞ってみます。

Tableau上の操作では、この着色したところをクリックして「保持」でもいいんですが、データを使いまわししたい私は「セット」を使って実行しました。

セットの作成
5~9文字のタイトル例

う~ん。どうでしょう?
特徴的なタイトルはありますでしょうか?
参考にしてみてくださいね。

参考:Tableauで最大値を着色するための計算式。これを「色」に入れています



仮説②「会話文が多い方が高評価?」


こちらの仮説の根拠はもっと単純で

「なろう系を読むような層には、会話文だけ読ませておけばよいのだ」


という「翔んで埼玉」なみのド低能論理です。
私もこの仮説に則り、まさかの「40万文字以上すべてが会話文」のラノベを書きましたが、ほとんど読まれずに終わりました。(あれ? すでに反証されちゃった)

「小説家になろう」では「会話率」というパラメータがもともと存在しているようです。つまり「すべての文字の中で、カギカッコなどで挟まれた文字数の割合はどのくらいか」を見ているのだと思われます。

では、Tableauで分析していきましょう。
やることは仮説①と同じなので、詳細は割愛。

会話率と評価ポイントの相関
「傾き」「切片」「決定係数」

ありゃりゃ~…。

これまた無相関でした。

なんだよなんだよ。会話率が高い方が、読みやすいから、みんな読むんじゃないのかよ。

…違いましたね。

しかも、傾き(回帰係数)だけ見ると、マイナス値になってます。つまり、会話率が1pt上がると、評価ポイントが473.755下がる事を示しています(笑)

折角なので、こちらもヒストグラムを見ておきましょう。
会話率何%くらいの作品が多いのか。

階級幅5%でヒストグラム化

へえ!
面白いですね。比較的正規分布ですが、山が3つあるようにも見えます。

まずは、会話率5%未満が約6,000作品
う~ん。エッセイとかレポートでしょうか?
でもR18カテゴリですよ?

確かに「エロ漫画における乳首の夜間ヘッドライト残像表現」についての素晴らしいレポートを見たことがありますし「エロアニメにおける膣内射精シーンにおける精液のカルマン渦表現」についての論文を書こうとしている人を見たことがあります。そういう事でしょうか?

そして

最も度数が多いのは、40%~45%でした。

5割弱の会話文が一般的なのですね。
これが、いわゆる文學作品や小説作品と比較してどうなのか、は、私にはわかりません。

ちなみに、私は「会話文が0%の物語小説」もいくつか書いたことがあります(リンク張ろうと思ったけど、なろうで公開してませんでした)。

さてさて。
ここまできたら、ついでに調べてしまいましょう。

会話率95%以上の「つはもの」は、どんな作品なのか。

という訳で、私の大好きなTableauの「セット」を使って、95%以上の作品だけを抽出し、本文の文字数が多い順に並べてみました。

1作品がとびぬけてる

はい、こんな感じです。

1作品だけ200万字以上でとびぬけています。

R18のエロ小説を、会話文だけで200万文字だ…と…?
これ、ある意味すごい才能だと思います。私でも40万文字ですよ?

グラフから読み取りづらいですが、下の方に平均線を引いてあります。平均は約25,000文字です。200万文字がどれだけ平均を押し上げている事か…。

こうやって、少数の外れ値が全体の平均を大きく押し上げてしまう事はよくありますので、複数のデータを見る時は、以下3つの「代表値」を知っておくと便利です。

平均値:データを全て足した合計値をデータ数で割った値
中央値:データを並べた上で真ん中の順位に位置する値
最頻値:最も頻繁に出現する値

さて。今回は、1つの外れ値が平均を大きく押し上げてしまっていますので、こいつを外した時に平均がどうなるかも確認したいと思います。

Tableauで一番手っ取り早いのは、200万文字の作品を選んで「除外」してしまう事でしょうが、今回はせっかくなので「フィルターアクション」と「除外」を使って

「クリックしたデータだけが除外される」

ようにしたいと思います。
といっても、難しくはありません。「ワークシート」の「アクション」から「フィルターアクション」を設定して、「フィルターの編集」から「除外」をチェックするだけです。

「ワークシート」から「アクション」
フィルターアクションを設定
「フィルターの編集」で「除外」をチェック

これで準備完了です。
早速、200万文字の作品をクリックしてみると…。

2位以下の作品だけが残りました

平均を見てみると、約1万文字です。
なんと! たった1作品が、1万文字分も平均を押し上げていたんですね。
びっくりです。

逆に言うと

「会話率95%以上で1万文字以上書いている人は、かなりレア」

と言えそうです。


参考:対数での相関



仮説③「高評価作品に共通の特徴はある??」


こちらはどちらかというと「総合評価が高い作品はどんな傾向があるのか」をざっくり探索してみたい、という好奇心によるものです。

という訳で

「評価ポイント トップ10の作品と、それ以外の作品」

でどんな傾向差があるのかを見ていきます。

まずは、全タイトルを並べて、評価ポイントの高い順番に並べます。そこからフィルターで上位10位を抽出し、私の好きな「セット」を使って「上位10位」と「それ以外」に分けます。

フィルターから「上位10」を設定後、「セット」を設定

今回は「会話率」「タイトル文字数」「挿絵数」「本文の文字数」の4つの切り口で比較してみました。それが↓↓↓です。

ひとつずつ見ていきましょう。

会話率:TOP10の方が「会話が少ない」
タイトル文字数:TOP10の方が「タイトルが長い」
挿絵数:TOP10の方が「挿絵が多い」
本文の文字数:TOP10の方が「圧倒的に長い」

おっと…。
思いもよらない結果が出てきました。

特に「挿絵数」と「本文の文字数」は意外

でした。

しかし、ちょっと変じゃないですか? このデータ。
TOP10の作品の「本文の文字数」の平均値は、200万文字にもなります。
ラノベ1冊あたりの文字数が10万程度と言われますから、20巻もの規模になります。これ、本当でしょうか? 長ければ、挿絵の数も増えますよね。ましてや、R18カテゴリですもの。

ここで、もう一つの疑問が出てきました。

これって、TOPの作品は単純に長く連載してるだけなんじゃないの?

調べてみましょう。
幸い、今回のデータには「初回更新日」と「最終更新日」があります。つまり、この間の日数を調べれば、連載期間がどのくらいかを調査できます。

2つの日付の期間を調べるには、DATEDIFF関数を使います。

親の顔より見たDATEDIFF関数

そして、その結果が↓↓↓です。

やっぱり!

TOP10にランクインしている作品は、平均で約1,900日、およそ5年間

も連載を続けています。
翻って、11位以下の平均は134日。4ヵ月程度です。

この結果をどう見るかは、作者が自分の作品とどう向き合うかによると思われます。

結局は「自分の書きたいものを書く」のが良いのではないでしょうか?


参考:「総合ポイント」をコピーして「ランク」計算したのちに「不連続」にする事で、タイトル名に順位を表示させる事ができます。
参考:ダッシュボードで「コンテナの均等配置」を使うと、きれいに並べる事ができます



いかがでしたでしょうか?

私の仮説は全て棄却されましたが、それでも興味深いインサイトがあったのではないでしょうか?
※余談ですが、私が昔に読んだコンテンツマーケティングの本には、ブログの最後は必ず「いかがでしたでしょうか」で締めくくるように、と、ちゃんと書いてありましたよ。


もし「こんな切り口からも分析してみて」がありましたら、コメント欄へどうぞ。

あと「ここのTableauの操作どうやったの?」がありましたら、そちらもコメント欄へどうぞ。

後編では、今回使った切り口を使って「知らなかった新たな作品に偶然であうことができるTableauのviz」を紹介しようと思います。お楽しみに!

とは言え、まずは、私の文學作品もといエロ小説から読むことをお勧めします。(なぜかこっちはR18じゃないという、なろうの不思議)


いいなと思ったら応援しよう!