見出し画像

データサイエンス×演劇 〜トピックモデルによる舞台のジャンル・特徴分け PART3〜

こんにちは、Yu_Seです。
さあ、データサイエンス×演劇ということでデータサイエンスを使った舞台のジャンル・特徴分けの結果とその考察について、3部構成でまとめた記事の最終部であるPART3です。
PART3では、トピックモデルを使って舞台のジャンル・特徴分けをした結果から、どんなトピック(ジャンル・特徴)が生成されたのか、どのくらい正確に舞台がジャンル・特徴分けされているのかを考察していきたいと思います。
私がなぜデータサイエンスを使って舞台のジャンル・特徴分けをしているかについては、「データサイエンス×演劇 〜トピックモデルによる舞台のジャンル・特徴分け PART1〜」をご参照下さい。
また、今回用いているトピックモデルについての説明と、トピックモデルの結果についての見方に関しては、「データサイエンス×演劇 〜トピックモデルによる舞台のジャンル・特徴分け PART2〜」をご参照下さい。

それでは、早速結果と考察について見ていきましょう!

生成されたトピック

PART2の記事でも載せていますが、ここでももう一度トピックモデルLDAを用いた舞台ジャンル・特徴分けの結果について、トピックマップと公演別トピック構成割合表の2つを載せたいと思います。


トピックマップ


公演別トピック構成割合表


今回の結果で出現させたトピックの個数は70個であり、そのうちの55個が解釈可能なトピックとなりました。
出現したトピックのリストは以下のようになっています。トピック番号の横に括弧書きで書かれているのは、私がトピックに含まれる単語から類推したトピック名です。トピックマップで表示される単語と対応させながら眺めていただけると幸いです。
また、◎が綺麗にトピックとして生成されたもの、○が若干不純物の含まれるトピック、△が複数のジャンルが混ざってしまったトピック、括弧書きで判定不能と書かれたトピックが解釈できなかったトピックです。


topic1(お笑いライブ):○(落語も混ざっている)
topic2(西洋1):◎(古典に近い)
topic3(ミュージカル):◎
topic4(コメディ1:下ネタ系):◎(おバカ系)
topic5(任侠):◎
topic6(コメディ2:ブラックユーモア):◎(コメディとシリアスが混ざった作品)
topic7(サスペンスホラー1):◎
topic8(不条理劇):△(ミステリーと混ざってしまった)
topic9(即興劇・インプロ):△(LGBTトピックと混ざってしまった)
topic10(高校演劇):◎
topic11(ミステリー):◎
topic12(学園もの・少女漫画):◎
topic13(スポーツ・対戦):○
topic14(判定不能)
topic15(ハートフル):◎
topic16(家族):◎
topic17(判定不能)
topic18(殺陣1):◎
topic19(判定不能:成長物語?)
topic20(判定不能)
topic21(判定不能)
topic22(判定不能)
topic23(旅行記):△(他のジャンルも混ざっている)
topic24(舞台美術1:映像):○
topic25(判定不能:愛?)
topic26(判定不能:エネルギッシュ感?)
topic27(2.5次元):◎
topic28(抽象劇):○(哲学感がある)
topic29(夫婦):◎
topic30(判定不能:ビジネス?)
topic31(音楽劇):◎(音楽劇、オペラ、生演奏×演劇を含む)
topic32(舞台美術2:SF・ファンタジー):△(舞台美術系も含まれる)
topic33(昭和・レトロ):○(全てがレトロではなかった)
topic34(戯曲):◎
topic35(殺陣2):◎
topic36(震災):◎
topic37(ダンス):◎
topic38(判定不能:ポップ?)
topic39(朗読劇):◎
topic40(野外劇・自然):◎
topic41(西洋2):○
topic42(オンライン・配信):○(たまにオンライン作品以外も含む)
topic43(アイドル1):◎
topic44(特撮):◎
topic45(サスペンスホラー2):△(オンラインが混ざっている)
topic46(医療・人形劇):△(医療トピックと人形劇トピックが混ざっている)
topic47(コメディ3:シチュエーションコメディ):◎(アガリスクが多い)
topic48(一人芝居1):◎
topic49(子供向け):◎(絵本とか)
topic50(判定不能)
topic51(判定不能:舞台美術?):(ちょっと舞台美術トピックとしては弱い)
topic52(学生演劇):○(大学生主宰の演劇)
topic53(童話・ファンタジー):△(ちょっと弱い)
topic54(アダルト):◎
topic55(社会問題):◎
topic56(コメディ4:ハートフル系):◎
topic57(アイドル2):◎
topic58(戦争):◎
topic59(恋愛・ラブストーリー):◎(ちょいエンタメより)
topic60(幕末):◎
topic61(判定不能)
topic62(判定不能)
topic63(一人芝居2):◎
topic64(舞台美術3):○(生演奏なども含む)
topic65(コンテンポラリーダンス・身体表現):◎
topic66(コメディ5:大爆笑系):◎
topic67(会話劇):◎
topic68(時代劇):◎
topic69(青春群像):○(恋愛も入ってくる)
topic70(判定不能:日常?)

いかがだったでしょうか?
こんなジャンルもあったのか!といった意外性や、確かにこんなジャンルもあるよね!という納得感の両方があったのではないかと思っています。

私の方で簡単に考察いたしますと、以前行った演劇のアンケートで「好きな舞台のジャンル」という質問項目で用意した25のジャンルよりも明らかに多くのトピックが出現したと思っています。これなら、少なくともアンケートを集計した時よりも良いレコメンド機能は作成出来そうです。
「現代劇」がより分割されて、戦争トピック、恋愛・ラブストーリートピック、家族トピックなど、レコメンド機能として使えそうな具体的なジャンルが現れました。

また個人的に驚いたというか、物凄く上手くいったと思うことは、コメディが更に細分化されて、「下ネタ系」「ブラックユーモア」「シチュエーションコメディ」「ハートフル系」「大爆笑系」それと「お笑いライブ」に分かれたということです。
確かにコメディの中にもジャンルはあるという認識でした。しかし、ここまで細かくトピックとして分類されると思いませんでした。これによって、「ブラックユーモアだけが好き」というユーザーや「お笑いライブだけがとにかく好き」というユーザーに対しても適切にレコメンドが機能しそうです。

さらに、学校関連の作品の中でも「学園もの・少女漫画」系と「青春群像」系で大きく違うのも凄く納得感があります。
学園ものに関してはどちらかというとエンタメに近い感じでラブコメのような印象ですが、青春群像はもっと真面目よりで「いじめ」なんていう単語が含まれるくらいちょっと暗い感じも見え隠れするトピックです。ここは見たいと思うユーザー層に明確な違いが見られそうなので、トピックとして出現してくれて正解といった感じです。

まだまだ出現トピックに関して考察したいところですが、トピックマップによる考察はここまでにしたいと思います。
それにしても、想像以上に細かい単位で舞台のジャンル・特徴が出現したので驚いていると共に嬉しい感覚でいっぱいです笑


各公演のトピック構成確率

次に、エクセルファイルで出力されている「公演別トピック構成割合表」について見ていきながら考察していきましょう。

まずは、topic1の「お笑いライブ」トピックに着目して、このトピックの構成割合が大きい公演にはどんなものがあるのか見ていきましょう。
エクセルファイルの、「お笑いライブ」に該当する列をトピック構成確率の降順で並び替えた結果が下のようになっています。


スクリーンショット 2020-09-27 3.29.09

ご覧の通り「お笑いライブ」トピックの強い公演なので、「芸人コンティニュー」や「オリエンタルラジオ『芸人交換日記』」「テニスコートのコント『浮遊牛』」など、お笑い芸人にちなんだ公演やショートコントなどが並んでいることが分かります。しっかりと、各公演に対して適切なトピックが付与されていることが伺えると思います。
また、「お笑いライブ」トピックの列から右へ3列進むと「コメディ1(下ネタ系?)」トピックに至るのですが、ここの構成割合も高くなっている公演が割と多く散見されるかと思います。これは、「お笑いライブ」系の公演と「下ネタ系コメディ」の公演の親和性がとても高いことを意味していると思っています。どちらもお笑いという意味では共通するので、これは物凄く納得感がありますよね。


スクリーンショット 2020-09-27 3.43.47

次に「任侠」トピックの構成確率が高い公演で降順に並び替えた図が上のようになっています。
こちらをご覧頂くと、「任侠」トピックの構成確率が強い公演は、2つ右隣の「サスペンスホラー」トピックの構成確率も強いものが多いことが伺えるかと思います。これは、「任侠」トピックと「サスペンスホラー」トピックの親和性が高いことを意味しており、物凄く納得感のある結果だと思っています。

このように、各トピック毎に構成確率の高い公演をチェックしていくだけでなく、トピック間の構成確率の高い公演の被り具合を調べることによって、トピック同士の親和性の良さも確認することができます


今度は一つの公演に着目して、その公演に含まれるトピックの構成確率をそれぞれ見ていきましょう。
ここでも、PART1・PART2で取り上げさせて頂いた、劇団柿喰う客の「御披楽喜」と劇団壱劇屋の「PICKA ROON!」と青年団の「東京ノート」「東京ノート・インターナショナル」、そしてインプロカンパニーPlatformの「その探偵の名、」の4つについて各公演のトピック構成確率を見ていきましょう。


「御披楽喜」・・・「コメディ1(下ネタ系?):6%」「舞台美術1(映像):1%」「判定不能(エネルギッシュ感?):60%」「抽象劇:22%」「殺陣2:1%」「舞台美術3:3%」「コンテンポラリーダンス・身体表現:2%」

「PICKA ROON!」
・・・「サスペンスホラー1:4%」「ハートフル:5%」「判定不能(エネルギッシュ感?):17%」「殺陣2:68%」「舞台美術3:1%」

「東京ノート」・・・「サスペンスホラー1:7%」「家族:2%」「判定不能(成長物語?):3%」「抽象劇:14%」「社会問題:1%」「戦争:3%」「会話劇:8%」「判定不能(日常?):59%」

「その探偵の名、」
・・・「即興劇・インプロ:11%」「ミステリー:74%」「家族:1%」「判定不能:2%」「抽象劇:7%」「音楽劇:2%」

こちらの結果を見ると、「御披楽喜」は「エネルギッシュ感」と「抽象劇」、「PICKA ROON!」は「エネルギッシュ感」と「殺陣」、「東京ノート」は「抽象劇」「会話劇」「日常系」、「その探偵の名、」は「即興劇・インプロ」「ミステリー」といったジャンル・特徴に分かれるといった結果でしょうか。
完全にイメージ通り綺麗に分かれたとまではいきませんでしたが、概ね予想に沿った舞台のジャンル・特徴分けになったんじゃないかと思っています。

このように、70個のトピックを用いて概ね2623公演が無事にジャンル・特徴分けされているんじゃないかと、確かめることができました。
まだまだ私自身も手が回っていなくて細部まで確認出来ていないので、ご興味ある方は自分の好きな舞台ジャンル・特徴のトピックでどんな公演が上位に来るのか確認してみて下さい。


今後の展望

今回のトピックモデルLDAを用いた舞台のジャンル・特徴分けですが、概ね納得のいく程度の精度で2623公演を70のトピック(うち解釈できるのは55トピック)で分類することが出来ました。
やはりデータサイエンスの力は様々な業界に応用出来る素晴らしい技術だとつくづく感じました!

今後の展望なのですが、こちらの分類結果を用いて「公演情報レコメンド機能」が正確に機能するか実験したいと思っています。
早速ある友人に対して、舞台ジャンルの好みを聞いて今回の分類結果を踏まえてオススメの公演を提示してみたのですが、割とウケが良かったです!
友人も、今まで知らなかったが好みに合いそうな公演をレコメンド出来ていると証言してくれたので、今後更に多くの演劇関係者に正しくレコメンド出来るかご協力を仰ぎたいと思っています。
このレコメンド機能が成功すれば、私が目指している演劇アプリ開発へ大きく前進出来ると思っているので、読者のみなさんも引き続き応援よろしくお願いします!

それでは長文になりましたが、PART1・PART2・PART3と今回は3部構成に渡ってお送りしてきました。
最後までお読み頂きありがとうございます!
これからも、まだまだ演劇に関する面白いチャレンジをしていく予定なので楽しみにしていて下さい。
ではでは、ごきげんよう。

いいなと思ったら応援しよう!