先日の記事で、o1 pro modeにマンガのネームを評価させることを試みたのですが、結果は微妙でした。
このあと色々検証した結果、o1 pro modeの推論そのものに早々に制限がかかったというよりは、大量の高解像度の画像をアップロードしたことにより、一時メモリの容量オーバーで添付ファイルの受付に制限がかかった、ということはわかりました。
ただ、それによって思考期間が極端に短くなり、推論能力も著しく落ちた実感があったことから、おそらく推論能力にも何らかの影響を与えていたのだろうと思います。
今回は、同じ失敗をしないために、画像をある程度小さく(具体的には長辺1080pxのjpg画像)に変換して、マンガの原稿から、o1 pro modeが出来事と登場人物の感情、意思、行動を分析して、読者体験について評価することができるかを試みました。
結果、ある程度可能であることがわかりましたが、完璧とまでは言えず、アプローチの改善とプロンプトの改善が必要だと結論付けました。
以下に検証の設計と、実際の入出力を示します。
まず冒頭から8ページを示して、振り返りを行います。冒頭8ページだけでもどんなことができるかはわかると思うので、更に詳しい内容が知りたい方は有料部分を読み進めてください。
検証の方法
検証は、Xで行ったo1 pro modeへの質問募集にエントリーいただいた「(マンガのネームの)感情の流れが適切か否か?感情表現の壁打ちとして使えるのか?も知りたいです」に対する検証として設計しました。
ストーリーの中の「感情の流れ」の分析
ストーリーの中の登場人物の感情の動きを単純化すると
と表せます。
これを一つのモジュールとしてエピソードが組み立てられ、エピソードの連続がストーリーになっている、と考えることができます。
マンガの原稿を4ページずつo1 pro modeに読ませて、これらの要素を説明させて、まずはテキスト情報に変換しました。
実際に用いたプロンプトは下記です。
入力された一連の漫画の原稿を分析して、視覚から情報を得ることが難しい人のための音声による説明のための原稿を脚本形式で出力してください。
各シーンで、セリフや効果音の他に、下記の情報を漏らさず説明してください。
- そのシーンの状況
- そのシーンで発生している出来事
- キャラクターの出来事に対する反応(感情、動作、言動)
- キャラクターの意思
- キャラクターの行動
テキスト化された「感情の流れ」の評価
次に、テキスト化されたマンガの中の感情の流れを、次の指標にしたがって評価させました。
状況描写 : そのシーンの環境、配置、出来事などの状況が活き活きと描かれ、鑑賞者に視覚的な刺激と必要な情報を提供しているか
登場人物の感情描写 : 登場人物が、そのシーンの状況の中でどのような反応を示しているか、表情、動作、感情などが活き活きと描かれ、鑑賞者の共感を喚起しているか
登場人物の意思と行動 : 登場人物がどのような動機で意思決定をし、どのような行動を起こしているかが活き活きと描かれているか
次のシーンへの期待 : 鑑賞者が、次のシーンを見ずにはいられないような、カタルシスを期待させる要素、新しい状況を予期させるもの、感情的なフックが意図的に仕込まれているか
実際に用いたプロンプトは下記です。
次のシナリオを分析して、各シーンのクオリティを評価してください。
評価指標は下記の通りです。
- **状況描写** : そのシーンの環境、配置、出来事などの状況が活き活きと描かれ、鑑賞者に視覚的な刺激と必要な情報を提供しているか
- **登場人物の感情描写** : 登場人物が、そのシーンの状況の中でどのような反応を示しているか、表情、動作、感情などが活き活きと描かれ、鑑賞者の共感を喚起しているか
- **登場人物の意思と行動** : 登場人物がどのような動機で意思決定をし、どのような行動を起こしているかが活き活きと描かれているか
- **次のシーンへの期待** : 鑑賞者が、次のシーンを見ずにはいられないような、カタルシスを期待させる要素、新しい状況を予期させるもの、感情的なフックが意図的に仕込まれているか
これらの要素が漏れなく含まれ、鑑賞者の共感を喚起し、擬似体験に引き込み、感情を揺さぶり、インサイトを強く刺激することを高く評価します。
不足する要素、あるいは過剰である要素があれば厳しくレビューし、批判して改善案を示してください。
レビュー全体は長大になってかまいません。省略したり、忖度せずに、完全かつ網羅的なレビューを提供してください。
拙著「光射すへや」の完成版原稿を4ページずつ、上記の分析→評価の2段階で処理しました。
結果を以下に記します。
検証結果-P1-8
P1-4
原稿
分析
発言している登場人物が描かれておらず、セリフのみが描かれている描写(脚本用語でSO(Sound Only)を正しく分析することが難しいようです。
それ以外の箇所でも、セリフを発している登場人物を錯誤する場面はしばしばありました。
一方で、各ページで誰がどの人物か、名札をつけているわけではないのに、文脈から判別しているところは、文脈理解力の高さをうかがわせます。
「効果音」については、原稿に描いてあればそれを読み取ってほしかったのですが、「文脈から想像できる効果音を付け足す」になってしまっていますね。
評価
マンガの原稿を直接見ているのではなく、一度テキストに変換されたものを読んでいるにすぎないが、文脈をよく理解して、しっかりレビューを返してくれているように感じます。
分析パートで錯誤した内容はそのまま錯誤してしまうのは仕方がないとして、指摘は概ね的を射ているように感じられます。
P5-8
原稿
分析
前述、「効果音」もそうですが、ここでは登場人物のエレノアの声のトーンを、文脈から推察して付け加えています。
とてもクリエイティブでよいですが、描いてあることをそのまま評価してほしい場合には、文脈を読んでディティールを補足してほしくありません。
このあたりは、プロンプトでしっかり制御しないといけないポイントのようです。
評価
ここでもかなり突っ込んだレビューをしてくれているように思うが、ところどころ独自の独自の解釈を入れていて、実際のマンガにはそこまで描かれていないのに、そんなに意図を汲み取ってしまっては読者目線でのレビューにならないのでは、という懸念が生まれます。
マンガのレビューということで考えれば、「読者が関心を示し、物語に引き込まれるか」が大事であって、内容を分析したり評価したりすることの賢さはあまり問題ではないはずです。
一方で、いろいろを考えてレビューをくれてくるので、気づきもありました。
例えば、マルクの作品の題材が裸婦像だったら、このシーンにまた違ったエンターテイメント性が生まれていたように思います。
さらに、この後のシーンで、マルクがエレノアに「君が描きたい」と言ったときの意味合いが全然違ってきます。
思考を刺激する、という意味ではとてもいいレビューになっていると思います。
どちらかというと、壁打ちに近い感覚かもしれません。
振り返りと次の展望
私のマンガは比較的単調なコマ割りなので、おおよそ理解できたようです。
もっとダイナミックなコマ割りや、描き文字が多い原稿だと難しいのかもしれません。
また、キャラクターとセリフの関係がしっかり掴めれば文脈理解の精度は高いので、「AIが読みやすいマンガ」というスタイルもあり得るかなと思います。
さらに踏み込んだ検証をするなら、以下が想定できそうです。
「一般的な読者」としてレビューしてもらう。解釈を付け加えて深読みせず、パッと読んで面白いかどうかを評価してもらう
分析と評価のプロセスを分けず、一息にレビューまでしてもらう
画像を結合するなどして、一度にもっと長いストーリーを分析してもらう
マンガ全編に興味を持っていただいた方は、下記記事から読めますのでよろしくお願いします。
https://note.com/msfmnkns/n/n6aba315b57cd%0A
このあとの有料部分では、P9-36まで全編のo1 pro modeによる分析と評価を記しています。
全編読みたい方はお進みください。