OpenAIのo1 pro modeは、マンガのネームという高度に文脈依存かつ視覚的・物語的情報を内包する領域を、どこまで理解することができるのか。また、その評価をすることが可能か。実験してみました。
結果的には、ネームの構成要素を理解し、定量的な評価指標を提案し、入力された画像に対して評価を行うことができました。
高度に専門化された人間の編集者の編集能力には敵わないかもしれませんが、作家が壁打ちとして利用することはできそうです。
以下の記事では、実験の詳細を記します。
有料部分では、実際に私の作品のネーム全編を評価させています。技術はすぐに陳腐化してしまいます。特に生成AIの領域では、数ヶ月後にはもっと目を見張るような技術が生まれている可能性があるので、記事の内容が陳腐化することを見越して、有料化してアクセス制限しています。
OpenAI o1 pro modeとは何か
OpenAIのブログによると、o1 pro modeは、先に公開されていたo1 previewモードに比べて高い推論能力を有し、特にデータ サイエンス、プログラミング、判例分析などの分野で実力を発揮するとのことです。
新しくリリースされたChatGPTのProプラン(月額200ドル!)でこのo1 pro modeを無制限で利用できるので、早速検証してみました。
マンガのネームを選んだ背景
マンガの制作に生成AIを利用する試みはすでに多く行われていて、企画段階、キャラクターデザイン、プロット、シナリオ、作画など様々な領域で活用事例が発表されています。
私自身もこれを試みていますが、生成AIによるマンガ制作において、一番難しい領域が、マンガにおける「ネーム」制作の部分だという実感があります。
新しいo1 pro modeが、どれぐらいマンガのネームを理解し、それを評価することができるのか。
これが実現できれば、生成AIがネームを構造的に理解することができる、と言うことができ、それはつまり、マンガのネームを描くことができるようになる、という示唆を得ることが期待できます。
o1 pro modeは、「マンガのネーム」を理解できるのか?
そもそも、「マンガのネーム」とはなんでしょうか?
Wikipediaの「ネーム(漫画)」のページの概要部には、以下の説明があります。
ネームは、漫画を描く際のコマ割り、コマごとの構図・セリフ・キャラクターの配置等を大まかに表したもの。「コマ割」「ラフ・ネーム」「ラフ」、やや意味合いは異なるが「絵コンテ」などと呼ばれる場合もある。狭義では、ふきだしの中の台詞やモノローグを指し、元々はこちらの意味で使われていた。
では、o1 pro modeは、マンガのネームをどのように理解しているのでしょうか?
漫画の「ネーム」について説明できますか?
ある程度理解しているようです。
o1 pro modeは、マンガのネームを構造的に説明できるか
それでは、o1 pro modeにマンガのネームを画像として与えたときに、内容を理解し評価するために、マンガのネームを構成要素を言語化させてみましょう。
ネームの重要な構成要素を詳細に説明してください
かなり詳細に説明できるようです。
o1 pro modeにマンガのネームの定量的評価基準を作らせることはできるか?
では、o1 pro mode自身に、マンガのネームを定量的に評価する評価基準をつくらせてみましょう。
画像としてネームを入力し、定量的に評価するために評価基準を作ってください。
ストーリーテリングや、キャラクターと読者の感情的な動きは評価軸に含まれていませんが、画像から判別できそうな定量的な要素を網羅的に評価軸に含めようとしてくれています。
では、実際にこの評価基準に従って、入力された画像を評価することができるのでしょうか?
拙著マンガのネームを入力して、検証してみたいと思います。
検証方法
実際に私が書いたマンガのネームをChatGPT Proに入力し、上記の評価基準で評価させます。
モデルの比較のために、o1 pro mode、o1、GPT-4oの出力を比べてみます。
検証1-1:o1 pro modeによるマンガのネームの定量的評価
下記の基準で添付画像のネームを評価してください
(評価基準部分は省略)
※読みやすいように、入力した画像は、o1 pro modeの回答の間に挿入します。
画像中の情報は適切に取得できているようです。
画面右下は、いわゆる「コマぶち抜き」表現で、変則的なコマ割りですが、コマ数は3であることを理解しています。
「3コマ中1コマ程度が微妙な「間」扱い」というのは、おそらく3コマ目のセリフが「・・・!」であることから、完全な間のあるコマではないが、セリフのあるコマではない、ということを理解しているのだと思われます。
コマ数のカウントを間違えていますが、3コマ目が、横長のコマの真ん中にモノローグのコマを置いて、実質的に2つのコマのような使い方をしているので、大きくは間違っていない、という感じです。
その他の評価軸でも、大きな間違いはありません。
1コマ目が枠線のない変則コマですが、実質3コマであることを理解しているようです。「場面転換明示:同シーン想定、問題なし」というのは、ページ中に場面変換が無いので、「明示的に場面変換をした」という描写がないので問題ないと思う、という意味だと考えられます。
コマ数カウントを間違えています。
このページでは、コマ数カウントを間違えた要因がわかりませんでした。
このページでは前半に回想、後半で現在に時間軸が戻ってきていますが、「テキストで補足しているので問題なし」と評価しています。
全体的に、画像の内容をよく理解して、評価基準に照らし合わせて評価しているように感じられます。
検証1-2:o1によるマンガのネームの定量的評価
下記の基準で添付画像のネームを評価してください
(評価基準部分は省略)
o1では、ページごとの評価を行いませんでした。
配点がかなりざっくりしていて、定量評価と言えるのか?という疑問はありますが、全体をざっと見て傾向分析をして評価してくれている感じはあります。
1ページずつの細かい評価が不要な場合は、o1でも十分かもしれません。
検証1-3:GPT-4oによるマンガのネームの定量的評価
下記の基準で添付画像のネームを評価してください
(評価基準部分は省略)
GPT-4oは評価を行うことができませんでした。
過去の記事で検証しているように、GPT-4o自体はマルチモーダル的に動作し、マンガのページを読むことができましたが、評価基準に照らして評価することが難しいようです。
(参考)
検証2-1:o1 pro modeによるマンガのネームの定量的評価
別の作品を使って再度検証してみます。
o1 pro modeとo1の比較飲み行い、GPT-4oは省略します。
下記の基準で添付画像のネームを評価してください
(評価基準部分は省略)
※読みやすいように、入力した画像は、o1 pro modeの回答の間に挿入します。
特に認識間違いはなさそうです。
このコマも、2コマ目が枠線のない変則コマ割りですが、2コマであることは理解しているようです。 セリフから、場面が屋外に移ったことを理解し、明示的な説明がないことを指摘しています。 手書き文字でも読めるようです。
こちらのページも大きな間違いは無いようです。
「場面転換明示:流れ継続で問題なし」のところが、前のページから場面転換してませんよね、の意味だとすると、複数ページに渡るネームの理解ができることになり、かなり期待できます。
検証2-2:o1によるマンガのネームの定量的評価
下記の基準で添付画像のネームを評価してください
(評価基準部分は省略)
やはりo1では、全体をざっと見ている感じで、ページごとの評価についても誤りが多く含まれています。 入力された情報に対する分析精度がo1 pro modeより劣るのかもしれません。
o1 pro modeによるマンガのネームの定量的な評価能力についての評価
これまで見てきたように、o1よりもo1 pro modeの方が思考時間が長く、推論の精度も上回っています。
特に、o1 pro modeが、複数のページに渡る場面転換の有無について理解しているような回答があることから、もっと長大なネームについても理解して評価できる可能性が感じられます。
参考情報
今回の検証で利用した、拙著マンガは、下記で完成品を読むことができます。
バーントシェンナとコバルトブルー
光射すへや
有料部分について
有料部分では、拙著「光射すへや」のネーム全36ページを、o1 pro modeに評価させています。
画像36枚を一度にアップロードすると流石にエラーが出たため、4ページに分けて評価させました。
結論から申し上げると、残り4ページのところで使用制限がかかり、完了することができませんでした。
これは、ファイルの添付についてのみの制限でしたが、それだけでなく、推論能力にも早々に制限がかかっていた感じがあり、上記の比較検証のような高いパフォーマンスは、5ページ目以降では発揮されませんでした。
そのことから、あまり有料部分の記事に価値はありませんが、いずれこのような状況も改善されて内容が陳腐化しますので、有料化してアクセス制限しておく次第です。