見出し画像

OpenAI o1 pro mode検証:マンガのネームを理解し評価できるか?

セール中

〜1月8日 00:00

OpenAIのo1 pro modeは、マンガのネームという高度に文脈依存かつ視覚的・物語的情報を内包する領域を、どこまで理解することができるのか。また、その評価をすることが可能か。実験してみました。

結果的には、ネームの構成要素を理解し、定量的な評価指標を提案し、入力された画像に対して評価を行うことができました。
高度に専門化された人間の編集者の編集能力には敵わないかもしれませんが、作家が壁打ちとして利用することはできそうです。

以下の記事では、実験の詳細を記します。
有料部分では、実際に私の作品のネーム全編を評価させています。技術はすぐに陳腐化してしまいます。特に生成AIの領域では、数ヶ月後にはもっと目を見張るような技術が生まれている可能性があるので、記事の内容が陳腐化することを見越して、有料化してアクセス制限しています。


OpenAI o1 pro modeとは何か

OpenAIのブログによると、o1 pro modeは、先に公開されていたo1 previewモードに比べて高い推論能力を有し、特にデータ サイエンス、プログラミング、判例分析などの分野で実力を発揮するとのことです。

新しくリリースされたChatGPTのProプラン(月額200ドル!)でこのo1 pro modeを無制限で利用できるので、早速検証してみました。


マンガのネームを選んだ背景

マンガの制作に生成AIを利用する試みはすでに多く行われていて、企画段階、キャラクターデザイン、プロット、シナリオ、作画など様々な領域で活用事例が発表されています。

私自身もこれを試みていますが、生成AIによるマンガ制作において、一番難しい領域が、マンガにおける「ネーム」制作の部分だという実感があります。

新しいo1 pro modeが、どれぐらいマンガのネームを理解し、それを評価することができるのか。
これが実現できれば、生成AIがネームを構造的に理解することができる、と言うことができ、それはつまり、マンガのネームを描くことができるようになる、という示唆を得ることが期待できます。


o1 pro modeは、「マンガのネーム」を理解できるのか?

そもそも、「マンガのネーム」とはなんでしょうか?

Wikipediaの「ネーム(漫画)」のページの概要部には、以下の説明があります。

ネームは、漫画を描く際のコマ割り、コマごとの構図・セリフ・キャラクターの配置等を大まかに表したもの。「コマ割」「ラフ・ネーム」「ラフ」、やや意味合いは異なるが「絵コンテ」などと呼ばれる場合もある。狭義では、ふきだしの中の台詞やモノローグを指し、元々はこちらの意味で使われていた。

では、o1 pro modeは、マンガのネームをどのように理解しているのでしょうか?

漫画の「ネーム」について説明できますか?


(思考時間30秒)

# 漫画の「ネーム」とは

**定義**
「ネーム」とは、完成原稿に先立ち、コマ割り・キャラクター配置・セリフ配置を明確化するための下描き(設計図)である。単なるラフスケッチとは異なり、編集担当者や制作スタッフに全体の構成意図を正確に伝えるための具体的な指示書的役割を果たす。

**目的と必要性**
- **ページ構成の確定**:コマ数、サイズ、配置を決定し、ページ全体の動線を確保する。
- **ストーリー進行の可視化**:物語展開や演出効果を検証し、不要な場面やセリフを省くことでストーリーを最適化する。
- **制作工程の効率化**:明確な指示があることで、清書時の迷いを防ぎ、作業スピードを向上させる。

**具体的な作成手順**
1. **あらすじ作成**:シナリオに基づき、各ページごとの展開を箇条書きでまとめる。
2. **コマ割り設計**:紙またはデジタルツール上で、コマの数・大きさ・形を決定し、視線誘導の線を意識したレイアウトを組む。
3. **キャラクター・背景配置**:各コマ内に人物・物・背景をざっくりスケッチし、誰がどこで何をしているかを一目で把握できるようにする。
4. **セリフと吹き出し配置**:台詞やナレーションを実際にコマ内へ割り振り、余白や配置バランスを調整する。
5. **フィードバックと修正**:完成したネームを編集担当者やチーム内でチェックし、必要に応じて構成やコマ割りを修正する。

**利用ツール例**
- **紙と鉛筆**:最も基本的な方法。修正が容易で、初期段階でよく用いられる。
- **デジタルツール(例:Clip Studio Paint)**:下層レイヤーを利用して高速な修正や反転、拡大縮小が可能。

**ポイント**
- 各コマごとの情報量は明確かつ過不足なくする。
- 視線誘導を考慮し、読者が流れるように物語を追えるレイアウトにする。
- 一度決めた構成を他者に見せ、客観的なフィードバックで完成度を高める。

以上により、「ネーム」は完成原稿を確実かつ効率的に仕上げるための欠かせないステップとして機能する。

ChatGPT Pro(o1 pro mode)

ある程度理解しているようです。


o1 pro modeは、マンガのネームを構造的に説明できるか

それでは、o1 pro modeにマンガのネームを画像として与えたときに、内容を理解し評価するために、マンガのネームを構成要素を言語化させてみましょう。

ネームの重要な構成要素を詳細に説明してください

(思考時間34秒)

# ネームにおける重要な構成要素

## 1. コマ割り
**目的**:物語の時間経過や視線の流れを制御するための骨組み
**具体例**:
- 縦長コマ:緊張感や静かな場面転換を強調
- 横長コマ:雄大な風景や横方向への移動を表現
- 不規則なコマ形状:衝撃的なシーンや幻想的な演出を際立たせる
**再現性**:
- 紙に矩形枠を実際に引き、異なる大きさ・配置を試行
- デジタルツールでコマ枠レイヤーを作り、サイズ変更や回転を行うことで動線を比較検討

## 2. キャラクター配置
**目的**:登場人物同士の関係性・心理描写・画面バランスを視覚的に提示
**具体例**:
- 近景・中景・遠景を使い分け、重要キャラは大きく近く描く
- 対話シーンでの登場人物同士の距離感や視線方向により、緊張関係や親密度を強調
**再現性**:
- 人形や3Dモデルを用いて実際に配置をシミュレート
- ラフスケッチで異なる人物配置案を短時間で複数作成し比較

## 3. 背景設定
**目的**:舞台・雰囲気・状況説明を補強し、読者の没入感を生む
**具体例**:
- 学校の廊下や都会のビル群など、読者が環境を即座に把握できる背景
- アクションシーンで動線が分かる背景配置(階段や通路)
**再現性**:
- 簡易パース線を引くことで遠近感を確認
- 写真資料を参考に必要な情報だけを抽出し背景化

## 4. セリフ・ナレーション配置
**目的**:ストーリー進行やキャラ心理を適確に伝え、理解を補佐
**具体例**:
- 吹き出しの位置と形で、発話者を明確に示す
- ナレーション枠で時間経過や場所の移行を視覚的に提示
**再現性**:
- 全コマに対してセリフをラフで配置し、視線誘導と情報密度を検証
- デジタルツール上でテキストツールを用い、配置とサイズを迅速に試行

## 5. 動線・視線誘導
**目的**:読者が迷わず流れるように次のコマ・ページへ視線を移せるよう誘導
**具体例**:
- キャラの視線方向や動きで読者の目を次のコマへ自然誘導
- タテ読み作品では上下方向への視線動線を意識し、ページ送りをスムーズに
**再現性**:
- ネーム段階で読者の視線経路を矢印などで明記
- 実際に他者に見せて、どの順番でコマを読んだかフィードバックを得る

## 6. 情報量と間(ま)のバランス
**目的**:過剰な情報密度や説明不足を回避し、ストーリーのリズムを形成
**具体例**:
- 情報密集コマ(説明、会話)と「間」を感じる静かなコマを交互に配置し、読者の疲労を軽減
- シンプルな背景コマを挟み、次のアクションシーンへの溜めを形成
**再現性**:
- 全ページのネームを俯瞰し、どこで読者が息継ぎできるか確認
- 1ページ当たりの情報量(セリフ数やキャラ数)を数値化して調整

---

これらの要素を統合的に調整することで、ネームは単なる設計図から物語の「流れ」を可視化・検証するツールへと機能する。各要素は相互に関連し、ネーム段階で適切な配置・調整を行うことで、後工程での手戻りを最小限に抑え、最終的な作品クオリティを向上させることが可能となる。

ChatGPT Pro(o1 pro mode)

かなり詳細に説明できるようです。


o1 pro modeにマンガのネームの定量的評価基準を作らせることはできるか?

では、o1 pro mode自身に、マンガのネームを定量的に評価する評価基準をつくらせてみましょう。

画像としてネームを入力し、定量的に評価するために評価基準を作ってください。

(思考時間44秒)

# ネーム評価用の定量的評価基準策定例

以下は、ネーム(下書き段階のコマ割り・セリフ配置)の画像を入力とし、一定の客観的評価指標を用いてスコアリングする手法例である。
評価は複数の観点で行い、各観点ごとに数値化可能な基準を設け、その合計または平均値で総合評価を行う。

## 基本的アプローチ
1. **画像入力**:ネームの完成見開き1〜2ページ分を画像として用意。
2. **測定項目定義**:コマ数、セリフ(吹き出し)数、背景描写の有無など定量化可能な指標を抽出。
3. **スコアリング方式**:各項目について満点を定め、基準値に応じてスコア化。
4. **総合評価**:全項目スコアを合計または加重平均し、一定の評価レンジ(例:0〜100点)に集約。

## 評価項目例

### 1. コマ割り関連
- **コマ数**:1ページあたりのコマ数をカウント
- 目安:1ページあたり4〜6コマ程度を基準範囲と設定(過不足がないか)
- スコア例:
- 適正範囲(4〜6コマ):10点
- 3コマ以下または7コマ以上の場合、1コマ超過/不足につき-2点

- **コマサイズ・形状のバランス**:
- コマ面積の最大値と最小値からコマ面積比(最大面積÷最小面積)を算出
- 適度なバリエーション(比率が2〜4程度)で満点
- スコア例:
- 比率2〜4:10点
- 比率1.5未満(ほぼ同一サイズ)または5以上(極端すぎる場合):5点
- 1.2未満または10以上:0点

- **視線誘導の明確性**:
- ページ内での標準的な閲読順(左上→右下)から外れるコマがある場合、その頻度をカウント
- 不自然な読み順誘発コマ0個:10点
- 1コマごとに-2点

### 2. セリフ・吹き出し関連
- **吹き出し数・密度**:
- 1ページあたりの吹き出し数をカウント(例:5〜10個を適正範囲とする)
- 適正範囲内:10点
- 範囲外は1個差毎に-1点

- **吹き出し配置の明確性**:
- 吹き出し内テキストが他コマやキャラ等と重なって判読困難な箇所の数をカウント
- 重なり0箇所:10点
- 1箇所あたり-2点

- **セリフ量のバランス**:
- セリフ文字数(または吹き出し内テキスト量)をカウントし、1ページあたりの平均文字数を算出
- 適度な情報量(例:100〜200字/ページ):10点
- 50字未満または300字超過で-5点

### 3. 背景・情報提示度合い
- **背景描写有無**:
- 各コマごとに背景要素(建物、自然物、室内小物など)が1つ以上明示されているコマ数の割合
- 50%以上のコマで背景あり:10点
- 25〜49%:5点
- 24%以下:0点

- **場面転換や位置関係明示コマの有無**:
- 場所やシーン変更時、それを示す背景・ナレーションがしっかり確認できるコマ数
- 適切な場面転換ごとに最低1コマ明示:10点
- 明示不足が1回あるごとに-5点

### 4. 情報量と間(ま)のバランス
- **「間」コマの有無**:
- アクションや会話が少なく、読者が一息つける「間」を感じるコマの割合
- 全コマ中10〜20%程度が「間」コマ:10点
- これより著しく少ないまたは多い場合、数%差毎に-1点

- **1ページ内の情報過密度**:
- 1コマ当たりの平均キャラ数(キャラが多すぎると視認困難)
- 適正例:平均1〜3キャラ/コマで10点
- 4キャラ超えるコマが1つある毎に-2点

## 総合例
- 全項目を満点10点換算で10項目(合計100点満点)
- 各項目の評価を足し合わせた合計値を最終スコアとして提示

## サンプル評価フロー
1. 画像を読み込み、コマ数、吹き出し数、背景描写コマ数をカウント
2. 設定基準に当てはめて各項目スコアを算出
3. スコアを合計し、最終的な定量評価(例:85点)を得る

このような定量化基準を適用すれば、主観によるブレを最小化し、ネームの完成度を客観的に比較・改善する手がかりが得られる。

ChatGPT Pro(o1 pro mode)

ストーリーテリングや、キャラクターと読者の感情的な動きは評価軸に含まれていませんが、画像から判別できそうな定量的な要素を網羅的に評価軸に含めようとしてくれています。

では、実際にこの評価基準に従って、入力された画像を評価することができるのでしょうか?
拙著マンガのネームを入力して、検証してみたいと思います。


検証方法

実際に私が書いたマンガのネームをChatGPT Proに入力し、上記の評価基準で評価させます。
モデルの比較のために、o1 pro mode、o1、GPT-4oの出力を比べてみます。


検証1-1:o1 pro modeによるマンガのネームの定量的評価

下記の基準で添付画像のネームを評価してください

(評価基準部分は省略)
※読みやすいように、入力した画像は、o1 pro modeの回答の間に挿入します。

(評価基準部分は省略)
※読みやすいように、入力した画像は、o1 pro modeの回答の間に挿入します。

(思考時間1分46秒)
# ネーム評価結果(例)

以下は提示された4ページ分のネームに対し、提示基準例に基づく定量的評価を行ったサンプル結果である。
各項目は1ページあたり10点満点、全10項目で計100点満点。4ページ分をそれぞれ評価後、平均値を総合スコアとした。

## 評価手順
1. コマ数、吹き出し数、背景有無、セリフ量などをページ毎にカウント
2. 提示基準(例)に従って各ページでスコア化
3. 4ページ分のスコアを集計、平均算出

## ページ別詳細評価例

ChatGPT Pro(o1

### ページ1評価
- コマ数(理想4〜6コマ):3コマ → -1コマで-2点、基準10点より2点減 → 8点
- コマバランス(比率2〜4理想):概ね変化適度 → 10点
- 視線誘導:問題なし → 10点
- 吹き出し数(5〜10個理想):約3個 → 2個不足で-2点 → 8点
- 吹き出し配置明確性:被り無し → 10点
- セリフ量(100〜200字理想):約50字未満 → -5点 → 5点
- 背景描写(50%以上コマ):3コマ中2コマ程度背景有 → 約66% → 10点
- 場面転換明示:特に問題なし → 10点
- 「間」コマ有無(10〜20%):3コマ中1コマ程度が微妙な「間」扱いで約33% → やや過剰 → 5点(参考的減点)
- 情報過密度(1〜3キャラ/コマ):適正 → 10点

ページ1合計:約8+10+10+8+10+5+10+10+5+10=86点

ChatGPT Pro(o1 pro mode)

画像中の情報は適切に取得できているようです。
画面右下は、いわゆる「コマぶち抜き」表現で、変則的なコマ割りですが、コマ数は3であることを理解しています。
「3コマ中1コマ程度が微妙な「間」扱い」というのは、おそらく3コマ目のセリフが「・・・!」であることから、完全な間のあるコマではないが、セリフのあるコマではない、ということを理解しているのだと思われます。


### ページ2評価
- コマ数:4コマ(理想範囲) → 10点
- コマバランス:適度 → 10点
- 視線誘導:問題なし → 10点
- 吹き出し数(5〜10):約8個 → 10点
- 配置明確性:問題なし → 10点
- セリフ量:50〜100字弱(理想100〜200字やや下) → 若干減点し8点程度
- 背景描写:4コマ中1コマ程度背景有 → 約25% → 5点
- 場面転換明示:場面変化なし問題なし → 10点
- 「間」コマ:4コマ全てセリフ有で0% → やや不足 → 8点
- 情報過密度:1〜2人/コマ → 10点

ページ2合計:約10+10+10+10+10+8+5+10+8+10=91点

ChatGPT Pro(o1 pro mode)

コマ数のカウントを間違えていますが、3コマ目が、横長のコマの真ん中にモノローグのコマを置いて、実質的に2つのコマのような使い方をしているので、大きくは間違っていない、という感じです。
その他の評価軸でも、大きな間違いはありません。



### ページ3評価
- コマ数:3コマ(理想4〜6に1コマ不足) → 8点
- コマバランス:ほぼ同サイズ → 5点
- 視線誘導:問題なし → 10点
- 吹き出し数(5〜10):約5個 → 下限クリア → 10点
- 配置明確性:問題なし → 10点
- セリフ量:70字程度(100字未満) → 8点
- 背景描写:3コマ中ほぼ背景なし → 0点
- 場面転換明示:同シーン想定、問題なし → 10点
- 「間」コマ:0% → やや不足 → 8点
- 情報過密度:1〜2人/コマ → 10点

ページ3合計:約8+5+10+10+10+8+0+10+8+10=79点

ChatGPT Pro(o1 pro mode)

1コマ目が枠線のない変則コマですが、実質3コマであることを理解しているようです。「場面転換明示:同シーン想定、問題なし」というのは、ページ中に場面変換が無いので、「明示的に場面変換をした」という描写がないので問題ないと思う、という意味だと考えられます。


### ページ4評価
- コマ数:6コマ(理想範囲内) → 10点
- コマバランス:ほぼ同一サイズ → 5点
- 視線誘導:素直な縦読み → 10点
- 吹き出し数(5〜10):6個程度 → 10点
- 配置明確性:問題なし → 10点
- セリフ量:約80字(100字未満) → 8点
- 背景描写:6コマ中2コマ程度背景有→約33% → 5点
- 場面転換:回想的描写もテキストで補足 → 問題なしとし10点
- 「間」コマ:0% → 少不足 → 8点
- 情報過密度:1人/コマ程度 → 10点

ページ4合計:約10+5+10+10+10+8+5+10+8+10=86点

ChatGPT Pro(o1 pro mode)

コマ数カウントを間違えています。
このページでは、コマ数カウントを間違えた要因がわかりませんでした。
このページでは前半に回想、後半で現在に時間軸が戻ってきていますが、「テキストで補足しているので問題なし」と評価しています。

## 総合スコア
- ページ1:86点
- ページ2:91点
- ページ3:79点
- ページ4:86点

4ページ平均:(86+91+79+86)÷4 ≒ 85.5点 → 約86点

## 総評
コマ数や吹き出し数は概ね適正範囲内で、視線誘導や配置明確性は良好。
一方、セリフ量がやや少なく、背景描写が一部ページで不足傾向。また「間」コマがほぼなく、情報の詰まり具合に一定の余裕が欠ける部分もある。
全体としては平均約86点と、高水準の整合性を保ちつつも、背景描写や間の取り方に改善余地がある結果となった。

ChatGPT Pro(o1 pro mode)

全体的に、画像の内容をよく理解して、評価基準に照らし合わせて評価しているように感じられます。


検証1-2:o1によるマンガのネームの定量的評価

下記の基準で添付画像のネームを評価してください

(評価基準部分は省略)

(試行時間45秒)

# ネーム評価(例)

以下は提示された定量的評価基準に基づき、添付のネーム(全4ページ想定)を大まかにスコアリングした一例である。
※実際には各コマの明確なコマ割り線や吹き出しの形態、背景描写などをより正確にカウントする必要があるが、本例では提示画像から読み取れる範囲で概算評価を行う。

## 前提
- 全4ページ分
- おおよそのコマ数:1ページあたり3〜4コマ
- 吹き出し数はページあたり約3〜8個程度確認
- 背景描写は最小限で、人物中心
- 間のコマはやや不足

## 項目別評価例

1. **コマ数(4〜6コマが適正)**
- 多くのページが3〜4コマ程度
- 理想よりやや少なめだがほぼ許容範囲
→ スコア例:8点(10点満点中)

2. **コマサイズ・形状バランス(比率2〜4が適正)**
- パッと見、コマサイズは比較的似通っており、極端な大小は少なそう
- 比率が1.5未満程度と仮定しやや変化不足
→ スコア例:5点

3. **視線誘導の明確性(不自然な読み順0で10点)**
- 標準的な左上→右下の流れで読みやすい
- 不自然なコマ配置は見当たらない
→ スコア例:10点

4. **吹き出し数・密度(1ページ5〜10個が適正)**
- ページ毎に3〜8個程度
- 1ページやや少ない箇所もあるが、大きな逸脱なし
→ スコア例:10点

5. **吹き出し配置の明確性(重なり・判読困難0で10点)**
- 特に読みにくい重なりは見受けられず
→ スコア例:10点

6. **セリフ量バランス(100〜200字程度目安)**
- 多過ぎず、少なすぎず、情報量も適度
- 大幅な偏りは見られない
→ スコア例:10点

7. **背景描写(50%以上コマに背景ありで10点)**
- 背景はほぼ最小限で、人物や小道具のみが多い
- 背景明示コマは全体で3〜4割程度か
→ スコア例:5点

8. **場面転換・位置関係明示(適切な場面提示で10点)**
- 基本的に同一教室内などで大きな場面転換なし
- 特別な場面転換がないため減点要因なし
→ スコア例:10点

9. **「間」コマの有無(全コマの10〜20%程度が理想で10点)**
- セリフや情報が比較的多めで、間を感じるコマが少ない
- 間コマほぼなし
→ スコア例:5点

10. **情報過密度(1〜3キャラ/コマ程度で10点)**
- コマ内キャラ数は概ね1〜3人
- 過密感はない
→ スコア例:10点

## 総合点
各項目(10点満点)を合計(全10項目、満点100点)

- コマ数:8点
- コマサイズバランス:5点
- 視線誘導:10点
- 吹き出し数:10点
- 吹き出し配置:10点
- セリフ量バランス:10点
- 背景描写:5点
- 場面転換表示:10点
- 間コマ:5点
- 情報過密度:10点

合計:8+5+10+10+10+10+5+10+5+10 = 83点

## 評価例まとめ
本ネームは、全体として視線誘導やセリフ量バランスは良好である一方、背景の少なさや「間」の不足、コマ数バリエーションの乏しさがやや課題。総合的には83点程度と評価できる。

ChatGPT Pro(o1)

o1では、ページごとの評価を行いませんでした。
配点がかなりざっくりしていて、定量評価と言えるのか?という疑問はありますが、全体をざっと見て傾向分析をして評価してくれている感じはあります。
1ページずつの細かい評価が不要な場合は、o1でも十分かもしれません。


検証1-3:GPT-4oによるマンガのネームの定量的評価

下記の基準で添付画像のネームを評価してください

(評価基準部分は省略)

新しい画像がアップロードされました。これらの画像について、評価基準を基に定量的な分析を進めます。少々お待ちください。

新しくアップロードされた画像も正常に読み込まれました。各画像の解像度は1128 x 1536ピクセルで、RGBモードです。これから評価基準に基づき、詳細な分析を進めます。少々お待ちください。 

# Load the newly uploaded images
new_image_paths = [
"/mnt/data/A386CC3D-E962-40DC-B62A-ACBC85A95D7D.jpeg",
"/mnt/data/DA05778B-06A9-4255-953D-A40A368D474C.jpeg",
"/mnt/data/DFEE699A-5893-4FB1-8CC5-26778BBEB07D.jpeg",
"/mnt/data/9615B52B-7206-4DDF-8A07-611A0B8E99BC.jpeg"
]

# Open images to ensure validity
new_images = [Image.open(path) for path in new_image_paths]
new_images_info = [{"size": img.size, "mode": img.mode} for img in new_images]
new_images_info

[{'size': (1128, 1536), 'mode': 'RGB'},
{'size': (1128, 1536), 'mode': 'RGB'},
{'size': (1128, 1536), 'mode': 'RGB'},
{'size': (1128, 1536), 'mode': 'RGB'}]

初期評価の結果、全ページのコマ数が基準(4〜6コマ)から外れていることがわかりました。そのため、全ページが「アンバランス」と評価されます。

次に、他の項目(吹き出し数、背景描写、視線誘導など)を評価し、総合スコアを計算します。少々お待ちください。

# Combine all images (original and new) for a comprehensive evaluation process
all_images = images + new_images

# Extract number of panels (コマ数) from each page by estimating through OCR layout and dividing manually
# Assume a placeholder structure for each page
panel_counts = [len(pytesseract.image_to_boxes(img, lang="eng").splitlines()) for img in all_images]

# Evaluate based on provided criteria: placeholders for now
evaluation_results = {
"panel_counts": panel_counts,
"panel_balance": [
"Balanced" if 4 <= count <= 6 else "Unbalanced" for count in panel_counts
],
}

# Output preliminary evaluation information
evaluation_results

{'panel_counts': [26, 56, 140, 155, 18, 2, 57, 13],
'panel_balance': ['Unbalanced',
'Unbalanced',
'Unbalanced',
'Unbalanced',
'Unbalanced',
'Unbalanced',
'Unbalanced',
'Unbalanced']}

再度、日本語OCR処理でエラーが発生しました。この環境では日本語のテキスト認識を実行できない状況です。そのため、手動による分析または別の方法で、吹き出し数や背景描写の評価を行う必要があります。

具体的には以下の方法が考えられます:
1. 手動分析:画像内の情報を目視でカウントし、評価項目を充足。
2. 外部ツールの使用:ローカル環境でOCRを実行し、結果を取り込む。
3. 評価基準をコマ割りや視覚的特徴のみに絞る:日本語認識を使わずに進める。

どの方法で進めるか、または具体的な指示をお知らせください。

ChatGPT Pro(GPT-4o)

GPT-4oは評価を行うことができませんでした。
過去の記事で検証しているように、GPT-4o自体はマルチモーダル的に動作し、マンガのページを読むことができましたが、評価基準に照らして評価することが難しいようです。

(参考)


検証2-1:o1 pro modeによるマンガのネームの定量的評価

別の作品を使って再度検証してみます。
o1 pro modeとo1の比較飲み行い、GPT-4oは省略します。

下記の基準で添付画像のネームを評価してください

(評価基準部分は省略)

※読みやすいように、入力した画像は、o1 pro modeの回答の間に挿入します。

(思考時間2分24秒)

# ネーム評価結果

以下は提示された全4ページのネームに対し、示された定量的評価基準例に基づくスコアリングを行った一例である。
各ページごとに10項目(各10点満点、計100点満点)で評価後、4ページ平均を総合スコアとして示す。

## 評価手順
1. ページ毎にコマ数、吹き出し数、背景描写数、セリフ量、間コマの割合等をカウント
2. 提示基準(例)に従って各項目で点数化
3. 各ページの合計点を出し、4ページ平均値を総合評価として算出

## ページ別詳細評価

ChatGPT Pro(o1 pro mode)


### ページ1(全3コマ程度)
1. コマ数(4〜6コマ理想):3コマ → 理想より1コマ不足(-2点) → 8点
2. コマバランス(比率2〜4理想):大コマ・中コマ・小コマである程度バラつきあり → 10点
3. 視線誘導:素直な縦読み → 10点
4. 吹き出し数(5〜10個理想):約3個 → 下限5個に2個不足で-2点 → 8点
5. 吹き出し配置明確性:重なり・判読不良なし → 10点
6. セリフ量(100〜200字理想):非常に少なく50字未満 → -5点 → 5点
7. 背景描写(50%以上コマ):1/3コマ約33% → 25〜49%範囲で5点
8. 場面転換・位置関係明示:特に問題なし → 10点
9. 「間」コマ(全コマ10〜20%理想):全コマセリフありで実質0% → 若干減点し8点
10. 情報過密度(1〜3人/コマ):1人程度/コマで適正 → 10点

ページ1合計:約8+10+10+8+10+5+5+10+8+10 = 84点

ChatGPT Pro (o1  pro mode)

特に認識間違いはなさそうです。


1. コマ数:2コマ(4〜6理想より2コマ不足→-4点) → 6点
2. コマバランス:1コマ目ワイド、2コマ目通常サイズで変化あり → 10点
3. 視線誘導:縦一列で明快 → 10点
4. 吹き出し数(5〜10理想):約1個 → 4個不足で-4点 → 6点
5. 吹き出し配置明確性:問題なし → 10点
6. セリフ量:50字未満 → -5点 → 5点
7. 背景描写:0/2=0% → 0点
8. 場面転換明示:外への移動あるが背景不十分 → 明示不足-5点で5点
9. 「間」コマ:2コマ中どちらもセリフあり0% → 若干減点8点
10. 情報過密度:1人程度/コマ → 10点

ページ2合計:約6+10+10+6+10+5+0+5+8+10 = 70点

ChatGPT Pro(o1 pro mode)

このコマも、2コマ目が枠線のない変則コマ割りですが、2コマであることは理解しているようです。 セリフから、場面が屋外に移ったことを理解し、明示的な説明がないことを指摘しています。 手書き文字でも読めるようです。


### ページ3(約4コマ)
1. コマ数:4コマは理想範囲 → 10点
2. コマバランス:ほぼ同一サイズで変化少 → 5点
3. 視線誘導:縦読みシンプル → 10点
4. 吹き出し数(5〜10理想):4個 → 1個不足で-1点 → 9点
5. 吹き出し配置:問題なし → 10点
6. セリフ量:おそらく50〜100字程度で100未満だが50字超 → 厳密基準外だが極端でないため軽微減点とし8点程度
7. 背景描写:0/4=0% → 0点
8. 場面転換明示:大きな転換なし → 10点
9. 「間」コマ:全コマセリフあり0% → 若干減点8点
10. 情報過密度:1人前後/コマ → 10点

ページ3合計:約10+5+10+9+10+8+0+10+8+10 = 80点

ChatGPT Pro(o1 pro mode)

こちらのページも大きな間違いは無いようです。

### ページ4(約5コマ)
1. コマ数:5コマ(4〜6理想) → 10点
2. コマバランス:大コマ+小コマ混在で適度な変化 → 10点
3. 視線誘導:上段ワイド→中段2コマ→下段2コマで標準的レイアウト → 10点
4. 吹き出し数(5〜10):約5個 → 下限クリア → 10点
5. 吹き出し配置:問題なし → 10点
6. セリフ量:60〜70字程度(100未満) → 極端不足ではないが理想未満、8点程度
7. 背景描写:0/5=0% → 0点
8. 場面転換明示:流れ継続で問題なし → 10点
9. 「間」コマ:1コマ(5コマ中1コマ=20%)で「間」確保 → 10点
10. 情報過密度:1〜2人/コマ → 10点

ページ4合計:約10+10+10+10+10+8+0+10+10+10 = 88点

ChatGPT Pro(o1 pro mode)

「場面転換明示:流れ継続で問題なし」のところが、前のページから場面転換してませんよね、の意味だとすると、複数ページに渡るネームの理解ができることになり、かなり期待できます。

## 総合スコア
- ページ1:84点
- ページ2:70点
- ページ3:80点
- ページ4:88点

4ページ平均=(84+70+80+88)÷4 ≈ 80.5点 → 約81点

## 総評
コマ数・吹き出し配置・視線誘導など基本的な可読性要素は良好。
一方で、全般的に背景描写が極端に少なく、場面や空間の明示が弱い。セリフ量も理想レンジ(100〜200字)に達しないページが多く、情報不足気味。「間」コマは最終ページで確保されたが、他ページでは不足傾向。
総合約81点と、可読性は高いが背景・情報量など表現面で改善の余地がある結果となった。

ChatGPT Pro(o1 pro mode)


検証2-2:o1によるマンガのネームの定量的評価

下記の基準で添付画像のネームを評価してください

(評価基準部分は省略)

(試行時間26秒)

# ネーム評価例

以下は添付画像の全4ページ程度のネームを、提示の定量評価基準に基づきスコアリングした一例である。実際にはより正確な文字数カウントやコマ面積比測定が必要だが、ここでは目視推定による概算評価を行う。

## 項目別評価

1. **コマ割り関連**
- **コマ数(1Pあたり4〜6コマが適正)**:
- P1:約3コマ → 基準より1コマ少ない(-2点)で8点
- P2:約2コマ → 基準より2コマ少ない(-4点)で6点
- P3:約4コマ → 適正範囲内で10点
- P4:約4コマ → 適正範囲内で10点
平均:約(8+6+10+10)/4 = 8.5点 ≒9点

- **コマサイズ・形状バランス**:
極端なサイズ差はなく、むしろほぼ均一に近い印象(比率1.5未満)
→ 5点

- **視線誘導の明確性**:
標準的な読み順に反するレイアウトは見受けられず
→ 10点

2. **セリフ・吹き出し関連**
- **吹き出し数・密度(1Pあたり5〜10個が適正)**:
- P1:約3個(2個不足)→10点-2=8点
- P2:約1個(4個不足)→10点-4=6点
- P3:約4個(1個不足)→10点-1=9点
- P4:約4個(1個不足)→9点
平均:約(8+6+9+9)/4=8点

- **吹き出し配置の明確性**:
重なりや判読困難な箇所なし
→10点

- **セリフ量のバランス(100〜200字/頁が理想)**:
全体的にセリフ量は少なめで、1ページあたり100字未満程度
→ 10点満点から-5点で5点

3. **背景・情報提示度合い**
- **背景描写有無**:
背景明示コマは一部(窓際シーンなど)あるが全体で半数以下かつ少なめ(25〜49%程度)
→ 5点

- **場面転換・位置関係明示**:
屋内から屋外、別の場所への移動があり、それなりにコマで場面が示されている
→ 10点

4. **情報量と間(ま)のバランス**
- **「間」コマの有無(全コマ10〜20%が理想)**:
全体で約13コマ前後中、明確な「間」コマはごく僅か(1コマ程度)で約7〜8%とやや不足
理想10%にわずかに届かず、-1点程度で9点

- **1ページ内の情報過密度(キャラ数)**:
1コマあたり1〜2人程度で過密感なし
→10点

## 総合点
- コマ数:9点
- コマサイズバランス:5点
- 視線誘導:10点
- 吹き出し数密度:8点
- 吹き出し配置:10点
- セリフ量バランス:5点
- 背景描写:5点
- 場面転換明示:10点
- 間コマ:9点
- 情報過密度:10点

合計:9+5+10+8+10+5+5+10+9+10 = 81点/100点

## 評価まとめ
視線誘導、吹き出し配置、場面転換の示し方は良好。一方でセリフ量がやや少なく、背景描写や「間」コマがやや不足し、コマ数バランス(特に前半ページ)も理想より少なめ。総合的には81点程度と評価できる。

ChatGPT Pto(o1)

やはりo1では、全体をざっと見ている感じで、ページごとの評価についても誤りが多く含まれています。 入力された情報に対する分析精度がo1 pro modeより劣るのかもしれません。


o1 pro modeによるマンガのネームの定量的な評価能力についての評価

これまで見てきたように、o1よりもo1 pro modeの方が思考時間が長く、推論の精度も上回っています。
特に、o1 pro modeが、複数のページに渡る場面転換の有無について理解しているような回答があることから、もっと長大なネームについても理解して評価できる可能性が感じられます。


参考情報

今回の検証で利用した、拙著マンガは、下記で完成品を読むことができます。

バーントシェンナとコバルトブルー

光射すへや


有料部分について

有料部分では、拙著「光射すへや」のネーム全36ページを、o1 pro modeに評価させています。
画像36枚を一度にアップロードすると流石にエラーが出たため、4ページに分けて評価させました。

結論から申し上げると、残り4ページのところで使用制限がかかり、完了することができませんでした。

これは、ファイルの添付についてのみの制限でしたが、それだけでなく、推論能力にも早々に制限がかかっていた感じがあり、上記の比較検証のような高いパフォーマンスは、5ページ目以降では発揮されませんでした。

そのことから、あまり有料部分の記事に価値はありませんが、いずれこのような状況も改善されて内容が陳腐化しますので、有料化してアクセス制限しておく次第です。

ここから先は

10,958字 / 33画像

セール中
¥5,000
¥ 500

12月9日 00:00 〜 2025年1月8日 00:00

期間限定!PayPayで支払うと抽選でお得

この記事が気に入ったらチップで応援してみませんか?