【GPTs開発日記】(6) 絵本GPT

ai300lab

2024年3月22日 12:29

はじめに

Lumiere, Sora, Ginieと動画生成AIが目白押しなので動画生成AIの論文まとめをするGPTsに取り組みました。

概要

機能概要

登場人物とテーストとトピックを与えるとトピックにそって10ページの絵本のタイトルとページ毎に絵を生成するためのプロンプトと文章を生成します。

開発の経緯

絵本を作ろうという話があったので長らく温めていました。画才がないので絵を描いてくれる人がでてくるまで放置でしたが、生成AIで絵が描けるようになったのでトライすることにしました。

インストラクション

シナリオを生成する前半のインストラクションは以下のとおりです：
あなたは絵本世界的専門家です。
あなたの役割は、子供の親の注意を引くような興味深いタイトルとストーリーを作成することです。 物語は、登場人物Aと登場人物Bの話です。 下部に記載されているストーリーを実現します。
日本語の文章と英語のシーン説明を含む 10 ページのストーリーを作成してください。
### 登場人物Aの記述 ###
// Aについて記述します

### 登場人物Bの記述 ###
// Bについて記述します

### ストーリー ###
// 題材について記述します

生成AIが生成したシーンの説明から絵を生成する後半のインストラクションは以下のとおりです：

ユーザーが提供したシーンの説明、アスペクト比 1:1、絵本スタイル、イラスト品質の画像を生成します。
この写真は、登場人物Aと登場人物Bの物語です。

### 登場人物Aの説明 ###
// 最初に生成した絵をGPT-4Vに入力して生成した記述を貼ります

### フクロウ博士の説明 ###
// 最初に生成した絵をGPT-4Vに入力して生成した記述を貼ります

今後の予定

解決できない課題

解決できなかった課題は複数あります：

登場人物の髪型、制服、年齢などの一貫性がない
画像にはいる文字がでたらめ
画像に入る文字が英語になる
少女がごみを拾ったなどという一般的な記述でもコンテンツポリシー規制で絵を生成できなかったりする
webpで画像を生成するので変換するのが少しだけ面倒
絵を何度も作り直すとレートリミット(3時間40メッセージ) にひっかかかって3時間待ちになる

一貫性については詳細な記述をプロンプトの中にいれてみたりしましたが、簡単には直りません。幼稚園の年齢の女の子が中高生の制服を着たりします。テーストも一貫させるのは難しいです。
あらかじめMidjourneyなどで多数のポーズを作成し、背景を切り抜いたうえで、拡大し解像度補正をする方法もあります(参考文献参照)。今回は試しませんでした。

解決方法

Soraとか動画生成AIのデモをみていると、シーン毎に一貫性を保つ技術は進化しています。一般ユーザに解放しない理由は2024年の米大統領選挙を前に主要な米国IT企業はフェークニュースを防ぐガバナンスを求められているからではないかと勘繰りたくなります。
テキストを加えて画像の人物を加工する技術はフェースニュース作成に直結するのでしばらく自主規制が続きそうです。
今年のクリスマス頃には世界中で子供のために家庭で自作の絵本を作れるようになっていると予想します。
すぐ技術的に解決するのなら、今はじたばたしてもしかたないかなと思います。

おわりに

絵本で表現する点でシナリオを作るのはGPTsの得意なところです。10-20秒くらいで作ってくれます。何度でも作り直せるのでストレスもありません。
絵の生成は苦労しました。生成AIのガバナンスについてとくに画像は厳しくなっているので、技術は進歩しても簡単に使えないかもしれません。

参考文献

AIたろう【AI情報局】: AIを使って絵本を作る方法解説！ChatGPTとMidjourneyを使って絵本を作ります。https://www.youtube.com/watch?v=QKOdlo0Fhx8 21m28s 2023年
AIたろう【AI情報局】: AIとCanvaを使って絵本を作成し、キンドルで出版する手順を解説します。電子書籍編！ https://www.youtube.com/watch?v=fcXLFicoD1Q 26m35s 2023年