5月13日にローンチされ、その進化を称賛されているGPT4oですが
その特徴に
マルチモーダル化(音声/動画への対応)
人間らしいスムーズな会話
の2つが挙げられます
という事で、さっそくコンテンツ生成AIとしての可能性をテストしました
…が、結果だけ先にお伝えすると「全自動でキャラ動画とかまだ無理ゲー!」です😅
まだまだ発展途上、本記事は試行錯誤の現在地確認レポートです!
お題「イルカのバーテンダー」
に対してGPT4oが創造した
キャラクターたち
Dino|ディーノ
Pearl|パール
Marlin|マーリン
Luka|ルカ
今回の視点は「プロンプトによって具体的な指示を与えずにGPT4oは気の利いたコンテンツを作れるか?」
〈条件〉
● 具体的な例示によるディレクションや生成ガチャを入れない
● シンプルなプロンプトによるCoTのみ
● サクっと1h以内でどこまで作れるか試す
● お題は「イルカのバーテンダーのキャラクター」
ゴールイメージは「一般ユーザーの無邪気な雑リクエストから、いい感じのキャラ動画をじゃんじゃんパターン生成してくれるサービス」
かなり遠くの世界に感じますが…
GPT4oとの実際のやりとり
▼Q.
新たなイルカのバーテンダーのキャラクターを考えてくれ
▼Q.
縦横比は16:9、設定にふさわしい画風で描画してくれ
▼Q.
同じデザインで他のポーズを取らせてみてくれ
▼Q.
このキャラクターはどのようなトーンで話すのか?
▼Q.
何かお客さんに語り掛けるセリフを考えてくれ
自己紹介やお店の紹介など
▼Q.
ここまでのキャラクターの設定、デザイン、セリフ例に従った、一分間の動画の文字コンテを生成せよ
▼Q.
各カットの詳細な画像生成用のプロンプトを設計せよ
Dall-Eの生成ポリシーに反する指定はするな
CONSISTENCY
各カット共通で、キャラクターの詳細なルックスは一字一句たがわずに同じ指定をくりかえせ
カットごとに舞台の設定を共通で詳しく描写して設定せよ
動画としてのルックのテイストがぶれないように同一の設定を指定せよアニメなのか実写なのか、デフォルメなのか写実なのか、既存の作品を例に挙げて何風のテイストなのか
全カットに同じ縦横比同じ解像度を指定せよ
VARIATION
UNIFY
▼Q.
各シーンをプロンプト通りに生成せよ
ただしキャラクター設定画像のデザインに忠実に描くこと
▼以下 GPT4oの出力
▼Q.音楽生成aiに入力する、
この映像にふさわしいBGMのプロンプトを英語で出してくれ
各出力を人力で統合した動画が
こちら
バーテンダー・Dino|ディーノ
プロンプトによる明確なディレクションとガチャ出力による選別(チェリーピック)がなければ、現状このあたりが限界でしょう
GPT4oでもコンテンツの一発生成ははるか未来のようです
特にDall・Eの描画におけるキャラや背景の同一性の保持に難があります
GPTがDall・Eに出力している生成プロンプトを確認すると、そもそも同一性を維持するための要件が何なのかを的確に把握していません
人間が世界どのように視覚で認識しているか、その学習が現状の基盤モデルには決定的に不足している事が伺えます
結果、CoTでセミオート生成させたプロンプトも、キャラクターに関する箇所は具体的・統一的になるようにこちらで操作しています
これは今年後半のローンチを期待されているSoraでも実はかなり苦戦している部分のようです
とはいえ、異なる出力における同一性の維持は、画像生成AIにおいてもあまり解決されていない領域なので、Dall・Eのプロンプト操作だけで「ある程度」同じような画を連続して出せているのは、この一年でかなり前進したともいるでしょう
なお今回は「人為的な演出は入れない」という実験条件でしたが、出力を繋げてみると流石に素のまますぎて公開するのが忍びないので、以下の調整だけ人力で追加しました
ガチャを回して他の世界線へ!
AIをキャラ創造に使うメリットとは何でしょうか?
大量にプロトタイプを作る事で思わぬ可能性に出会える、つまり「偶有性(contingency)」を爆上げするというのが挙げられます
ここで言う偶有性とは、平たく言えば「ありえたかもしれない未来」「異なる世界線」というような文脈です
ということでここまで挙げた一連の工程を、ガチャのように回した偶有性爆上げ実験の結果がこちら!
Pearl|パール
女性バーテンダーの「パール」
そこはかとなくキャバ嬢っぽいキャラデザに多少の違和感を感じますが
なかなかキャラが立っているのではないのでしょうか!
「女性イルカのバーテンダー」というのは想定外だったので、AIのニュートラルさに盲点を諭されました
セリフの内容は無味乾燥すぎて、なんだか地方CMみたいですね 笑
Marlin|マーリン
イケメン無頼バーテンダーの「マーリン」
ディズニーシーのアトラクションとかにありそうな雰囲気になりました
こういう海賊系無頼キャラみたいなのは、オーソドックスなようでいて、尾田栄一郎先生以外の日本人があまり考えない方向性のキャラクターかもしれません
これもまた偶有性ですね
Luca|ルカ
南国魔法使い風のルカ
自分はこのルカが一番お気に入りです
この動画が一番カクテルを飲んでみたい気にさせられました
実はこのLucaだけ少しプロンプトをいじっていて、MBTIの類型からキャラクターを考えるよう、少しだけディレクションを入れています
その効果が出ている気がします
▼生成作業のまとめ
全体的にやはり自動生成実用化への一番のネックはコンシステンシーですね
現状、ここにこだわり始めるとAIを使わない場合より時間がかかったりします
とはいえ、1年前は今回の実験のような生成法は全くできませんでした
あっという間に次の技術が出てくるのは明らかすぎるので
引き続き定期的に実験していきたいです!
今後の課題:
コンテンツ改善のフィードバックをAI内で回せるか?
AIによるコンテンツ生成の自動化には、生成したコンテンツのアセスメント(評価)能力が重要になってくるだろうと予想しています
GPT 4oはマルチモーダルモデルになったという事なので、自己の生成した動画を評価できるかを試してみましょう
Q.これはエンタメ動画だ。エンタメ動画としての総合的なコンテンツの分析を行え
いかにも考えている風に
長々と講釈垂れていますが
これは何も把握できてない
パターンのやつですね・・・
ほんの数ヶ月前は比較対象がなかったので
こういうGPTお得意のはぐらかしにもなんとなくケムに巻かれてましたが
今は違います
あんなにダメな子だったGoogleのAIが急成長した姿「Gemini」があります
以下Gemini Pro1.5の分析です
そこそこ合っています
立派になったよ・・・
Geminiはビジネス視点でお堅い分析をする癖があるので方向性が少しズレてますが、GPT4oよりはるかに見えているし聞こえているようです
更に、本当に全てを認識できているのか精査します
▼Q.
全てのシーンを詳細に字コンテに起こせ
尺が短いので、カットの脱落がおきないように画像のサンプリングは細かくたくさん行え
把握率は65%~75%ぐらいでしょうか
「カットの切り出しを細かくやれ」と指示したせいか、存在しないカットやセリフ、SEをハルシネーションしている箇所があります
指示をシンプルに変更します
▼Q.
全てのシーンを詳細に字コンテに起こせ
多少ましになりましたが、勝手にシーン6をハルシネーションしています
残念ながらちょっとまだ実用化には遠いですね
現状のAIは、ビジネスの実務で使っていても感じるのですが
動画や音声からの読み取りはまだ「大意」を掴むので精一杯のようです
キャラクターという概念の理解度
最後にダメ押し、
GPT4oに戻ってキャラクター理解の解像度をチェックします
GPTがDall-Eを使って出力した「Luca」のコンシステンシーが甘い画像3点を再度読み取らせます
▼Q.
この3つの画像は同じシーンにおける同一キャラクターか?
▼Q.
同一の時間帯に広い室内の異なる場所で撮影された画像だと想定しても、同じキャラクターと考えるか?
細かい点に丁寧に着目して判断せよ
なるほど・・・
だいたい人間におけるおばあちゃんレベルのキャラ判別能力かな、というところですね
やはりまだ道のりは遠そうです!研究は続く!