＜AI生成チャレンジ＞GPTでイルカキャラ動画を全自動で作る！

メイ博士のAIエンタメラボ

2024年5月24日 20:08

https://wired.jp/article/openai-gpt-4o-model-gives-chatgpt-a-snappy-flirty-upgrade/

5月13日にローンチされ、その進化を称賛されているGPT4oですが
その特徴に

マルチモーダル化（音声/動画への対応）
人間らしいスムーズな会話

の２つが挙げられます

という事で、さっそくコンテンツ生成AIとしての可能性をテストしました
…が、結果だけ先にお伝えすると「全自動でキャラ動画とかまだ無理ゲー！」です😅
まだまだ発展途上、本記事は試行錯誤の現在地確認レポートです！

お題「イルカのバーテンダー」
に対してGPT4oが創造した
キャラクターたち

Dino｜ディーノ

Pearl｜パール

Marlin｜マーリン

Luka｜ルカ

今回の視点は「プロンプトによって具体的な指示を与えずにGPT4oは気の利いたコンテンツを作れるか？」

〈条件〉
● 具体的な例示によるディレクションや生成ガチャを入れない
● シンプルなプロンプトによるCoTのみ
● サクっと1h以内でどこまで作れるか試す
● お題は「イルカのバーテンダーのキャラクター」

ゴールイメージは「一般ユーザーの無邪気な雑リクエストから、いい感じのキャラ動画をじゃんじゃんパターン生成してくれるサービス」
かなり遠くの世界に感じますが…

GPT4oとの実際のやりとり

▼Q.
新たなイルカのバーテンダーのキャラクターを考えてくれ

▼ GPT4oの出力
------------------
イルカのバーテンダー「ディーノ」は、海の底にあるシックなカクテルバー「ブルーラグーン」のオーナー兼バーテンダーです。ディーノは常に笑顔で、流れるような動きでシェイカーを振る姿が印象的。彼の特技は、ゲストの気分に合わせて完璧なカクテルを作ること。ディーノの背びれには特注のバーテンダーベストがぴったりとフィットし、バーの雰囲気を一層引き立てます。

ディーノの特徴:名前: ディーノ
年齢: 30代前半
性別: 男性
外見: つややかな青い肌、大きな笑顔、特注のバーテンダーベストと蝶ネクタイを身に着けている。
性格: フレンドリーでユーモアたっぷり、聞き上手で、お客様の話に耳を傾けるのが大好き。
特技: カクテル作りの名人で、特にお客様の気分に合わせたオリジナルカクテルを作るのが得意。
趣味: カクテルのレシピを研究すること、ジャズ音楽を聴くこと、友人とダンスを楽しむこと。

ディーノのストーリー:

ディーノは元々は旅するパフォーマーで、海中の様々な場所でショーを行っていました。ある日、訪れた海底都市で見つけた古いバーに魅了され、そこでバーテンダーとしてのキャリアをスタートさせました。彼のカクテルは瞬く間に評判を呼び、「ブルーラグーン」は海中のオアシスとして知られるようになりました。

ディーノのバーには常連客が多く、彼らとの絆も深い。彼はお客様一人ひとりの好みを覚え、常に最高のサービスを提供することを心掛けています。

▼Q.
縦横比は16：9、設定にふさわしい画風で描画してくれ

▼Q.
同じデザインで他のポーズを取らせてみてくれ

▼Q.
このキャラクターはどのようなトーンで話すのか？

▼ GPT4oの出力
------------------

ディーノは温かみがあり、親しみやすいトーンで話します。彼の声は心地よい低音で、落ち着きと安心感を与えるような話し方です。いつも笑顔を絶やさず、ゲストに対して丁寧かつフレンドリーな態度を保ちます。彼の言葉遣いは丁寧で、特にお客様の話に耳を傾けるときは、共感を示しながら、ユーモアを交えて会話を楽しむことが多いです。

ディーノの話し方の例:
「ようこそ『ブルーラグーン』へ！今夜はどんなカクテルが飲みたい気分ですか？」
「その話、面白いですね！もう少し聞かせてください。」
「新しいカクテルを試してみませんか？きっと気に入っていただけると思いますよ。」
「ここでリラックスして、素敵なひとときを過ごしてくださいね。」

ディーノの声と話し方は、ゲストに安心感と特別感を与えることを大切にしています。

▼Q.
何かお客さんに語り掛けるセリフを考えてくれ
自己紹介やお店の紹介など

▼ GPT4oの出力
------------------

もちろんです。以下に、ディーノが新しいお客様に自己紹介やお店の紹介をするセリフの例をいくつかご提案します。
------------------------
ディーノの自己紹介:
「ようこそ、『ブルーラグーン』へ！私はこのバーのオーナー兼バーテンダー、ディーノです。海の中で一番リラックスできる場所を提供することを目指しています。」

お店の紹介:
「ここ『ブルーラグーン』では、さまざまなカクテルをご用意しています。お客様一人ひとりの好みに合わせたドリンクを作るのが私の特技です。どんな気分か教えていただければ、ぴったりの一杯をお作りします。」

カクテルのおすすめ:
「もしよければ、今夜のおすすめカクテルを試してみませんか？フレッシュな海藻とライムを使った特製マリンモヒートです。リフレッシュできる味わいですよ。」

雰囲気について:
「このバーは、海の美しさと静けさを感じられるようにデザインしました。キャンドルの灯りとジャズ音楽が、最高のリラックスタイムを演出します。」

サービスへのこだわり:
「私たちのバーでは、お客様一人ひとりが特別な時間を過ごせるよう心がけています。何かご要望があれば、どうぞお知らせくださいね。」

ディーノのこのような親しみやすく丁寧な話し方で、新しいお客様もすぐにリラックスしてお店を楽しむことができるでしょう。

▼Q.
ここまでのキャラクターの設定、デザイン、セリフ例に従った、一分間の動画の文字コンテを生成せよ

▼ GPT4oの出力
------------------
もちろんです。以下にディーノが新しいお客様を迎える一分間の文字コンテを作成しました。

シーン1: お客様がバーに入る
(カメラが「ブルーラグーン」の外観を映し、ドアが開く音が聞こえる。次に、カメラがバーの内部を映し出し、心地よいジャズ音楽が流れている。ディーノがカウンターの後ろでカクテルを作っている。)

ディーノ: (笑顔で) いらっしゃいませ！ようこそ、『ブルーラグーン』へ！
------------
シーン2: ディーノが自己紹介をする
(カメラがディーノにクローズアップする。ディーノはシェイカーを振りながら話しかける。)

ディーノ: 私はこのバーのオーナー兼バーテンダー、ディーノです。海の中で一番リラックスできる場所を提供することを目指しています。
------------
シーン3: お店の紹介をする
カメラがバーの内部をパンして、色とりどりのボトルが並んだ棚やキャンドルの灯り、くつろいだ雰囲気のゲストたちを映し出す。ディーノの声がオフスクリーンで聞こえる。

ディーノ: ここ『ブルーラグーン』では、さまざまなカクテルをご用意しています。お客様一人ひとりの好みに合わせたドリンクを作るのが私の特技です。
------------
シーン4: おすすめカクテルの紹介
(カメラがディーノに戻り、ディーノが新しいカクテルをシェイカーからグラスに注ぐ。)

ディーノ: 今夜のおすすめカクテルを試してみませんか？フレッシュな海藻とライムを使った特製マリンモヒートです。リフレッシュできる味わいですよ。
------------
シーン5: サービスのこだわり
(ディーノがカウンター越しにお客様にカクテルを差し出し、温かい笑顔を見せる。)

ディーノ: 何かご要望があれば、どうぞお知らせくださいね。お客様一人ひとりが特別な時間を過ごせるよう心がけています。

(シーン終了。カメラがバー全体の雰囲気を再度映し、ディーノが別のゲストに話しかける様子を映し出す。)
------------
これで一分間の文字コンテが完成しました。このシーンを通じて、ディーノの親しみやすさとお店の魅力がしっかり伝わるように工夫しています。

▼Q.
各カットの詳細な画像生成用のプロンプトを設計せよ
Dall-Eの生成ポリシーに反する指定はするな

CONSISTENCY

各カット共通で、キャラクターの詳細なルックスは一字一句たがわずに同じ指定をくりかえせ
カットごとに舞台の設定を共通で詳しく描写して設定せよ
動画としてのルックのテイストがぶれないように同一の設定を指定せよアニメなのか実写なのか、デフォルメなのか写実なのか、既存の作品を例に挙げて何風のテイストなのか
全カットに同じ縦横比同じ解像度を指定せよ

VARIATION

各カットに明確な演出意図をもたせよ
画面のサイズとアングルをその演出意図に沿わて、映像としての展開を意識してメリハリとリズムをつけて適切に変化させよ

UNIFY

CONSISTENCYとVARIATIONが両立するように、キャラクターのふるまい、演技、雰囲気を詳細に指定せよ
各カットのセリフにそった画になるように設計せよ

▼ GPT4oの出力
------------------
シーン1: お客様がバーに入る
プロンプト: Create a detailed scene of an underwater bar called 'Blue Lagoon' with an inviting and cozy ambiance, similar to the magical realism seen in animated films like Disney's "Finding Nemo." The bar features dim lighting, colorful bottles on the shelves, and marine creatures as patrons. An anthropomorphic dolphin bartender named Dino stands behind the bar, welcoming guests. Dino has a sleek blue body, a big smile, and wears a custom bartender vest with a bow tie that fits perfectly on his fin. The camera angle should show the exterior of the bar with the door opening and the cozy interior visible through the door.
（『ブルーラグーン』という名前の水中バーの詳細なシーンを作成してください。このバーは、ディズニーの「ファインディング・ニモ」のようなアニメ映画に見られる魔法のようなリアリズムと似た、魅力的で居心地の良い雰囲気を持っています。バーには暗めの照明があり、棚には色とりどりのボトルが並んでおり、海洋生物たちが常連客です。擬人化されたイルカのバーテンダー、ディノがバーの後ろに立ち、ゲストを迎えています。ディノはスリムな青い体と大きな笑顔を持ち、フィンにぴったりと合ったカスタムバーテンダーベストと蝶ネクタイを着用しています。カメラアングルは、ドアが開く外側のバーを見せ、そのドア越しに居心地の良い内部が見えるようにするべきです。）
サイズと解像度: サイズ: 1792x1024
------------
シーン2: ディーノが自己紹介をする
プロンプト: Create a close-up scene of an anthropomorphic dolphin bartender named Dino in the underwater bar 'Blue Lagoon.' Dino has a sleek blue body, a big smile, and wears a custom bartender vest with a bow tie that fits perfectly on his fin. He is shaking a cocktail shaker while talking. The bar features dim lighting, colorful bottles on the shelves, and marine creatures as patrons. The style should be similar to Disney's "Finding Nemo," with a focus on Dino's friendly and welcoming expression.
（水中バー『ブルーラグーン』で、擬人化されたイルカのバーテンダー、ディノのクローズアップシーンを作成してください。ディノはスリムな青い体と大きな笑顔を持ち、フィンにぴったりと合ったカスタムバーテンダーベストと蝶ネクタイを着用しています。彼はカクテルシェーカーを振りながら話しています。バーには暗めの照明があり、棚には色とりどりのボトルが並び、海洋生物たちが常連客です。スタイルはディズニーの「ファインディング・ニモ」に似たもので、ディノのフレンドリーで歓迎的な表情に焦点を当ててください。）
サイズと解像度: サイズ: 1792x1024
------------
シーン3: お店の紹介をする
プロンプト: Create a wide shot of the interior of the underwater bar 'Blue Lagoon.' The bar has a cozy, chic ambiance with dim lighting, shelves filled with colorful bottles, and marine creatures as patrons. An anthropomorphic dolphin bartender named Dino is visible behind the bar. Dino has a sleek blue body, a big smile, and wears a custom bartender vest with a bow tie that fits perfectly on his fin. The camera should pan across the bar, showing the inviting atmosphere and various guests enjoying their time. The style should be consistent with Disney's "Finding Nemo."
（水中バー「ブルーラグーン」の内部をワイドショットで描写してください。バーは居心地が良く、シックな雰囲気で、暗めの照明があり、棚には色とりどりのボトルが並んでいます。海洋生物たちが常連客として集まっています。擬人化されたイルカのバーテンダー、ディノがバーの後ろに見えます。ディノはスリムな青い体と大きな笑顔を持ち、フィンにぴったりと合ったカスタムバーテンダーベストと蝶ネクタイを着用しています。カメラはバー全体をパンして、招かれるような雰囲気と、様々なゲストが楽しんでいる様子を映し出します。スタイルはディズニーの「ファインディング・ニモ」に一致するようにしてください。）
サイズと解像度: サイズ: 1792x1024
------------
シーン4: おすすめカクテルの紹介
プロンプト: Create a scene where an anthropomorphic dolphin bartender named Dino is making a special cocktail in the underwater bar 'Blue Lagoon.' Dino has a sleek blue body, a big smile, and wears a custom bartender vest with a bow tie that fits perfectly on his fin. He is pouring a freshly shaken cocktail into a glass. The bar has dim lighting, colorful bottles on the shelves, and marine creatures as patrons. The style should be reminiscent of Disney's "Finding Nemo," with a focus on the detailed action of Dino pouring the drink.
サイズと解像度: サイズ: 1792x1024
------------
シーン5: サービスのこだわり
プロンプト: Create a scene where an anthropomorphic dolphin bartender named Dino is interacting with a guest in the underwater bar 'Blue Lagoon.' Dino has a sleek blue body, a big smile, and wears a custom bartender vest with a bow tie that fits perfectly on his fin. He is handing a drink to a guest over the bar counter with a warm and friendly smile. The bar features dim lighting, colorful bottles on the shelves, and marine creatures as patrons. The style should be consistent with Disney's "Finding Nemo," emphasizing the welcoming and engaging atmosphere.
（水中バー「ブルーラグーン」で、擬人化されたイルカのバーテンダー、ディノがゲストと交流しているシーンを作成してください。ディノはスリムな青い体と大きな笑顔を持ち、フィンにぴったりと合ったカスタムバーテンダーベストと蝶ネクタイを着用しています。彼はバーのカウンター越しにゲストに飲み物を手渡し、温かくフレンドリーな笑顔を浮かべています。バーには暗めの照明があり、棚には色とりどりのボトルが並び、海洋生物たちが常連客です。スタイルはディズニーの「ファインディング・ニモ」に一致し、招かれるような、魅力的な雰囲気を強調してください。）
サイズと解像度: サイズ: 1792x1024

▼Q.
各シーンをプロンプト通りに生成せよ
ただしキャラクター設定画像のデザインに忠実に描くこと

▼以下 GPT4oの出力

私はこのバーのオーナー兼バーテンダー、ディーノです
海の中で一番リラックスできる場所を提供することを目指しています

ここ『ブルーラグーン』では、さまざまなカクテルをご用意しています
お客様一人ひとりの好みに合わせたドリンクを作るのが私の特技です

今夜のおすすめカクテルを試してみませんか？
フレッシュな海藻とライムを使った特製マリンモヒートです
リフレッシュできる味わいですよ

何かご要望があれば、どうぞお知らせくださいね
お客様一人ひとりが特別な時間を過ごせるよう心がけています

▼Q.音楽生成aiに入力する、
この映像にふさわしいBGMのプロンプトを英語で出してくれ

Create a relaxing background music track for an underwater bar called "Blue Lagoon." The music should have a smooth jazz vibe with tropical elements, featuring gentle piano, soft saxophone, and light percussion. Include subtle ambient ocean sounds like gentle waves and bubbles. The mood should be warm, inviting, and sophisticated.

各出力を人力で統合した動画が
こちら

バーテンダー・Dino｜ディーノ

プロンプトによる明確なディレクションとガチャ出力による選別（チェリーピック）がなければ、現状このあたりが限界でしょう
GPT4oでもコンテンツの一発生成ははるか未来のようです

特にDall・Eの描画におけるキャラや背景の同一性の保持に難があります
GPTがDall・Eに出力している生成プロンプトを確認すると、そもそも同一性を維持するための要件が何なのかを的確に把握していません
人間が世界どのように視覚で認識しているか、その学習が現状の基盤モデルには決定的に不足している事が伺えます

結果、CoTでセミオート生成させたプロンプトも、キャラクターに関する箇所は具体的・統一的になるようにこちらで操作しています
これは今年後半のローンチを期待されているSoraでも実はかなり苦戦している部分のようです

とはいえ、異なる出力における同一性の維持は、画像生成AIにおいてもあまり解決されていない領域なので、Dall・Eのプロンプト操作だけで「ある程度」同じような画を連続して出せているのは、この一年でかなり前進したともいるでしょう

なお今回は「人為的な演出は入れない」という実験条件でしたが、出力を繋げてみると流石に素のまますぎて公開するのが忍びないので、以下の調整だけ人力で追加しました

追加1
CV（キャラクターボイス）はVOICEVOXからの調整なし一発アウトプットを使用＜VOICEVOX:†聖騎士紅桜†＞
VOICEVOXはAPIでも提供されているので、これならアリだろうと判断しました
追加2
immersity AI（旧 LeiaPix)による簡易なカメラアニメーションを静止画に追加

ガチャを回して他の世界線へ！

AIをキャラ創造に使うメリットとは何でしょうか？
大量にプロトタイプを作る事で思わぬ可能性に出会える、つまり「偶有性（contingency）」を爆上げするというのが挙げられます
ここで言う偶有性とは、平たく言えば「ありえたかもしれない未来」「異なる世界線」というような文脈です

ということでここまで挙げた一連の工程を、ガチャのように回した偶有性爆上げ実験の結果がこちら！

Pearl｜パール

バーテンダー・Pearl（パール）
---------------------------------------
外見:体色: パールの名前にふさわしく、体は淡いパールホワイトで、背中に虹色の光沢があり、海の波のように輝く。
目: 大きな紫色の目で、瞳孔は星の形をしている。
口: 小さくて優しい微笑みを浮かべている。
背びれ: 背びれは貝殻の形をしており、縁がほんのりとピンク色に染まっている。
胸鰭: 丸くて柔らかい形で、真珠のような輝きを放つ。

衣装:トップス: 繊細なレースが施された淡いブルーのブラウス、袖口には小さな真珠の装飾が施されている。
アクセサリー: 真珠のネックレスとブレスレット、耳には小さな貝殻のイヤリング。
エプロン: 波模様のついた白いエプロン、ポケットには貝殻の飾りがついている。

性格:優雅で落ち着いている: いつも冷静で、どんな忙しい時でも落ち着いた雰囲気を保つ。
知識豊富: 海の伝説や珍しいカクテルのレシピに詳しく、客との会話を楽しむ。
面倒見がいい: 新人バーテンダーや迷子の観光客に親切に接する。

バー:名前: "The Pearl Haven" (真珠の避難所)
雰囲気: 海底のサンゴ礁を模したインテリア、温かみのあるブルーとグリーンの照明、壁には海の生物の美しい絵や写真が飾られている。
特長: 真珠を使った特製カクテルや、海の恵みを使ったおつまみが人気。

CV／ VOICEVOX:あいえるたん

女性バーテンダーの「パール」

そこはかとなくキャバ嬢っぽいキャラデザに多少の違和感を感じますが
なかなかキャラが立っているのではないのでしょうか！
「女性イルカのバーテンダー」というのは想定外だったので、AIのニュートラルさに盲点を諭されました
セリフの内容は無味乾燥すぎて、なんだか地方CMみたいですね笑

Marlin｜マーリン

バーテンダー・Marlin（マーリン）
---------------------------------------
外見:体色: Marlinの体は深い青色で、背中には鮮やかな銀色のストライプが走っています
腹部はクリーム色で、対照的な色合いが目を引きます
目: 大きなエメラルドグリーンの目は、暖かさと知性を感じさせます
口先: 彼の口先は長く、微笑みを浮かべると口角が少し上がるのが特徴です
背びれ: Marlinの背びれは少し波打った形をしており、海藻のように揺れる感じがします
胸鰭: 彼の胸鰭は長く、優雅な動きを見せます
先端はやや尖っていて、細かな水の動きを感じさせます

服装:シャツ: Marlinは、海を連想させる青と白のストライプのシャツを着ています。袖は肘までまくり上げられ、動きやすさを重視しています
ベスト: 彼はシルバーのボタンがついた紺色のベストを着ており、これが彼のフォーマルな雰囲気を強調しています
アクセサリー: Marlinの首には古びた羅針盤がペンダントとして掛かっています。また、彼の右手首には革のブレスレットが巻かれており、そこには小さなアンカーのチャームが付いています

特徴:親しみやすい笑顔: Marlinは常にフレンドリーな笑顔を浮かべており、バーに訪れる客を温かく迎えます
器用さ: 彼の長い胸鰭はカクテルシェーカーを扱うのに最適で、見事なパフォーマンスを見せてくれます
話し好き: Marlinは多くの海の冒険話を持っており、客と楽しく会話を交わします

バックストーリー:
Marlinは、かつては冒険家として世界中の海を旅していました。しかし、現在はその冒険の一部を共有するために「The Salty Spout」にやって来ました。彼のバーは、船のキャビンのように装飾され、訪れる客はまるで航海に出たような気分になります
Marlinのカクテルは、彼が旅した各地のインスピレーションを受けたもので、ユニークで美味しいものばかりです
彼の特製カクテル「Ocean’s Whisper」は、深い青色のリキュールと新鮮な柑橘類のブレンドで、まるで海の囁きが聞こえるような味わいです

CV／ VOICEVOX:青山龍星

イケメン無頼バーテンダーの「マーリン」

ディズニーシーのアトラクションとかにありそうな雰囲気になりました
こういう海賊系無頼キャラみたいなのは、オーソドックスなようでいて、尾田栄一郎先生以外の日本人があまり考えない方向性のキャラクターかもしれません
これもまた偶有性ですね

Luca｜ルカ

バーテンダー・Luca（ルカ）
---------
外見：
色：淡いラベンダー色の肌、部分的にクリーム色の模様が入る
目：大きくて明るいエメラルドグリーンの目、キラキラとした好奇心に満ちている
特徴：背中に流れるような曲線的な背びれ、やや長い胸鰭が手のように動かせる
服装：カラフルなパッチワークのベスト、カジュアルなホワイトTシャツ、首に巻いたシルクのスカーフ
性格：
創造的：常に新しいカクテルや飲み物を考案し、バーに来る客を驚かせる
社交的：誰とでもすぐに打ち解け、話を盛り上げるのが得意
エネルギッシュ：バーの雰囲気を盛り上げるために、自ら音楽を演奏したり、即興のパフォーマンスを披露することもある
感受性豊か：他人の気持ちに敏感で、常に客のニーズに応じた対応ができる

バックストーリー：
ルカはかつては広報やマーケティングの仕事をしていたが、常に新しいアイディアを試したいという欲求から、バーテンダーとして独立
旅をしながら各地の飲み物や文化を学び、その知識を生かして「The Tidal Bloom」という独自のバーを開いた
バーはまるでファンタジーのような内装で、カラフルな花や異国風の装飾が施され、客を異世界に誘うような雰囲気を持つ
バーの特徴：
名前：The Tidal Bloom
雰囲気：カラフルで幻想的、花や植物が豊富に飾られており、温かく柔らかな照明が使われている
特典：特別なイベントやテーマナイトが頻繁に開催され、常連客はルカの即興ショーを楽しみにしている

その他の詳細：音楽：バーには小さなステージがあり、ルカ自身が時折演奏する。彼の得意な楽器はウクレレとバイオリン
サインチャードリンク：ルカが作る特製カクテル「エメラルドドリーム」、鮮やかな緑色で、フルーツとハーブの風味が調和したドリンク

CV／ VOICEVOX:玄野武宏・九州そら

南国魔法使い風のルカ

自分はこのルカが一番お気に入りです
この動画が一番カクテルを飲んでみたい気にさせられました

実はこのLucaだけ少しプロンプトをいじっていて、MBTIの類型からキャラクターを考えるよう、少しだけディレクションを入れています
その効果が出ている気がします

▼生成作業のまとめ

全体的にやはり自動生成実用化への一番のネックはコンシステンシーですね
現状、ここにこだわり始めるとAIを使わない場合より時間がかかったりします

とはいえ、1年前は今回の実験のような生成法は全くできませんでした
あっという間に次の技術が出てくるのは明らかすぎるので
引き続き定期的に実験していきたいです！

今後の課題：
コンテンツ改善のフィードバックをAI内で回せるか？

AIによるコンテンツ生成の自動化には、生成したコンテンツのアセスメント（評価）能力が重要になってくるだろうと予想しています
GPT 4oはマルチモーダルモデルになったという事なので、自己の生成した動画を評価できるかを試してみましょう

▼GPT4oの返答
--------------------
キーフレームの概要

動画から抽出したキーフレームは、内容の概要を視覚的に示しています。それぞれのフレームについて説明します
フレーム1：設定やメインキャラクターを紹介するオープニングシーン
フレーム2：重要なアクションや移行を含むシーン
フレーム3：アクションの中盤シーンで、重要なポイントやインタラクションを示している可能性があります
フレーム4：クライマックスや転換点を示す重要な瞬間
フレーム5：解決やフォローアップアクションを示すシーン
フレーム6：エンディングシーンで、結論やエンドクレジットが含まれているかもしれません

さらに詳しい分析、例えばストーリーライン、キャラクター、音声要素などについては、フレームごとの詳細な分析や特定のセクションの検討を行うことができます
特に注目したい部分があれば、お知らせください

Q.これはエンタメ動画だ。エンタメ動画としての総合的なコンテンツの分析を行え

▼GPT4oの返答
--------------------
エンタメ動画の総合的なコンテンツ分析を行います。以下の観点から分析を進めます
ビジュアルエレメント：映像の質、色彩、シーンの構成
ストーリーテリング：プロット、キャラクター、ナラティブ構造
音響エレメント：音楽、効果音、ナレーション
全体的なエンタメ価値：ユニークさ、引き込む力、視聴者の魅力

まず、ビジュアルエレメントの詳細を確認します

1. ビジュアルエレメント
ビジュアルエレメントの分析では、以下の要素を評価します
映像の質：解像度、フレームレート、色彩
シーンの構成：シーンの変遷、カメラアングル、特撮やCGの使用

抽出したキーフレームから、次のような特徴が見られます：高解像度（1792x1024）で、24fpsの滑らかな映像
鮮やかな色彩と多様なシーンが含まれている
カメラアングルやシーンの切り替えが視覚的に魅力的

2. ストーリーテリング
ストーリーテリングの評価では、以下の要素を評価します
プロット：ストーリーの流れ、起承転結
キャラクター：主要キャラクターの魅力、関係性、成長
ナラティブ構造：エピソードの構成、テーマの一貫性

ストーリーテリングの詳細な内容は映像をフレームごとに分析する必要がありますが、キーフレームからは以下の推測ができます：明確なシーンの変遷から、ストーリーの進行がある程度推測できる
クライマックスや転換点が明示されており、物語の構造がしっかりしている

3. 音響エレメント
音響エレメントの評価では、以下の要素を評価します
音楽：バックグラウンドミュージック、テーマソング
効果音：シーンを強調するための音響効果
ナレーション：ストーリーテリングを補完する音声

（……このあと、ここまでの4倍近く空虚な分析が続きますが不毛すぎるので割愛します）

いかにも考えている風に
長々と講釈垂れていますが
これは何も把握できてない
パターンのやつですね・・・

ほんの数ヶ月前は比較対象がなかったので
こういうGPTお得意のはぐらかしにもなんとなくケムに巻かれてましたが
今は違います
あんなにダメな子だったGoogleのAIが急成長した姿「Gemini」があります

以下Gemini Pro1.5の分析です

このエンタメ動画は、擬人化されたイルカのバーテンダー「ディーノ」が経営する海底バー「ブルーラグーン」のCMです

動画の内容:
動画は、ディーノがカウンター越しに「いらっしゃいませ！ようこそブルーラグーンへ！」と視聴者に呼びかけるシーンから始まります
その後、ディーノは自身の仕事に対する情熱や、ブルーラグーンが特別な場所であることを語りかけます
特徴:
擬人化: イルカが人間のように喋り、バーテンダーの仕事をするという擬人化が特徴的です
美しい映像: 海底バーという幻想的な空間を、美しいCGで表現しています
親しみやすいキャラクター: ディーノの笑顔や優しい語り口は、親しみやすさを感じさせます
動画の目的:
ブルーラグーンというバーの認知度向上
視聴者に「行ってみたい」と思わせること
ターゲット:
海やイルカが好きな人
非日常的な空間でリラックスしたい人
お酒が好きな人
効果:
擬人化されたイルカのバーテンダーというユニークな設定が、視聴者の目を引きます
美しい映像と親しみやすいキャラクターを通して、ブルーラグーンの魅力が効果的に伝わってきます
視聴者に「行ってみたい」と思わせるような、夢のあるCMに仕上がっています

そこそこ合っています
立派になったよ・・・

Geminiはビジネス視点でお堅い分析をする癖があるので方向性が少しズレてますが、GPT4oよりはるかに見えているし聞こえているようです
更に、本当に全てを認識できているのか精査します

▼Q.
全てのシーンを詳細に字コンテに起こせ
尺が短いので、カットの脱落がおきないように画像のサンプリングは細かくたくさん行え

エンタメ動画字コンテ
1. タイトル：海底バー「ブルーラグーン」CM
2. 尺：37秒
3. サウンド：BGM、ナレーション

[シーン1] 海底バー外観 (0:00-0:02)カット 1-1 (0:00)
画面：暗い海底に、暖かく光るバーの入り口が見える。看板には「BLUE LAGOON」の文字。
サウンド：泡の音、静かなBGM
カット 1-2 (0:01)
画面：カメラがゆっくりと入り口に近づき、カウンターで微笑むイルカのバーテンダーの姿が映る。
サウンド：BGMが少し盛り上がる

[シーン2] イルカのバーテンダー挨拶 (0:02-0:05)カット 2-1 (0:02)
画面：カウンター越しに、イルカのバーテンダーが視聴者を見て微笑む。ネクタイとベストを着用。
サウンド：イルカ「いらっしゃいませ！ようこそブルーラグーンへ！」
カット 2-2 (0:03)
画面：バーテンダーのアップ。優しい表情。
サウンド：イルカ「私はこのバーのオーナー兼バーテンダー、ディーノです。」

[シーン3] バーテンダー自己紹介 (0:05-0:12)カット 3-1 (0:05)
画面：カメラがバーテンダーの手元に寄り、シェーカーを持つ姿を見せる。
サウンド：シェーカーを振る音
カット 3-2 (0:06)
画面：再びバーテンダーのアップ。笑顔。
サウンド：イルカ「海の中で一番リラックスできる場所を提供することを目指しています。」
カット 3-3 (0:08)
画面：客席とバーテンダーを交互に見せる。客席は魚や人魚など多様な客で賑わっている。
サウンド：楽しげなバーのBGM、話し声、笑い声
カット 3-4 (0:10)
画面：笑顔で客と話すバーテンダーの横顔。
サウンド：イルカ「ここ、ブルーラグーンでは、様々なカクテルをご用意しています。」

[シーン4] カクテル紹介 (0:12-0:21)カット 4-1 (0:12)
画面：カウンターに置かれた色鮮やかなカクテル。グラスの周りには水泡。
サウンド：イルカ「お客様一人ひとりの好みに合わせたドリンクを作るのが私の特技です。」
カット 4-2 (0:14)
画面：真剣な表情でカクテルを作るバーテンダーの手元。
サウンド：氷と液体が混ざる音、シェーカーを振る音
カット 4-3 (0:16)
画面：完成したカクテルを手に持ち、満足そうに微笑むバーテンダー。
サウンド：イルカ「今夜のオススメカクテルは試してみましたか？」
カット 4-4 (0:18)
画面：バーテンダーがストローでカクテルを一口飲む。
サウンド：ゴクッと飲む音、イルカ「新鮮な海藻とライムを使った」
カット 4-5 (0:20)
画面：再びカクテルのアップ。
サウンド：イルカ「特性マリンモヒートです。リフレッシュできる味わいですよ。」

[シーン5] 接客シーン (0:21-0:30)カット 5-1 (0:21)
画面：カウンター越しに、客にドリンクを手渡すバーテンダー。
サウンド：イルカ「何かご要望があれば、どうぞお知らせくださいね。」
カット 5-2 (0:24)
画面：客と談笑するバーテンダー。
サウンド：笑い声、イルカ「お客様一人ひとりが特別な時間を過ごせるよう、心掛けています。」

[シーン6] 海底バーの風景 (0:30-0:37)カット 6-1 (0:30)
画面：水槽で優雅に泳ぐ魚たち。
サウンド：穏やかなBGM
カット 6-2 (0:32)
画面：楽しそうに談笑する客たちの姿。
サウンド：話し声、笑い声
カット 6-3 (0:34)
画面：カウンターでカクテルを作るバーテンダーの姿。
サウンド：シェーカーを振る音
カット 6-4 (0:36)
画面：ブルーラグーンの看板。
サウンド：BGMがフェードアウト

[フェードアウト] (0:37)
4. その他各カットの秒数は目安です。
必要に応じて、カットを増やしたり減らしたりしてください。
画面の構図やカメラワークは、イメージを膨らませて自由に設定してください。

5. 注意点この字コンテは、あくまで動画の構成を説明するためのものです。
実際の動画制作では、さらに細かい演出や編集が必要になります。

把握率は65%～75%ぐらいでしょうか
「カットの切り出しを細かくやれ」と指示したせいか、存在しないカットやセリフ、SEをハルシネーションしている箇所があります
指示をシンプルに変更します

▼Q.
全てのシーンを詳細に字コンテに起こせ

エンタメ動画字コンテ

シーン1映像: 暗闇の中から、暖色の照明で照らされたバーカウンターがゆっくりと現れる。カウンターの中には、蝶ネクタイをしたイルカのバーテンダーが笑顔で立っている。カウンターの奥は水族館のように水が張られており、魚が泳いでいる。
音声: 効果音：軽快な音楽が流れ始める
ナレーション: 「いらっしゃいませ！ようこそ、ブルーラグーンへ！」

シーン2映像: バーカウンター内でシェーカーを振るイルカのバーテンダー。カメラはイルカの顔に近づき、笑顔をアップにする。
音声: 効果音：シェーカーを振る音
イルカ: 「私はこのバーのオーナー兼バーテンダー、ディーノです。海の中で一番リラックスできる場所を提供することを目指しています。」

シーン3映像: ブルーラグーンの店内を映す。水族館のような大きな窓からは海の生物が見え、客はカウンターやテーブル席でくつろいでいる。
音声: 効果音: 静かな波の音、落ち着いたバーのBGM
イルカ: (ナレーション) 「ここ、ブルーラグーンでは、様々なカクテルをご用意しています。お客様一人ひとりの好みに合わせたドリンクを作るのが、私の特技です。」

シーン4映像: カウンターでカクテルを作るイルカのバーテンダー。泡が立つ青いカクテルを手に取り、ストローで一口飲む。
音声: 効果音: カクテルを作る音、ストローで飲む音
イルカ: 「今夜のおすすめカクテルを召し上がってみませんか？新鮮な海藻とライムを使った、当店自慢のマリンモヒートです。リフレッシュできる味わいですよ。」

シーン5映像: カウンター越しに、客にドリンクを手渡すイルカのバーテンダー。客は笑顔でドリンクを受け取る。
音声: 効果音: グラスを重ねる音、客の話し声(楽しげな雰囲気)
イルカ: 「何かご要望があれば、どうぞお知らせくださいね。お客様一人ひとりが特別な時間を過ごせるよう、心掛けています。」

シーン6映像: ブルーラグーンの店内を再び映す。客は楽しそうに会話をしたり、ドリンクを飲んだりしている。最後に、笑顔のイルカのバーテンダーがカウンター越しに視聴者を見つめる。
音声: 効果音: 軽快な音楽が再び流れ始める、波の音
ナレーション: 「ブルーラグーン」

フェードアウト

多少ましになりましたが、勝手にシーン6をハルシネーションしています
残念ながらちょっとまだ実用化には遠いですね

現状のAIは、ビジネスの実務で使っていても感じるのですが
動画や音声からの読み取りはまだ「大意」を掴むので精一杯のようです

キャラクターという概念の理解度

気がつくと過去最長の記事になってますが
果たして何人の方が
ここまで読んでいただけてるんでしょうか😓

最後にダメ押し、
GPT4oに戻ってキャラクター理解の解像度をチェックします
GPTがDall-Eを使って出力した「Luca」のコンシステンシーが甘い画像３点を再度読み取らせます

▼Q.
この３つの画像は同じシーンにおける同一キャラクターか？

▼GPT4oの返答
------------
これらの画像は、同じキャラクターが登場している異なるシーンのようです。キャラクターの特徴（イルカのような顔、装飾的なベスト、カラフルな雰囲気）は一致していますが、背景のディテールが異なるため、同一のシーンではない可能性があります。しかし、同じキャラクターが異なる状況で撮影されたものと思われます。

▼Q.
同一の時間帯に広い室内の異なる場所で撮影された画像だと想定しても、同じキャラクターと考えるか？
細かい点に丁寧に着目して判断せよ

▼GPT4oの返答
------------
キャラクターの外見:
顔と体の特徴: すべての画像でキャラクターはイルカのような顔をしており、表情や目の形も一致しています。また、手や腕の形も同じように見えます。
衣装: 3つの画像全てで、キャラクターは白いシャツとカラフルなベストを着ています。特に、ベストの模様や色合いが非常に似ています。
装飾品:
ネックレス: キャラクターが全ての画像でネックレスをつけている点も共通しています。
腕飾り: 腕飾りやスカーフも同じキャラクターの特徴と一致しています。
環境と背景:
バーの雰囲気: すべての画像でキャラクターはバーのような場所にいます。背景にはボトルが並び、装飾品や照明が似たようなスタイルです。
照明と装飾: 照明の種類（ランタンのようなデザイン）や植物の配置、壁の色などが一貫しています。
小物やドリンク:
ドリンク: キャラクターの前に置かれているドリンクも、全体の雰囲気や小物の配置が一貫しています。

これらの点から、画像は同一キャラクターが広い室内の異なる場所で撮影されたものと考えることができます。装飾品や衣装の詳細、背景のスタイルの一貫性から判断して、同一キャラクターであると結論付けることができます。

なるほど・・・
だいたい人間におけるおばあちゃんレベルのキャラ判別能力かな、というところですね
やはりまだ道のりは遠そうです！研究は続く！

この記事が参加している募集

#AIとやってみた

36,560件

この記事が気に入ったらサポートをしてみませんか？

＜AI生成チャレンジ＞GPTでイルカキャラ動画を全自動で作る！

お題「イルカのバーテンダー」に対してGPT4oが創造したキャラクターたち

GPT4oとの実際のやりとり

▼Q.新たなイルカのバーテンダーのキャラクターを考えてくれ

▼Q.縦横比は16：9、設定にふさわしい画風で描画してくれ

▼Q.同じデザインで他のポーズを取らせてみてくれ

▼Q.このキャラクターはどのようなトーンで話すのか？

▼Q.何かお客さんに語り掛けるセリフを考えてくれ自己紹介やお店の紹介など

▼Q.ここまでのキャラクターの設定、デザイン、セリフ例に従った、一分間の動画の文字コンテを生成せよ

▼Q.各カットの詳細な画像生成用のプロンプトを設計せよDall-Eの生成ポリシーに反する指定はするな