見出し画像

紀元前の空中庭園をスマホで撮る!?Soraの推論モデルが描く新感覚MV

「古代の空中庭園を、現代のスマホ映像として表現したい」――そんな発想から生まれた今回のミュージックビデオ。
実際にやってみると、タイムワープ感や歴史的背景をどう描くか、そして映像としての臨場感をどう作るかが意外と難しいのです。それを可能にしたのが、ChatGPT 01のWordcelの世界モデルSoraのShape Rotatorモデルの組み合わせなのです。
この記事では、両モデルがお互いにどう作用して、紀元前1000年以上前のバビロニア空中庭園を“スマホ撮影風”に落とし込めたのかを解説していきます。


ChatGPT 01のWordcelの世界モデルとは?

Wordcelの世界モデルとは、テキスト言語を駆使して“言葉の世界”を作り上げる能力を示します。具体的には以下のようなポイントがあります。

  1. シーンを細かく言語化する

    • “スマホが水に落ちる瞬間の泡立ち”とか、“古代バビロニア人が巻きスカートを着ている様子”みたいな具体的な描写を言葉にして伝える。

  2. 複数ステップでの演出を組み立てる

    • “落下中の描写 → 水中に入った時の描写 → 水中シーンが落ち着く”といった場面転換を論理的に順序立てて説明する。

  3. 視覚以外の感覚表現にも注目

    • 音や光の変化、空気感など、“映像には写らないけれど重要な要素”を言葉で補う。

こうした形で物語や映像のシーンをテキストベースで「分割して伝えやすくする」のが、ChatGPT o1の得意分野です。文章だけで細かいニュアンスを相手に分かりやすく伝え、映像生成AIにも「ここがポイント」という指示を適切に与えられます。


SoraのShape Rotatorモデルとは?

一方、SoraのShape Rotator(シェイプ・ローテーター)モデルは、視覚的・空間的な情報を扱うのが得意なモデルだと言われています。具体的に言うと、

  1. 奥行きや構造を立体的に推測する力

    • バビロニアの空中庭園みたいな複雑な建築物を、段階状のテラスや重厚な石柱として再現する。

  2. 視点変更や被写体の動きによるカメラワークへの対応

    • “スマホ撮影風”の微妙なブレや傾き、カメラが高速パンするシーンなどを立体的に描ける。

  3. 物体の回転や配置をリアルに計算できる

    • とくに滝の水しぶきがどこに落ちて、光がどう反射するか、という空間把握が得意。

Wordcelが作った詳細なシナリオやニュアンスを受け取って、Shape Rotatorモデルが「これを3D空間でどう表現すればいいか」を考えます。すると、単なる平面画像にとどまらず、あたかも手に持ったカメラでぐるっと撮影しているようなリアルな映像が生まれるのです。


具体的な連携の仕組み

  1. ストーリーと場面分割の提案(ChatGPT o1 のWordcel側)

    • たとえば「1秒目は壮麗な庭園を正面から映す」「2秒目でスマホが奪われ、画面がブレる」「3秒目に水に落ちる」など。

    • ここで重要なのは、映像の切り替わりのきっかけその時の視覚・音・アングルを文章で具体的に書くこと。

  2. シーン構造を反映(SoraのShape Rotator)

    • Wordcelのプロンプトを読んだSoraは、場面ごとにどのような空間配置が必要かを脳内で3Dの形状として組み立てる。

    • 「石柱の高さはどれくらいか」「滝の位置関係はどこか」「カメラがどれくらい揺れるか」といった動的な要素を考慮。

  3. 最終的な映像生成

    • Shape Rotatorが決めた空間イメージと動きに沿って、フレームごとに描写を行う。

    • 結果、古代バビロニアの空中庭園という複雑な立体構造が、“まるでリアルなカメラで撮った”かのように動きとともに映し出される。


実写感を生む小技

  • 手ブレ・レンズフレア: ChatGPT o1のWordcelの指示で「太陽光が差し込んだときにレンズフレアが出る」「スマホを持つ手が震えて画面がブレる」といった細部を加える。

  • 水中描写: “カメラが水に落ちた瞬間”に泡や光の屈折を具体的に解説する。これをShape Rotator側が受け止めることで、画面のゆがみをリアルに再現。

  • 音声・環境音の描写: Sora自体は映像生成AIだけど、ブログ文やプロンプトの記述で「滝の音や風の音がシーンにどう影響するか」を書き込むと、映像にも活き活きした雰囲気が加わる。


そして音楽生成AI:Sunoへの橋渡しへ

こうして出来上がったミュージックビデオは、古代の荘厳さ現代のテクノロジー、そしてちょっとコミカルなスマホ取り合い劇が混ざり合った独特の作品となりました。
もともと「バビロニアの空中庭園」という圧倒的な世界観は、SoraのShape Rotatorモデルが得意とする“形状と空間把握”の見せ場。一方で「時代やストーリーの起伏を文章で細かく書く」というのは、Wordcelの世界モデルの得意領域。それぞれの強みが噛み合ったからこそ、スマホ撮影風の臨場感ある古代映像が生まれたのです。

ストーリーをSunoに投げた

出来上がったストーリー仕立てのミュージックビデオのための楽曲をSunoに依頼するプロンプトとして、ChatGPT 4oの書いた下記のプロンプトを準備しました。

古代バビロニア風の荘厳な弦楽器とリズムで始まり、中盤では現代を象徴する電子音やダンサブルなビートを加え、終盤は静寂と儚さを持たせたフェードアウト。神秘と未来が交錯する曲。

2024年の人間がタイムワープし、紀元前1500年の空中庭園でスマホを使い撮影。子供に撮り方を教えると大人たちも興味津々。スマホを巡るドタバタの末、水に落ち流されていく。荘厳さとコミカルさを織り交ぜた楽曲。

ChatGPT 4o

そしてそのプロンプトで、Suno3.5が作詞した歌詞がこちら。

[Verse]
紀元前の静寂を切り裂き
タイムワープのキラメキ
空中庭園の壮大な世界で
スマホが輝く未来の光

[Chorus]
子供たちは目を輝かせ
撮り方を真剣に覚え
大人たちも興味津々
スマホが招く新たな時代

[Verse 2]
古代と未来が交わる瞬間
荘厳な弦の響きの中で
電子音が次第に混ざり
ダンサブルなビート踊り始まる

[Bridge]
スマホを巡るドタバタ劇
笑いと驚きの連鎖
突然の水槽に流されて
未来の儚さ感じる

[Chorus]
子供たちは目を輝かせ
撮り方を真剣に覚え
大人たちも興味津々
スマホが招く新たな時代

[Verse 3]
静寂の終わり迎え
古代の庭は夢のよう
電子の光も消え去り
神秘の霧に包まれる

Suno3.5

ChatGPT o1 + Sora + ChatGPT 4o + Suno3.5合作Mビデオ

それでは聞いてください、ChatGPT o1 + Sora + ChatGPT 4o + Suno3.5合作Mビデオ『バビロンの残響』


なお、Sora(一部Pika使用)+Sunoの合作ミュージックビデオの過去作は、下記のNoteで紹介していますので合わせてご覧ください。


いいなと思ったら応援しよう!