Soraが描く動画の世界 Soraについて現在分かっている事 リリース前アイデア集
世の中に存在するほぼ全ての動画を分類するという試みに挑戦しました (恐らく世界初)。分類した動画をAIが生成する際に得意, 不得意の視点からプロンプト設計について考察しています。実践編では具体的な例を網羅したアイデア集となっています。
本記事は今後リリースが予定されている動画生成AI Soraの現在公開されている動画からどのような動画生成が得意なのかを考察し具体的な作成アイデア, コツを提案します。
【理論編】では公開されているsampleデモ動画の特徴からSoraが苦手とする分野を見つけ出し, それ以外のSoraが描けると思われる動画がどのようなものかを考察しています。
本記事内で出てくるサンプル動画は将来, Soraで作成可能と思われる動画を現在のAIで模擬的に作成したものです。元となる画像は例えば, コミカルキャラはDalleで作成しました。
一方, リアル系の画像はMidjourney V6 で作成しました。これらの画像を元に動画生成AIのRunway gen2, Haiperで動きを付加しています。
この記事の考察は事前に公開されているサンプルデモや技術情報をもとに行っているため, 考察が間違っている, または情報が『正確でない』可能性は十分ありえます。ある意味挑戦的な記事ですのでご了承ください。
この記事はとにかく『長い』です。どのようなことが出来るか, 『活用例』だけでも読んでいただければ幸いです。目次からChapter 3【実践編 (本編)】Soraのアイデア活用例 までskipお願いします。
全てを『読む』ために作成したものでありません。ではなぜそのような記事を作成したのか? 後ほど解説しますが, 半分, 自分用でAIを使って活用するために作成しました。
0. はじめに
0.1 背景
2023年はChatGPT4の登場で生成AI元年と言われています。2024年は動画生成AI元年と一部では言われています。簡単なテキスト (日本語) のみで高品質な動画が作れる時代がやってくるかもしれません。
唐突ですが, 映画コンタクト (©1997 ワーナーブラザーズ) の名シーン (観ていない人はごめんなさい。ネタバレになってしまいます…)
地球外知的生命体探査 (Search for Extra Terrestrial Intelligence: SETI) の研究者エリー (主人公) は宇宙船から別の銀河を初めて見たときに以下のコメントをしています。
まるで天上の祝祭 いいえ 違う 言葉では表現できない
詩だわ 詩人を乗せるべきだった
綺麗 美しい … とても 夢にも思わなかった
こんなこと…想像を超えている 素晴らしい…
綺麗な光景を見た博士はその光景を表現するのが難しく, 地球にいる人々にその美しさを伝えるためには, 宇宙船には自分ではなく『詩人』を乗せるべきであったと言っています。
人が一杯いるので編集モードで人を消して, 宇宙服の女性を追加するようにお願いします。
んー 思ってたのと違う…
DALLEにうまく伝わりませんでした。やはり詩人が必要でしょうか。これはAIが悪いのではなく, 指示の仕方がわるいため再現できないことが考えられます。AIにきちんと作りたい映像を伝えれば, 『思い通り』の画像が作れますので次はきちんと伝えてみます。
A screenshot shows woman in space suit standing in front of an immersive screen displaying the Hubble deep field, pointing at one bright star emitting light rays across space. The camera captures her from behind as he gestures towards it with his hand raised. She has long hair tied back in a low ponytail. In the background, stars in outer space are visible. --ar 16:9 --s 250 --v 6.0
伝え方を工夫すれば自分がイメージした動画作成が可能となります。もちろんAIに関する基礎知識も重要ですが, 動画生成においては『詩人』のような表現力が最も必要とされるのではないでしょうか。
0.2 このnote記事の作成方法
本記事は事前に公開されているOpen AIのSoraに関する公式情報, 先行userのレビュー記事をAIに学習させて作成しました。
使用AIは主にClaude3 opusです。数十万単語と情報量が膨大のため, ChatGPT4 omniではpdf全体の要約は不可能でした (全文を読んでいないのに読んだふりをします) 。
0.3 このnote記事の正しい利用方法
本記事は知り得た情報を網羅しているため, 非常に長く, 全て読むとなると冗長に感じてしまい, あまりお勧めしません。AI (例えばClaude 3) に要約させ, さらにそこから新たなアイデアを出すのが適した使い方かもしれません。
動画の全カテゴライズについて, やっつけ仕事で作った感がありますので, ネット記事など作成されているかたは洗練したもの作っていただけたら幸いです。※ 完全 free記事です, プロンプトなど二次利用 okです。
実際, 当方自体もこの記事をもとに, より『読みやすい』完全版を作成しようかと思っています。もちろんAIに文章を要約させてですが。
1. Soraの基本情報
1. Soraではどのような動画が作成できるのか?
1. ルンバのような自動掃除機の上に乗る猫
Sora prompt: An adorable kitten pirate riding a robot vacuum around the house
Sora prompt: An adorable kitten pirate riding a robot vacuum around the house
2. 変な動物集
6. By Don Allen Stevenson III, Digital AR/XR Artist pic.twitter.com/N9sJNZfzrh
ウナギ犬ならぬ『ウナギ猫』や羽の生えた豚など, それぞれの動物の動きがうまく融合した変な動物集です。
3. 泡を吐く泡ドラゴン
単純に見ていて楽しいですが, おもちゃ, 商品のプロモーションなど何に応用できるか今から楽しみです。
4. 雪と桜の花びらが舞う活気ある東京の風景
Introducing Sora, our text-to-video model.
Prompt: "Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes."
物や人をよける動作 (に見えるだけ?) など非常に自然です。途中で人が消えたりやはりAIだったと再認識してしまうほど実写と区別がつきません。
1.2 なぜSoraは長時間の動画が安定して作れるようになったのか?
1. テキストプロンプトによる動画全体の制御
2. 時空間パッチの潜在表現
3. トランスフォーマーの動画生成へのスケーリング
1. テキストプロンプトによる動画全体の制御 Controlling the Entire Video with Text Prompts
① テキストプロンプトによる動画全体の制御
Sora: テキストプロンプトから生成される全体的な説明を通して, 動画の一貫したストーリーラインを維持しながら生成する。
従来のAI: フレームごとの独立した予測に依存し, フレーム間での情報の連続性を確保するのが困難であるため, 一貫性が失われることがある。
Soraは動画全体をテキストプロンプトにより制御します。例えば, 『猫のダンス動画』と言えば全体のストーリーとして猫がダンスしている映像が維持されます。
一方, 従来の動画生成AIは初めに元となる映像 (フレーム) が与えられ, そこからフレーム事にAIが最適 (と考える) 映像が次々とフレーム単位で生成されていきます。猫のしっぽを『蛇』と認識すれば以降は蛇になることもあります。
2. 時空間パッチの潜在表現 Latent Representation of Spatio-Temporal Patches
② 時空間パッチの潜在表現
動画を連続するフレームの集まりではなく, 時と空間を通じて相互接続された情報の塊として扱います。モデルはこの時空間パッチの情報を潜在的な特徴として抽出し, それを用いて動画のフレームを生成します。結果として, モデルは動画の空間的なコンテクストと時間的な流れを同時に把握し, その情報を新たなフレームの生成に活かすことができるため, 動画の整合性と一貫性が保たれます。
① 動画はVisual encoderを通過後, ② フレームを単なる画像ではなく, 時間的(シーンの時点)と空間的(配置)情報を含む形で扱います。ここでの「パッチ」(下の図の緑のブロック) は特定瞬間の視覚情報を圧縮したものです。Visual encoderは画像や動画を低次元の潜在表現に圧縮し, パッチを潜在空間の点に変換する役割があります。この潜在表現は, 本質的情報を保ちつつデータ量を減らします。
これらのパッチは, 動画内の異なる瞬間に存在するフレーム間の関係性を捉えるために用いられ, 次に続くトランスフォーマーベースの処理ステップ(上の図の一番右③)において, 動画が持つべき時間的な流れと空間的な一貫性を保ちながら新しいフレームを生成するための基盤となります。
3. トランスフォーマーの動画生成へのスケーリング Scaling Transformers for Video Generation
③ トランスフォーマーの動画生成へのスケーリング
各フレームを複数のパッチに分割し, これらのパッチを時間方向に連結することで, 動画全体を表現します。トランスフォーマーは, これらのパッチの潜在表現を処理することで, 動画の時間的・空間的な文脈を捉えながら次のフレームを生成していきます。この手法により, トランスフォーマーは動画の長期的な依存関係を学習し, 一貫性のある自然な動画を生成することが可能となります。
従来の動画生成AIにおいて, 例えば, フレーム1 (青) からフレーム2 (黄) への伝達ミスが起こりやすいのは, 各フレームを独立して予測する際に, フレーム間の詳細な情報の繋がりが欠けているためです。
各フレームは前後のコンテキストを十分に理解せずに生成されるため, フレーム間での動きやオブジェクトの変化が不連続になりがちで, 結果として一貫性が失われます。
一方で, 例えばパッチ1 (紫) からパッチ2 (緑) への伝達ミスが起こりにくいのは, 時空間パッチというアプローチがフレームの局所的な特徴だけでなく, 動画の時間的な流れと空間的なコンテキストも同時に捉えるためです。この方法では, 一つのパッチが複数のフレームにわたる情報を含み, トランスフォーマーがこれらのパッチを処理する際には, 連続したシーンの関連性を保ちながら次のフレームを生成します。
2. Soraが技術的に得意, 苦手な動画
AI利用の基本として, 得意なこと, 苦手なことを把握し, 得意なことをさせて苦手なことはさせないということは重要な考え方だと思います。ここではSoraの得意, 不得意を技術的な観点から考察します。
2.1 Demo動画から考える得意
キャラクター置換とシンプルな動作の再現: 既存の動画において, 人物や背景をAIが生成したキャラクターや要素で置き換える作業は, 技術的に現在でも実現可能です。これは主に画像認識と生成技術に依存しており, 既存の深層学習モデルを利用して比較的容易に実行できます。
トレーニングしたデータを超えることは出来ないので, すでに存在している動画から逸脱したものは
作れない。物理演算やシミュレーションが一切できないので, その意味ではオリジナリティの
高い動画は作れなく, 既存の動画, imageの組み合わせでオリジナリティを生むしかないように思えます。
・風景シーン, 海, 水, 炎, 雲などの表現
Sora prompt:Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and… pic.twitter.com/QQnMDOHe4H
Runway gen2でもこのような動画は得意でした。なぜですか?
Sora prompt:Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
2. Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/sYarGREcB4
Sora prompt:A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
— ChatGPT研究所 (@ctgptlb) February 15, 2024
Sora prompt:Historical footage of Califorinia during the Gold Rush.
Sora prompt:Historical footage of Califorinia during the Gold Rush.
Sora prompt:Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.
— Sambhav Gupta (@sambhavgupta6) February 15, 2024
写真をつなぎ合わせて動画にしているような, なんちゃらモーション動画, NHKの教育番組で
Sora prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.
Prompt: A Chinese Lunar New Year celebration video with Chinese Dragon. pic.twitter.com/1G43QzRuiP
Runway gen2でも大人数の場合, 動きが加えられず人数が制御できている経験はありました。
もしかして, 内部プロンプトでメインの龍以外の人々の運動を制限しているとか??
Sora prompt: New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York.
Prompt: New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York. pic.twitter.com/Ynu2cRwmj8
現実に存在する町+『特定のアイデア』の動画はSoraが最も得意な領域の一つであり, かつuserのアイデアが最も生かされる動画テーマではないでしょうか?
Sora prompt: The story of a robot's life in a cyberpunk setting.
Prompt: The story of a robot’s life in a cyberpunk setting. pic.twitter.com/OQA5VbqBg4
シーンがシームレスに変化 Connecting Videos
Sora prompt: 未確認
動画生成時のプロンプトが見つからなかった (非公開?) のでどのように作っているのかは分かりませんでした。ただ"interpolate between two input videos (2つの入力ビデオの間を徐々に補間)" と記載がありましたので用意した動画をSoraに渡して作成しているのは間違いなさそうです。
① カメレオンから鳥になる動画
Soraで作成した二つの動画 (左:緑のカメレオン, 右:青い鳥) からさらに新たな動画 (中央) が作り出されています。中央の動画の動物は初めはカメレオンに近い動物でしたが, 『いつのまにか=シームレスに』鳥に変化していました。
② ドローンから蝶になる動画
こちらは背景と飛行物が切り替わる動画です。ドローンから蝶への変化は明らかな切り替わりポイント (あるフレームで一気に蝶へ変身) が確認できましたが, 背景の遺跡と海底は中間のイメージ (海底に沈んだ遺跡) が存在し自然に融合されている印象です。
③ 車から猫になる動画
山道を走行している車と森の中を歩いている猫の動画から, 山道と森が融合されたような背景の中で猫が車の速度で走る動画に切り替わっています。
SoraでいろいろなCrunchycat Lunaちゃんが変身するのを考えるとワクワクがとまりませんね。
2.2 Demo動画から考える苦手
公式が苦手と公表している動画から苦手な動画の傾向をつかみたいと思います。まずは犬 (オオカミ?) が異次元から現れるシーンです。
5匹の犬と定義しましたが, 実際には5匹以上さらに異空間から現れます。
『〇〇人で構成されるヒーロー戦隊』の作成をお願いしても, 『人数』を正しく表現されないことが多いです。
・5匹のオオカミという指定にも関わらず, 予想以上に多くのオオカミが表示される。
・オオカミがフレームの一貫性を欠いて突然現れ, 数が一定しない。
・動画の中でオオカミが画面の端から不自然に登場し, 異次元から現れるように見える。
数の把握の難しさ: AIは数を厳密に把握するのが難しく, 特に複数のオブジェクトが画面に同時に表示される場合, 正確な数を把写することが困難な場合がある。
学習データのバイアス: AIがトレーニングデータで一般的に見た群れの行動を反映しようとする可能性があり, これにより個々のオブジェクトのカウントが不正確になることがあります。
オーバーラップと複製: 特定のオブジェクトがオーバーラップしている場合や, モデルがフレーム間でオブジェクトを解釈するときがある。これが誤って多数のオブジェクトとして解釈されることがあります。
Sora prompt: Basketball through hoop then explodes.
良く見ると爆発した後に網が破れていないにも関わらず (ボールの模様と似ているので分かりにくいですが… ) そのまま網を『網が無いか』のように手前にボールが通過しています。
・爆発するボールがネットを通過する描写があるが, 実際には爆発によってバスケットボールは破壊されネットを通過することはない。
・爆発の衝撃がネットに影響を及ぼさないことも不自然である。爆発の衝撃波は周囲のオブジェクトに影響を与え, ネットを揺らすか変形させるはずである。
・物理的相互作用のシミュレーションの難しさ: 爆発のような複雑な物理的事象の全ての結果をAIが予測し適切に描写するのは困難です。
・データセットの特定のシナリオの不足: 爆発するバスケットボールという非常に特殊な状況を含むデータが学習セットに不足している可能性があり, これが正確な描写の障壁となっています。
Sora prompt: Archeologists discover a generic plastic chair in the desert, excavationg and dusting it with great care.
遺跡?から発掘された椅子が勝手に浮遊して, 去っていきます。
砂漠から掘り起こされた椅子が自律的に動いているように見え, 実際には起こり得ない不自然な物理的挙動が描かれている。
・学習データが不足または不適切で, 椅子の動きを生成する際の誤りがあった。
・物理法則を正確に再現するモデリングの適用に失敗し, その結果, 現実ではあり得ない誤った動作が生じてしまった。
Sora Prompt:Step-printing scene of a person running, cinematic film shot in 35 mm.
運動器の逆走: 運動マシーン上で前方に運動するはずの人物が, Sora生成の動画では逆方向, つまりマシンの後ろへ向かう運動している。
・プロンプトの不明瞭さ: 提供されたプロンプトに具体的な運動方向の記述が欠けており, Soraが運動の方向性を誤解した可能性がある。
・空間認識の欠如: AIが左右や前後の空間的な関係性を正確に認識していないため, 物理的にあり得ない運動パターンを生成した。
・学習データの不足: Soraが適切な学習データを持たない, または運動器を使う人の運動方向が一貫していないデータで学習していたため, 不正確な動作を生成した。
Sora prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
Sora prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
Soraは物理演算を行って動画生成しているわけではなく, 物理演算を行ったような動き,
例えばもし私がSoraに『g=9.8で リンゴの落下運動 を再現して下さい』という動画をお願いしたら
またg= 1.5 も可能かもしれません (月の運動)。 しかしg= 5 は不可能と思われます。
Soraは直接的な物理演算やシミュレーションを行っているわけではなく, モデルの容量を増大させ, 広範なデータでのトレーニング (=スケーリング) を通じて, 物理的な動きを模倣します。例えば, Minecraftの動画やコーヒーカップ上の海賊船のようなシーンは, 事前に学習したデータを基に生成されており, これにより物理エンジンを使用しなくても自然に見える動きや相互作用を再現できます。この能力はデータとモデルのスケーリングによって支えられています。
※おまけ ゲーム分野への応用 (マルチシナリオムービー, 3Dモデリング再構築)
Soraが生成したMinecraft動画が話題になっています。繰り返しになりますが, この動画は物理演算で『直接』シミュレーションしたものではなく事前学習のMinecraftの動画と言った方が正しいです。
Open AIのSoraのデモを見たときゲーム業界に多くのブレイクスルーをもたらしすのではないかと一瞬思いましたが, 個人的にはSoraによる影響は限定的と考えます。
① マルチシナリオのムービーシーン
② 3Dモデリングの下書き
以下大幅に脱線しますがゲームと物理エンジン, シミュレーションについて述べたいと思います。
初代Playstation (©SCE) までは物理演算によるムービーシーンは実現されていませんでした。世界の物理秩序によって動いているようにみえるゲーム内の動きは全て, 事前に用意されたムービーでした。
家庭用ゲーム機で初めて物理演算が注目されたゲームとしてPS2の『ファンタビジョン』と記憶しています。このゲームでは, PS2の処理能力を利用して花火の軌道をリアルタイムで計算し, 動的なビジュアルエフェクトを実現していました。
PS1時代は事前に用意された (プレレンダリングされた) ムービーの再生で動きを表現していました。例えばゾンビが打たれると, 『用意されていた』ゾンビが吹っ飛ぶシーンを再生します。
一方, PS4では物理エンジンでこれらの『破壊』や『爆発』などの動きを計算によってリアルタイムに動画として直接動的に再現しています。
実際Soraが行うことができることは, 上の図の緑 (Pre-rendered) の部分でゲームでいうところの挿入ムービーの作成となります。
3D 再構成
Generative 3d environments just became a thing with the announcement of OpenAI's new video model, Sora.
2.3 Demoから考える得意, 不得意まとめ
これまでの本note記事を二つのAI (Claude3とChatGPT) に渡して要約してもらいました。
Soraの技術的得意 まとめ
・再利用と組み合わせ: Soraは既存の動画素材を効果的に抽出, 再利用し, 新しいストーリーやビジュアルスタイルを持つ動画を生成する能力に優れています。
・キャラクターと背景の置換: 実写動画内のキャラクターや背景をAIが生成した要素で置き換えることができ, これにより一貫したスタイルとテーマを維持しつつ新しい視覚体験を提供します。
シンプルな物理動作とアートスタイルの適用: Soraはシンプルな物理動作を取り入れたアニメーションや, 特定のアートスタイルを適用した印象的なプロモーションビデオやアートワークの生成に長けています。
Soraの技術的不得意 まとめ
・物理シミュレーション: 物理法則に則った複雑な現象, 例えばガラスの割れ方や液体の流れ方などの正確なシミュレーションはAIにとって困難です。これには詳細な物理演算が必要で, 現在のAI技術では限界があります。Soraは直接的な物理演算を行っているわけではなく, 学習データに基づいて物理的な動きを模倣しているため, 状況によっては不自然な表現が生成されることがあります。
・正確な因果関係の理解と表現: 特定の行動とそれに伴う具体的な結果(例えば, クッキーをかじるという行為後のクッキーにかじった痕跡の表現)の正確なシミュレーションが難しいです。これはAIが特定の原因と結果を適切に理解し, それに基づいて動画内で表現することが困難であることを意味します。Soraは学習データから因果関係を推測していますが, 真の意味での理解には至っていないと考えられます。
・非現実的な相互作用: 物体同士の相互作用や, 物体と環境の関係性が, 物理法則に反する形で表現されることがあります。これは, Soraが物理的な制約を十分に理解していないことを示唆しています。
・空間的詳細の混同: 特定の空間における物体の正確な配置や左右の区別など, 空間に関する詳細の混同が生じやすいです。AIはしばしば, 空間的な位置関係や方向性を誤って解釈することがあります。これは, 学習データの偏りや不足, あるいはAIの空間認識能力の限界に起因すると考えられます。
・時間を通じた正確なイベントの追跡: 時間の経過に伴うイベントの正確な記述や, 特定のカメラの動きに沿った動作の追跡が難しいです。これはAIが時間的な連続性や動的なシーンの変化を正確に捉えるのが苦手であることを示しています。Soraは個々のフレームを生成する能力は高いですが, それらを時間軸に沿って整合性のある形でつなぎ合わせることが難しいようです。
・複数オブジェクトの正確な数の表現: Soraは, 複数のオブジェクトが同時に画面に表示される場合, その正確な数を把握し, 表現することが苦手です。これは, 学習データの制約や, 数の概念を抽象化する能力の限界に起因すると考えられます。
・キャラクターと背景の置換: 既存の動画のキャラクターや背景をAI生成要素に置き換え, 新しい視覚体験とストーリーを提供する。
・シンプルな動作とアートスタイルの適用: シンプル動作を取り入れたアニメーションや特定アートスタイルのプロモーションビデオとアートワークを生成。
・動画の滑らかな結合: 複数の動画を滑らかに結合し, 異なる要素を自然に融合させ新しい表現を生み出す。
・物理シミュレーション: 物理法則に基づいた複雑な現象のシミュレーションが困難。直接的な物理演算に限界がある。
・因果関係の表現: 特定の行動と結果のシミュレーションが難しい。因果関係を推測するが, 完全な理解には至らない。
・非現実的な相互作用: 物体間や物体と環境の関係性が物理法則に反する形で表現されることがある。
・空間的詳細の混同: 左右など物体の正確な配置や区別の誤解が生じやすい。
・時間を通じたイベントの追跡: 時間経過と共にイベントやカメラ動作の追跡が難しい。
・複数オブジェクトの数表現: 画面上のオブジェクトの正確な数を把握し表現するのが苦手。
2.4 プロンプトの考察
まだ一度もSoraを使ったことが無いのでこの時点でプロンプトについて考えるのは非効率だと思います。しかし, これまでの得意, 苦手な動画の傾向から現時点でも『ある程度』有用と思われるプロンプトのアイデアは考察できるかなと思います。
1. 主題とシーンの設定: プロンプトで描写するシーンの基本的な状況を明確にします。
2. 動的要素: 動きやアクションの説明を入れることで, 動画が持つべきダイナミクスを示します。
3. 視覚的要素: 色, テクスチャー, スタイル (Artistic styles) など, 視覚に訴える詳細を追加します。
4. 詳細な描写: 物理的な環境, 対象の特徴, 動作の詳細などを具体的に書きます。
① シンプルプロンプトの有効性: Soraは簡潔なプロンプトでも高品質な動画を生成するが, 複雑なシーンでは詳細な記述が必要である。
② 具体性と抽象性のバランス: プロンプトの具体性と抽象性を適切にバランスさせる (具体的すぎると自由度が低く訓練データに該当する動画がなく, 逆に抽象的であると指示が伝わらない問題) ことで, Soraの創造性を最大限に引き出すことができる。
③ 視点, 状況, 雰囲気の具体化: プロンプトに視点, 状況, 雰囲気を明確にすることで, よりリアルでインパクトのある映像が生成される。
④ 訓練データへの依存: Soraは訓練データに基づいて映像を生成するため, 完全に新しい内容の生成には限界がある。
一方, 不得意領域からプロンプト作成のコツを考えるのは非効率でないかと考えます。
というわけで, これまでの全てのやり取りから Soraの動画の例を挙げてください。
1. キャラクターや背景の置換: 既存の動画に登場するキャラクターや背景をAIが生成した新しい要素に置き換える動画。 2. シンプルなアニメーション: 基本的な動作を取り入れたアニメーション動画。 3. アートスタイル適用: 特定のアートスタイルを適用したプロモーションビデオやアートワーク。 4. 異なる動画の結合: 複数の異なる動画を滑らかに結合し, 新しい表現を生み出す動画。 5. 自然現象の表現: 海, 水, 炎, 雲などの自然現象を美しく表現した風景動画。 6. クリエイティブなキャラクターデザイン: ユニークなキャラクターデザインと背景を組み合わせた創造的な動画。 7. 時代や場所の再現: 特定の時代や場所を再現したシチュエーション動画。 8. ゲーム用ムービーシーン: ゲーム内のマルチシナリオのムービーシーンや3Dモデリングの下書きとして活用できる動画。 9. プロモーション動画: 商品やサービスの魅力を伝える動画。 10. 短編アニメーション: ストーリー性のある短編アニメーション動画。 11. 教育動画: 教育目的の解説動画やチュートリアル動画。 12. ミュージックビデオ: ミュージックビデオやライブパフォーマンス動画。 13. インタラクティブ動画: バーチャルリアリティ(VR)やaugmented reality(AR)用のインタラクティブ動画。 14. ソーシャルメディア広告: ソーシャルメディア用の短尺動画広告。 15. 企業紹介動画: 企業や組織の紹介動画やブランディング動画。
2.5 著作権による制限
Open AI DALLE3は著作権を侵害するような画像生成をしにくいような設計となっています。
userが著作権侵害に当たるような生成を行うとき, 例えば『進撃の〇人』など指示した場合。① DALLEは作成を拒否する ② クオリティを下げた似ている画像を生成する ③ 偶然作れてしまう。の3パターンを取ることが知られています。
実際Soraをテストしているuserから, Soraでも同様の挙動を取ることが確認されています。以下の記事を読む限り, 著作物を連想するような動画の表現についてはかなり厳しそうな印象を受けました。
Soraによる短編ムービー『Air Head』制作インタビューの中で以下の様に語られています。
(英) For example, if you prompt "something such as 35 mm film in a futuristic spaceship, a man walks forward with a light sword", SORA will not allow the clip to be generated as it is too close to Star Wars.
(和) 例えば「未来的な宇宙船の中で35 mmフィルムを使用し, 男性が光の剣を持って前に歩く」というようなプロンプトを入力すると, SORAは『スター・ウォーズ』に近すぎるとしてクリップの生成を許可しません。
疑問なのが著作権を避ける挙動を行うというSora (DALLE)の性質から, テキストプロンプトからは
生成のみを拒否することが予想されます。しかし image2video(画像から動画生成)のデモを見る限り
技術的には可能でトレーニングデータでスターウォーズを学習しているはずなので, スターウォーズの
画像を渡したとき 1. 拒否する 2. そこから別の似た動画をつくる 3. 偶然作れてしまう の
このような記事を書いておきながら, そもそも論としてAIによる著作権侵害の問題はどのようになっているのかについてです。文化庁の『AIと著作権に関する考え方について』は必読です。
文章全体を参照して, 著作権侵害の観点から述べて下さい。
整数比 例えば 8:2で賛成など。
パブリックコメントを読み込ませたときも, 『反対寄り』の意見でした。GPTも同じような考えでした。作成者本人 (AI) がいう位ですので深刻な問題です。
2.6 Soraに長編ムービーは描けるのか
Soraは最長1分ほどの動画が描けるとのことです。最も注目されているSoraの活用として, 物語性のあるショートムービーではないでしょうか?
現在AIを用いた動画作成の一般的な作成方法としては, ① Midjourneyなどで高品質な画像を作成 ② Runway gen2 などで4秒程度のショートムービーを作成 ③ 動画編集ソフトでそれらを結合して1本の動画にする, などのstepがあります。
Sora: Image to Video
— Saas Market Store (@SaasMarketStore) February 28, 2024
(↑ DALLE3の画像から生成されたSora動画)
Prompt: too many cooks in the kitchen
Sora Prompt or DALLE3 prompt??
一方, Soraでは単独で比較的長時間の動画が作成可能とのことで, これまでのプロセスを大幅に簡略化できるといった期待がありました。果たしてSoraで長時間動画が描けるでしょうか?
If you don't stay up to date with AI, you will be DESTROYED.
Sora prompt: The story of a robot's life in a cyberpunk setting.
この動画は『The story of a robot's life in a cyberpunk setting. サイバーパンク設定でのロボット人生のストーリー』という非常に短いプロンプトで生成されています。
これまで公開されたデモで life of a robotみたいな動画がありました。
しかし複雑なモーションはなく, 中央でロボットが立っているだけでした。
長文プロンプトで詳細な設定で動画を描くことはできず, 敢えて短いプロンプトで作成したと類推しています。
① 0-5 s: ロボットがサイバーパンクの街の中央で両手と首を少し動かし立っている。
② 5-13 s:シーンは切り替わり同じロボットが露店 (機械などの修理店?) で立っている。ロボットは同じような動き, 人は機械をいじっている動作。
③ 13 s-last:同じ場所でカメラが上からのアングルに切り替わる。ロボットは同じような動きをしている。
注目すべきはシーンが変わっていも同じロボット (一貫性が保たれている) であること複雑な動作はしていないことです。
ここでDALLE3で (Soraでも?) 画像を生成するときのプロンプトについて考えます。画像 (動画) の特徴をAIに伝えるときは以下の要素を説明するとうまく伝わります。
DALLE3 promptの構成要素
1. Subject (主題)
2. Setting (環境)
3. Action (アクション)
4. Objects (具体的な物体)
5. Artistic style (画風)
(6.) Emotion and Expression (感情と表情)
1. Subject (主題): a robot's life (ロボットの一生)
2. Setting (環境): in a cyberpunk city (サイバーパンクの街)
3. Action (アクション): 指定なし
4. Objects (具体的な物体):指定なし (露店や修理屋のおじさんなど指定していない)
5. Artistic style (画風): cyberpunk (サイバーパンク)
特にアクション動作の詳細やロボット以外の登場人物の指定はしておらず, 非常にシンプルなプロンプトです。AIが考える余地を与えており, 自由度の高いプロンプトと言えます。
逆を言えば, 詳細な指定がなければ, AIの解釈によって自由度が高すぎるため種々の動画が出来る可能性があり, userの望んだ詳細なムービーシーンを作ることが難しい可能性があります。
ここでDALLE3の画像生成リクエスト時のおさらいをしてみます。画像生成するときにuserはまず, ChatGPTのチャット欄で簡単なイメージの原案を伝えます。
ChatGPTはuserのリクエストを受け, 実際に高品質な画像を生成しやすい?ように『詳細』なプロンプトをDALLE3に渡します。
DALLE prompt: A cinematic cyberpunk style depiction of a young android robot stepping off an assembly line in a robot factory for the first time. The scene includes robotic arms, tools, and convey belt, surrounded by an atmosphere filled with industrial elements and moody lighting. The factory is designed with futuristic, industrial aesthetics common in cyberpunk themes, featuring dark tones and neon highlights.
このプロンプトを構成要素に分解しています。特に画風 (Artistic Style) に関してuserの説明が足りない記述をChatGPTが考えてくれていました。
Detailde prompt of scene1: A young android robot stepping off an assembly line in a robot factory. The robot is stepping off the assembly line for the first time. Includes robotic arms, tools, and a conveyor belt. A cinematic cyberpunk style depiction with an atmosphere filled with industrial elements and moody lighting. The factory is designed with futuristic, industrial aesthetics common in cyberpunk themes, featuring dark tones and neon highlights.
シーンを複数作る場合は, subject (主題) は共通のものを使うことが多いですが, ActionやSettingなどが大幅に変わる可能性があるのでプロンプトの文字数もそれに応じて『膨大』になります。
また, 現時点でSoraはとんでもないスピードのアクションやカメラワークの描写が可能であることが示唆されています。
このデモ動画を観る限り複雑なモーション (人の関節, 手指の動作など3次元の曲線運動) はさておき単純な運動 (繰り返し, 単調な回転) に関しては高速の平行移動, カメラ視点の移動が期待できます。
という訳でシーン毎にオブジェクト, 速度も含めたアクション, スタイル, カメラなどを詳細に記述するとプロンプトが膨大になることは容易に想像できます。
物語性の高い長編ムービーを作成する方法として, ① 複数シーンに分割する方法, ② 1本の動画に複数シーンを含める。の2通りがあります。効率よく安定してムービーを作る方法はどちらでしょうか。
① シーンを分割して作成する方法
まずはじめに, 生成AI (DALLE3など) の特性自体が毎回, ランダムな画像, 動画を生成することにあります。例えば昔話の異なるシーンを複数作成するとどう頑張っても毎回異なるおじいさんや桃太郎が生成されていまいます。
② 1本の動画に複数シーンを含める
何度も同じような説明また, 基本的な話の繰り返しで申し訳ありませんがDALLE3 (恐らくSoraも) ではuserの簡単な指示を受けてGPTが内部で詳細なプロンプトを作成し画像生成を行っています。例えば『美味しそうな丼ぶり』と指示すると…
GPTはuserの『空気を読んで』希望する画像を生成します。サーモンの刺身が乗っている, セラミックボールの器, 背景など詳細な描写を行い, どんぶりを作るためのpromptを考えてくれます。これを実際の画像生成時に使われるプロンプト, ここでは『詳細プロンプト detailed prompt』『内部プロンプト internal prompt』と呼びます。
Dalle prompt: A delicious looking donburi, featureing glistening slices of salmon sashimi atop a bowl of steaming white rice, garnished with thinly sliced green onions, a sprinkle of sesame seeds, and a drizzle of soy sauce. The bowl is ceramic, with a simple but elegant blue and white pattern. The background is softly blurred to enhance the focus on the vibrant colors of the food.
Soraでも当然この手法をとることを予想しています。なぜならこれまでの, Open AIの歴史から (といってもDALLE位ですが…), userが描いたシンプルで直感的なアイデアをGPTが補完しoutputすることが売りですので。という訳で以下の『サイバーパンクのロボットの一生』はuser promptに相当し
Simple Prompt (user prompt) : The story of a robot’s life in a cyberpunk setting
これを受けGPT (Sora) が詳細なプロンプトを内部で生成し, それを元に動画化している可能性を考えます。
Detailed prompt (Internal prompt): A robot stands in the center of a cyberpunk city, subtly moving its arms and head, surrounded by neon lights and futuristic architecture. The scene then shifts to a street vendor's stall, where the same robot stands by as a human mechanic repairs gadgets amid the city's ambient sounds. Finally, the camera angle switches to a bird's-eye view, focusing on the robot continuing its movements against the backdrop of glossy, rain-slicked surfaces that reflect vibrant lights, enhancing the nocturnal, urban atmosphere.
このような simple prompt→内部でGPTが詳細プロンプトを作成→動画生成の流れが最も『推奨される』soraの使い方であり, 初めから詳細なプロンプトを指示するのはお勧めできない使い方と考えます。理由は以下の通りです。
この絵はDALLEに『不思議の国のアリス, バラ, SF調』など同時に複数の条件をお願いして作ってもらった絵です。基本的に不思議の国のアリスはパブリックドメイン (≒著作権フリー) のため著作権的には描けるはずです。
しかし, 実際出力された絵は条件を完全には満たさずところどころこちらの要望と異なるものが出来上がっています。
① アリス 白と赤のバラ 〇:ok
② ペンキを塗る × :ペンキは描かれておらず。
③ スタイル ロマン主義 油絵 SF調 追加表現 ×:一般的な油絵でSFやロマン主義の要素はない
④ トランプ兵 ×:描かれていません
⑤ 白ウサギが時計を持つ ×:ウサギはいますが時計を持っていません。
一方, これらの条件を1回の画像生成ごと個別に依頼すると容易に達成できます。例えば1回の画像生成で『バラにペンキを塗るシーン』とだけお願いすれば適切な画像が生成されます。
これはトレーニングデータに全てを満たす画像があれば容易に作成できますが, そのような画像はまずありえないので, 複雑なシーンを同時に作成する技術的難易度が一気に上昇するためuser promptの全体の印象に合致した画像が生成されると考えます。
この問題はDALLE3のみならずSoraでも顕著に表れると思われます。おそらく手に持つ系 (Aliceがペンキを持つ, ウサギが時計を持つなど) の表現, アクションを詳細に指示しても, 空間位置関係の把握, 人物とオブジェクトの形状, 大きさの整合性を保つことの問題, そもそも, 多くの情報をプロンプトに含めるとお互いの指示が矛盾を生じる可能性が大になってきます。
一方, これは経験的なもので何の根拠もありませんが, 画風 (Artistic Style) を説明する
promptの文字数を多く含めた場合, あまり問題にならないような気がします。
アクションやオブジェクトを多く要求するよりも, Artistic style に関する情報を
多く記載した場合はうまくいきますか? アクションなどは一単語が無視されたら画像に
大きく影響するがstyleの場合, 一単語を無視されてもuserは気づかないだけかもしれませんが...
つづいて, 長文プロンプトにすることで著作物とバッティングする問題です。アリスの『茶会』自体は著作権的に問題なく描かれますが, マッドハッターという単語を入れると作成されにくくなります。
特定の映画のキャラクターを連想するワードを含むとcontents policyに違反し描かれにくくなります。
さらに問題なことはこれまで他の記事でも何度か解説していますが, DALLE3は著作物を避けるため画像のqualityを極端に下げる傾向があります。
以上からDALLE3 (Sora)のプロンプトのコツの私の考え総括です。
・ 考えるのが大変:出来るか出来ないか作ってみないと分からないことが多い。
DALLE (Sora) は他のAIより著作物を避けるように設計されているため制約が多くなる。
動画 (画像) 生成AIにおける適切なプロンプト文字数の考察
1. 技術的問題
2. 著作権的問題
このあたりの考察は『Air Head』の作者も同じようなことを言っており, 映画本編, プロモーションなどHigh quality プロっぽい動画が従来の方法, Midjourneyで画像作り→Upscale→image2videoの手法がSoraに置き換わることはなさそうと考えます。
Soraでは詳細なシーンを1本の動画に収めることが難しく, 無理に自由度の低いものを描くよりもシンプルなプロンプトでAIに自由に描いてもらった方が良い。
結論:物語性のある長編ムービーはSoraで作成することは非効率であり, 従来の方法 (Midjourney→Runway→結合) を推奨。
2.7 Soraに複雑な動きはできるのか?
上記の例において, 単純なactionの指示をpromptに含めているのが分かります。実際指示した動きのいくつかは『無視』され, 代わりにAIが考えた自然な動きが出力されます。
・鳥 head is tilted (首を傾ける)→ 大して傾けていない
・船 battle each other (お互い戦闘する) →戦わずにぐるぐる回っている
・人形 create pattern (模様を作る)→ 作らずに熊手を振り回しているだけ
Runwayのdescribe機能などを使っていたら薄々感じるかもしれませんが, 上のようなaction のpromptの多くはあってもなくても同じ結果になると思われます。実際, Runwayでも良く指示を『無視』されることは経験すると思います。
・リスみたいな動物 gaze (木を見上げる)→木が描かれず, 見上げることもない
・タコとカニ close (目を閉じる) rest (休憩する), raise claws (ハサミを振り上げる) →ゆっくり目を閉じて休憩しているところを背後からゆっくりカニが忍び寄りハサミを振り上げるシーンを描きたかったのだが, 実際は開始から仲良くじゃれあいながら歩いているように見える ハサミの描写なし
promptにactionの指示を書いたにも関わらず, 『無視』された原因として前述のとおり, promptの文字数が多すぎるため, 技術的な要求値が高いこと, そもそも, 複雑な動作, 位置関係 (towards it from behind a rock) を再現するのが困難なことが挙げられます。
これらの例は単純な動作のため基本的にpromptに忠実でした。しかし, 『枕元から秘密のお菓子を出す』という比較的複雑な動作は無視されています。
・猫と飼い主 pull out treats (お菓子を取り出す)→取り出さない
これらの動画でActionの要求が無視されたということはなかったのですが, 重要な特性が示されています。一つは位置関係の把握の困難です。
ダルメシアンの動画では "inside the house, looking outside through window (家の中から窓越しに外をながめる)"とプロンプトされていました。
では図1のような, ダルメシアンが家の中にいて窓越しに外を見るようなイメージを
実際の位置関係を図示したうえで, 作成しましたが窓の内か外か分からないような現実的にはあり得ない図ができました。
野球, サッカーなど位置関係, 手足の相対的な位置関係などが複雑かつ,
DALLE3で画像生成 フリーキックのシーン, キッカーの後ろからの視点, ペナルティエリアやや後ろ
そもそもaction のpromptが無いということもありますが, 人々は『建設作業』をあまりしておらず, これまでの動画で描かれているような単純な動作, 『歩く, 腕を動かす』などのレベルにとどまっています。
以下はHyper AIの『建設作業風景』ですが, ショベルカーのアームの動きなど実際の動きに近い動画となっています。
DALLE prompt: A highly detailed diorama close-up depicting several construction workers engaged in various tasks. One worker is using a pickaxe, another is operating a drill, and a third is handling a different tool. The scene is bustling with activity, showcasing intricate details of the construction site, including debris, machinery, and building materials. The workers wear safety helmets and reflective vests.
1. 単純な動作を推奨: Soraは歩く, 腕を振る, 車など乗り物の移動など基本的な動作を正確に再現できる。
2. 複雑な動きの困難さ: 手の複雑な動作や道具の使用など, 複数要素が絡む動作は挑戦的であり, 特に位置関係の正確な把握が難しい。
3. プロンプトの指示の無視: 複雑なアクションの指示がしばしば無視され, より単純な動きに置き換えられる。
4. 複雑なシナリオの限界: 以上から野球やサッカーのような複雑な動きを伴うスポーツの再現は困難である。
2.8 Image to Video (画像からビデオ) の性能は?
Sora: Image to Video
Prompt: too many cooks in the kitchen
切り取ったシーンを比較します。左が① 0秒 DALLE3の画像, 右が② Soraの動画の1カットです。
これまでのSoraの技術情報のやりとりとあなた (ChatGPT) の事前学習から, この動画の作成
プロセスを説明してください。リリースされておらず, こちらの情報も全て合っているか分からない
1. ベースイメージの選定:ユーザーが提供した画像①が動画の初期フレームとして使用され, 厨房の複雑な環境と多くのシェフが特徴です。
2. プロンプトの影響:"too many cooks in the kitchen"というフレーズがプロンプトとして用いられ, シーンの混雑や活動の激しさを強調し, 動画のテーマを設定しています。
3. トレーニングデータの活用:Soraはトランスフォーマー技術を用い, トレーニングデータ内の類似シーンから特徴を抽出して新しい動画シーンを生成します。
4. シーンの連続性と進化:厨房の設定を保ちつつ, カメラのアングルやシェフの位置, 動作が自然に変化しています。
5. ディープラーニングの活用:与えられた画像から動きやシーンを予測し, 視覚的一貫性を保ちながら動画全体に物語性を構築します。
また, 初めに与えたDALLE画像はCGアート, ジオラマに近いスタイル (画風) ですが, 動画として再生すると完全な『実写』に切り替わっています。
これはSoraのトレーニングデータが圧倒的に『実写』が多く, userがpromptで指示しなければ, 内部でも恐らく実写スタイルが選ばれるような傾向があると予想されます。
このことは他のtest userも述べていました。
Soraはプロンプトに画風 (Artistic Styles) に関する指示を含めなければ
ImagetoVideo (i2v)
位置関係など複雑でtext promptだけで作成することが難しい画像などでも,
picture fileを与えることで, 動画の1コマ目を容易に作成できる。
2.デメリット 自由度が低くなり『得意な』動画生成というAIの最大の利点を損なう。
あと著作権の問題, 著作物のイメージを渡すと低クオリティの動画出力されるか, そもそも出力されない。
1. メリット
画像を用いることで, 動画の初期フレームを簡単に設定でき, 複雑なシーンやテキストでは伝えにくい細部を具体化することが可能
2. デメリット
画像に基づく動画生成は自由度が低下し, AIの創造性を制限します。また、著作権問題やトレーニングデータとの一致が必要など, 技術的な制約が多い
※ 余談 蛇足 ちなみに『』歩く女性の動画を見ていて, ものすごく不自然に見えました。同じ空間にいる女性ではなく, 別々に生成した画像を動画にしているように見えました。
もしかしたら一度に作るのは難易度が高いため, image2video (∵テキストプロンプトで全てを実現するのは困難) で作成しているのでしょうか。女性の画像 (≒ 動画) を別のところからもってきたのかもしれません。内部でそのような処理が施されている可能性もありますが… 仮説だらけで申し訳ありません…
実際私もChapter 3.2の動画を直接作るのが難しかったのでこの方法で作っています。
ただいずれにしても, この手法に近い方法で作っている以上, 発色, 光の表現においてリアリティが著しく下がり, Soraの動画は『AIで作った動画』と簡単にばれてしまいます。
【実践編 (本編)】
3. Soraのアイデア活用例
現時点で個人的に面白いと考えるSoraのアイデアを挙げていきます。また, Soraで実現可能, 相性が良いものを★マークで評価してみたいと思います。
★★★:得意 高品質な動画が出来ると思われます。
★☆☆:苦手 Soraでは作成難しいかも??
Soraが得意と思われるジャンルを以下に挙げました。主にストーリーやアクションが複雑ではないショートムービーと相性が良く, DALLE3で作成しているような芸術的, エンタメ的な動画の作成が可能と考えます。
1. 日常の風景:既存動画のキャラクターや背景をオリジナルのものに
2. アートスタイル適応:既存動画に異なるアートスタイルを適応
3. シンプルアニメーション:短編, 基本な動作を取り入れたアニメ
4. 異なる動画の結合:複数の異なる動画を滑らかに結合
5. 自然現象の表現:海, 炎, 雲, 雪などの自然現象を美しく表現
6. クリエイティブキャラクター:存在しない動物, 既存生物をオリジナルで
7. 時代, 場所の再現:既存の場所を異なる時代, 存在しない架空の都市に
8. プロモーション:CM, 広告, 商品, サービス, 会社などの紹介動画
9. ミュージックビデオ:実在しないアーティスト, 動物などが歌うシーン
10. ホビー:おもちゃ, 人形, フィギュア, ジオラマ
11. ゲームムービー:ゲーム, アトラクションで流れる短編の挿入ムービー
12. その他, エンタメ:いろいろ
1. 高度な物語性:長編 (短編ではない) の映画やドラマ
2. 現実世界, 知的財産:実在する場所, 著作物, 商品, 固有キャラクター
3. 因果関係, 抽象表現:概念図やアイデアを映像化したもの
4. 複雑な動作, 位置関係: 代表的なものはスポーツ (特に球技)
5. 教育, 解説:技術の解説動画など
6. リアルタイム:ニュース, ライブなどに合わせた実況AI, バーチャルツアー
7. 物理シミュレーション:物理法則にのっとった演算
動画のジャンルを用途別, 機能別に分類してみました。
基本的にバイオレンス, センシティブ (犯罪, 性描写, 法, 政治, 倫理, 宗教, 民族, 個人情報曝露) は
描きません。またフェイクニュースなどもあいまいですが幅広い意味でYoutube背景, エンタメに
含めようかなと考えます。文化, 健康, 個人にカスタマイズした動画など上記で直接語っていない
動画に関して, 提示したカテゴリの組み合わせで実現可能なものは含めていません。
この世に存在する, 『全動画』をカテゴライズしたと言い切っていますが良いのでしょうか?..
1. 日常の風景
生活シーン全般 ★★★
(Soraに指示するであろう文) ホットケーキを作っている風景を描いてください。
※ 以降の動画はあくまで想像イメージです。Soraで実際に作ったわけではありません。DALLE3→Runway gen2などで動画化しています。
ホットケーキの焼き上がり ★★☆
次は, このホットケーキミックスをフライパンで焼いてください。
このようなテキストプロンプトでお願いすれば焼きあがる動画は出来上がると思います。しかしイメージ (jpegなど) を渡し動画化をお願いした場合, いわゆる imege to video (i2v)
未来の予測など因果関係, 高度な考察, 物理演算を伴う動画は不得意なため, Soraが正しく解釈しなければ生成されない可能性があります。
実世界の旅 ★★★
長靴をはいた猫, 生誕38周年ということでオマージュ作品を考えてみます。
(Soraに指示するであろう文) 世界一周旅行の動画を考えています。主人公は白黒の猫です。
Dalle prompt: A realistic photograph taken from the height of a cat, showcasing Athens with the aesthetic of a picturesque Greek island like Santorini, now including a fluffy black and white kitten in the foreground. The kitten, vividly black and white, is observing the classic Mediterranean architecture characterized by white buildings with blue accents. The composition still includes flower-lined pathways and rooftop gardens, capturing the urban landscape of Greece. Distant views of the city with landmarks like the Acropolis are visible, all under a bright, clear sky, surrounded by the natural beauty of the Greek landscape.
(Soraに指示するであろう文) では次はエジプトです。
Dalle prompt: A realistic photograph taken from the height of a cat, showcasing the majestic pyramids and the Sphinx of Egypt, now including a fluffy black and white kitten in the foreground. The scene captures the towering pyramids and the Sphinx with fine details visible on the stone surfaces, seen from a low angle to emphasize their grandeur. The kitten, vividly black and white, is observing these ancient monuments, adding a playful contrast to the historical setting. The vast desert landscape and clear blue sky complete the iconic Egyptian backdrop.
DALLE prompt: Realistic photograph of the Taj Mahal in India, captured on a bright sunny day. The image should show the majestic white marble mausoleum in all its glory, reflecting the sunlight, with its iconic large dome and minarets. In the foreground, visitors admire the beauty, adding a lively human element. A black and white kitten can be seen in the distance, adding a playful contrast. The blue sky and fluffy white clouds create a perfect backdrop, emphasizing the serenity and grandeur of the Taj Mahal.
Dalle prompt: Realistic photograph depicting a scene from a 1970s movie set in a traditional Chinese restaurant. An elderly Asian kung fu master is eating Chinese food at a small table, surrounded by other patrons dressed in 1970s fashion. The setting features vintage decor typical of the 1970s with wooden furniture, old-style Chinese calligraphy on the walls, and retro lighting. A small black and white kitten sits on a nearby chair, adding to the authentic and atmospheric setting of a classic 1970s film.
お腹が一杯になったので, 次はバリ島でスキューバーダイビングに行きたいです。
Dalle prompt: Realistic underwater scene of scuba diving in Bali, featuring the beautiful marine environment with clear blue water, colorful coral reefs, and diverse marine life. A small black and white kitten, wearing a tiny scuba diving gear, is also exploring the underwater world. The scene captures the tranquility and vibrant colors of the ocean, with sun rays filtering through the water, highlighting the kitten's adventurous spirit in this surreal yet enchanting setting.
Dalle prompt: Realistic photograph of a cafe interior in Roswell, New Mexico, USA, with a heightened sense of realism. The American-style diner has vintage decor, including retro diner booths and Americana memorabilia. A table in the foreground displays a hearty meal of a burger and fries. A small black and white kitten is playfully exploring the diner. An alien figure, designed to look surprisingly realistic and lifelike, sits at a nearby booth, blending subtly into the scene as if it were a normal customer, enhancing the surreal yet authentic atmosphere of the cafe.
2. 異なるアートスタイルの適応
ドライブの背景を変更 ★★★
車が走っているシーンなど, 自然の景色の描写などで背景の一部などを『異なるアートスタイル』に変更します。厳密には先ほどのカテゴリー1. と共通している部分が多いですが…
Dalle prompt: A realistic scene of a car driving, viewed from the side. The setting is a sunny day on an open road surrounded by greenery. The car is modern and sleek, metallic silver in color, reflecting the sunlight. There is motion blur around the wheels and background to emphasize speed. The road stretches into the horizon, and there are no other vehicles in sight.
DALLEの編集機能で背景をブラシで塗りつぶし, 『田んぼの風景』に変更するように指示します。
したの動画は先ほどのUFO cafeで偶然できた良さげな背景 (DALLE) を無理やりPhotoshopではめ込めこみRunwayで動かしたものです。
このような複雑な行程で行っている『合成動画』をSoraではシンプルなText Promptで迅速, 容易に行うことができるのではないかと予想しています。以下は背景のみをDALLEで画像生成したものです。
ボトルシップの海を別の液体に変更 ★★★
動画の構成要素 (例えばボトルシップの水のみ) を他のスタイルに変更することは容易ではないかと予想しています。
DALLE prompt: A photorealistic image of a ship in a bottle, modified to show the ship floating on water inside the bottle. The clear glass bottle showcases a detailed wooden ship with multiple sails and riggings, now set upon a small, crafted sea of blue water that fills the lower part of the bottle. The bottle remains on a polished wooden stand, against a softly lit background that enhances the magical realism of the scene, with reflections on the water and glass adding depth.
Dalle prompt: Create a highly detailed diorama of a ship in a bottle, where the water is replaced with melon soda. The scene should depict a miniature ship with elaborate detail, floating on the effervescent, bubbly green melon soda inside a clear glass bottle. The bottle should be set against a backdrop that complements the whimsical concept, with attention to the soda's texture and the ship's intricate design.
『ラムネ (kind of Japanese Soda)』
DALLE prompt: Create an image of a miniature ship floating in ramune, a Japanese soda. The scene should depict the ship intricately detailed, bobbing on the effervescent, bubbly blue soda within a clear container. The focus should be on the playful interaction between the floating ship and the characteristic bubbles of ramune, capturing a whimsical and imaginative setting.
『コーラ (cola)』
DALLE prompt: Create a highly detailed diorama of a ship in a bottle, with the water replaced by cola. The scene should depict a miniature ship with elaborate detail, floating on the dark and bubbly cola inside a clear glass bottle. The bottle should be set against a backdrop that complements the theme, with attention to the cola's characteristic texture and the ship's intricate design.
Haiper prompt: Waves in a sea of cola, with carbonation bubbles bursting.
キャラクターの鎧を変更 ★★★
ガラスの騎士のみのDALLE prompt: A full-body image of a knight in transparent glass armor viewed from the back, in a fighting pose with a sword. The knight is ready for combat, with the sword raised and positioned to strike. The pose should convey a sense of dynamic action and preparedness for battle, highlighting the detailed, shimmering glass armor from a rear perspective.
現在の技術では『DALLEでガラスの鎧を作る→photoshopで合成→Hyper AIなどで動画化』といった複数の行程を要しますが, Demo動画を見る限りSoraではダイレクトに描ける可能性があります。※下の動画はあくまでイメージです Soraではここまで一貫性は保たれない可能性があります。
砂で出来た人 ★☆☆
砂人間の砂が崩れ落ちて, 海岸と一体化するような動画は難しいかもしれません。物理現象や因果関係の予測はむずかしく, トレーニングデータになければ描くことは困難と思われます。
チョコレートで出来たゆるキャラ ★☆☆
砂よりも難易度が低そうですが, こちらも基本的に描画は困難ではないかと考えています。
DALLE prompt: Create a photorealistic image of a chocolate mascot in the shape of a cute character, melting. The mascot is sculpted entirely from dark chocolate, with a friendly and inviting design, featuring exaggerated, cartoonish features. It is positioned on a smooth surface, with the chocolate beginning to soften and drip, creating puddles around its base. The scene captures the moment of transformation, emphasizing the glossy sheen of the melting chocolate under warm lighting, highlighting the realism of the chocolate sculpture.
3. シンプルアニメーション
Soraは長編の物語性の強いアニメは苦手と思われます。また著作権を侵害するような動画生成を避ける傾向にあります。出来るだけシンプル, 一般的なキャラ, ストーリーに関しては複雑なものを指定せずに簡単なテーマを与え自由に作ってもらうのが良いと思います。
昔話 一寸法師 ショートムービー ★★★
(Soraに指示するであろう文) シンプルアニメーション シルエット青のグラデーション
日本昔話 一寸法師の誕生のシーン
DALLE prompt: A simple silhouette illustration depicting the miraculous birth of Issun-boshi. The scene uses a light blue gradient background to suggest a serene and mystical atmosphere. The silhouette shows a tiny, one-inch tall Issun-boshi appearing to the elderly couple, who are depicted in a traditional Japanese home setting. The design is minimalist, focusing on the silhouette of Issun-boshi and the elderly couple, capturing the wonder and magic of the moment.
Soraの動画でアートスタイル (画像) の一貫性を保つ方法は現時点では分かりませんが, DALLEではgen id を指定する方法や以前の画像の生成時のプロンプトを引用する方法などがあります。
では, つぎは一寸法師が鬼と戦っているシーンを描いてください。
Soraの公開Demo動画の中でアニメーションはかなり少ない印象です。上記の理由から, アニメはどちらかと言えば苦手な領域になるかもしれません。
Prompt: "A beautiful silhouette animation shows a wolf howling at the moon, feeling lonely, until it finds its pack."#AI #Sora #OpenAI #ChatGPT #SamAltman #SoraAI #openaisora
Sora prompt: A beautiful silhouette animation shows a wolf howling at the moon, feeling lonely, until it finds its pack.
昔話 一寸法師 折り紙アート ★★★
ペンシルアート 犬 ★★★
特定のアニメキャラではなく, 一般的な動物, シンプルな動作は実現性が高いのではないでしょうか。
Haiper AI prompt: Simple pencil art: A dog is eating.
Haiper AI prompt: Simple Pencil art: A dog is running.
Haiper AI prompt: Simple Pencil art: A dog sitting on a chair.
シンプル3Dアニメ ★★★
Haiper AI プロンプト『Cute 3D animated+〇〇』(〇には動物, キャラ名) で作成しました。こちらも複雑な動作をいれず, 一般的な動物であれば安定して描けるかと思います。
その他, 素材 (粘土, 折り紙, 3D anime…) + 動物 (犬, 猫…) の組み合わせなどで無数に安定した動画が生成できるかもしれません。ChatGPTに素材を挙げてもらいました。もちろん全て試していません。
3Dアートと相性が良さげな素材, アートスタイル
・折り紙アート ・粘土 ・水彩画 ・ピクセルアート ・木彫り
・ペーパークラフト ・フェルトクラフト ・刺繍 ・モザイクアート
・金属彫刻 ・ビーズアート ・かぎ針編み ・編み物 ・パステル画
・チョーク画 ・インク画 ・ステンドグラス ・テキスタイルアート
・陶芸 ・ガラスアート ・大理石
Dalle prompt: Cute clay crocodile with no background.
Dalle prompt: Paper craft car driving on a road with no background.
Dalle prompt: A 3D crochet art piece of a simple chicken, featuring a minimalist and cute design. The chicken should be made with white and red yarn, with basic shapes and a friendly appearance. It should have a smooth and textured surface, with small eyes and a gentle smile. The chicken is standing upright with its wings slightly outstretched. The background should be plain to highlight the crochet chicken as the focal point.
4. 異なる動画の結合
Demo動画のいくつかに二つの全く異なる動画を結合しているのがあります。例えば1. ドローンが遺跡上空を飛んでいる動画と2. 蝶が海底を飛んでいる動画をconnect (結合) して, ドローンがいつのまにか蝶に変わり, 背景も遺跡からいつのまにか海底に切り替わるというものです。
いずれの動画でも中間動画が存在し, それぞれの動画を融合したシーンが注目されています。
サンプル自体は少ないですが中間動画のAction 運動に関しては初めの動画が採用されている可能性があります。そのため速い運動 (車のような動きをする猫) になると思われます。
動画1 動画2 中間動画
鳥 カメレオン 鳥とカメレオンの中間の動物
山道を走る車 森を散歩する猫 車のスピードの猫
遺跡を飛ぶドローン 海底を舞う蝶 ドローンの速度の蝶
発想によって, いろいろな動物, 動き, 背景の作成が可能で組み合わせは無限大ではないでしょうか。以下にAIと一緒に考えたアイデアのごく一例を示します。これをヒントに新しい何かが発見出来たら良いと思います。
動画の結合 connecting videos
カッコ内 ( ) は固定されるテーマ, サブジェクト
1. 似ている融合:オブジェクトやアートスタイルの変化が少ない
・四季の変化 春 (景色)→冬 (景色)
・時代の変化 太古 (建造物) →未来 (建造物), 古代の市場→現代のショッピングモール, 手紙を書く (人) →メールを打つ (人)
・場所の変化 図書館で読書 (人) → カフェでの読書 (人)
廃墟探検 (人)→洞窟探検 (人)
・動物から人間への変化 スケートペンギン (動物) → アイススケーター (人)
・物質の変化 風に揺れる草原 (自然) → 波打つ海面 (自然)
・環境の変化 サーカスのジャグリング (人) → バーテンダーのパフォーマンス(人), オーケストラの演奏 (演奏家) → ロックバンドの演奏 (演奏家)
2. 似ていない融合: オブジェクトまたはスタイルが大幅に変わる
・ダンサー(人)→オーロラ (自然)
・深海の生物 (魚) → 未来都市の機械的な生命体 (魚)
・宇宙の星雲 (自然) → 絵画の抽象的な模様 (絵画)
・ミクロの世界 拡大 皮膚 (人)→細胞拡大図 (人), 宇宙銀河 (形状が似ている) → 脳細胞 (形状)
・都市の俯瞰図 (景色) → コンピューターのマザーボード(物)
・伝統的な茶道 (飲む場所) → モダンなコーヒーショップ (飲む場所)
・水墨画 (絵) → デジタルアート(絵)
・白黒の漫画 (例えば人) → 3Dのリアル映像 (人)
3. 何もかも違う
・カオスの世界 何か→何か
1. 似ている動画の結合
アートスタイルやオブジェクト, 背景など似たもの同志の結合です。技術的にもハードルが低いと思われ, 美しい自然背景などシームレスな結合が期待されます。
和風庭園の季節の変化 (春→冬) ★★★
このチャプターは基本的にSoraでのみ可能な描写ですので, Runway やHaiper AIなど現在のAIでは描写困難です。ちなみに下はペンギンから人に変身するシーンを作ろうとして失敗したものです。
というわけで非常に残念 (やはり動画でないとイメージが伝わりません…) ですが, このチャプターではおもに静止画のみで解説したいと思います。
2. 似てない動画の結合
動画のサブジェクト, テーマは共通で, 似ていないもの同志を結合します。アートスタイルやオブジェくトは大幅に変更しつつもストーリー性を維持することが動画作成の主な目的です。
ダンサーからオーロラへの変身, 都市の俯瞰図からマザーボードへの変化など似ていそうで全く似ていない二つのものをシームレスに変化させる動画は現在のAIでは全く作成できません。
シームレスに連続でシーンを拡大していく動画はこのカテゴリに分類されると思います。 この動画の応用系として, ループ系動画があります。これはどんどん拡大していくと, もとのシーンにループして戻ってくるというものです。
Beautiful infinite loop
5. 自然現象の表現
自然, 風景画 ★★★
Hyper AI prompt: Hyper realistic image of Japan: Mount Fuji and cherry blossoms.
Dalle prompt: A realistic night scene of cherry blossoms in full bloom under the moonlight. The scene is set in a tranquil Japanese garden, with soft moonlight casting gentle shadows and illuminating the pink blossoms. The background is slightly blurred, focusing on the delicate flowers and the serene atmosphere, evoking a peaceful, almost ethereal quality. The composition captures the quiet beauty of a spring night in Japan.
Haiper AI prompt: A realistic close-up image of green leaves covered in water droplets after rain.
Midjourney prompt: photoreal image of Jiuzhaigou Valley Scenic and Historical Interest Area --ar 16:9 --s 250 --style raw
Haiper AI prompt: sailboat with white sails navigating on a calm, vast blue ocean.
A realistic image of a semi-truck on a narrow, winding desert road with rugged mountains, large cacti, and a blue sky with fluffy clouds. The truck has a dark cabin and grey trailer.
Haiper Prompt: A realistic image of daffodils with dew drops on the petals. The flowers are in sharp focus while the background is softly blurred, creating a dreamy effect. The lighting is warm and soft, enhancing the delicate beauty of the daffodils.
炎, 水, 雲, 煙, 雪の表現 ★★★
AIの動画は良く形状がくずれます。炎, 水などは崩れてもそれが自然なのでSoraではなくても
Midjourney prompt: A photorealistic logo for 'Water' reflecting on water. The text is crisp and appears submerged at the bottom, distorted by ripples. The reflection below enhances the illusion of water. The background is a calm water surface with subtle reflections and gentle ripples, conveying a serene aquatic environment --ar 16:9 --s 250 --style raw
下の動画はMidjourney+Runwayでロゴに映る水の反射を再現したものです。Soraでも物体に映る他の物質の反射, 透過の表現の高品質な動画が確認されています。
A photorealistic tornado that looks like a dragon. The tornado spirals upwards in the shape of a dragon with detailed scales and a fierce expression. The dragon's head is at the top, with glowing eyes and an open mouth showing sharp teeth. Its body twists, blending with the swirling tornado winds. The background is a dark, stormy sky. --ar 16:9 --s 250 --style raw
普段, 形が『崩れない』ことを願って動画AI作っていますが, 崩れることが好都合な動画は今回初めてでした。
Midjourney prompt:A photorealistic image of a town being formed from falling snow. The snowflakes fall and gradually accumulate, shaping into buildings, streets, and trees. The scene captures the process of the town being created, with some structures partially formed and others still in the process. The background is a wintery sky with continuous snowfall, enhancing the magical transformation of the snow into a town.
6. クリエイティブ (キャラクター, 背景)
"a tortoise whose body is made of glass, with cracks that have been repaired using kintsugi, is walking on a black sand beach at sunset"
Sora prompt: a tortoise whose body is made of glass, with cracks that have been repaired using kintsugi, is walking on a black sand beach at sunset
Soraは動き自体も素晴らしいですが, リアルな画像生成においてもDALLE3や他のソフトよりも優れています。まえのChapterでも解説しましたが, 特にアートスタイルに関してpromptで指示しなければ『実写調』の動画が生成されるようになっています。
DALLE prompt: A realistic depiction of a tortoise with a translucent, emerald green glass shell, adorned with gold kintsugi repairs, walking on a bright sandy beach. The vibrant emerald green hues of the shell contrast strikingly with the light-colored sand. The glass shell appears illuminated from within, reflecting the sunlight in dazzling patterns. The tortoise's legs and head are lighter in color, adding a gentle contrast to the vivid green and soft sandy tones of the scene.
DALLE3で頑張ってこのカメを再現しようとしましたが実写にはならず, 3DデジタルCGアートの域を超えることはできませんでした。
DALLE prompt: A realistic depiction of a tortoise with a transparent glass shell designed as a small aquarium, containing water, aquatic plants, and decorations, walking on a beach with black sand. The glass shell is clear and filled with water, showcasing the aquatic environment inside. The contrast between the aquatic blue within the shell and the dark black sand enhances the uniqueness of this walking aquarium concept.
架空の動物 ★★★
気持ち悪い架空の生物を作ってみます。『先カンブリア時代の水槽』とだけプロンプト。存在しない器官があれば実在する近い生物のトレーニングデータ, データの組み合わせなどで表現する可能性があります。
Midjourney prompt: fantasy-style 3d rendering image of Pre-Cambrian creatures aquarium --s 250 --v 6.0
ちょっと変な動物 (実在の動物のアートスタイルを変更) ★★★
この辺りはChapter 2のアートスタイルの適応と重複する部分が多いですが…
Midjournery prompt: A crocodile lurks in the misty waters of its swamp home. The creature was drawn in the style of unreal engine 5. --ar 16:9 --s 250 --style raw
Midjourney prompt: A crocodile-like creature with sharp teeth and an elongated body emerging from the water, surrounded by misty surroundings. The scene is captured in the style of a cinematic style, emphasizing the horror of its appearance. --ar 16:9 --s 250 --style raw
SF (サイエンスフィクション) ★★☆
架空のキャラ, 背景でもSF色の強いものは映画などの著作物を連想するものが多く, 制限が大きいかもしれません。実際にSoraで作成しないと何とも言えませんがシーンやキャラが映画などに似ていると生成されない可能性は高いと考えます。
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A lone astronaut on Mars, with vision subtly blurred by a faint haze of sand, not so much a sandstorm but enough to soften distant views. The lighting is soft and diffused, casting a warm glow across the Martian landscape and astronaut. Colors are rich in shades of orange, enhancing the dusty reds of the Martian ground with a more pronounced orange hue, creating a vibrant contrast against the astronaut's suit. The mood is tranquil yet poignant, highlighting the astronaut's isolation amidst the vast, silent expanse of Mars, bathed in an orange-tinted light --ar 16:9 --v 6.0 --style raw --s 250
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: The International Space Station fills the frame, with Earth's stunning view as the backdrop, highlighting the planet's curvature and vibrant colors from orbit. --ar 16:9 --v 6.0 --style raw --s 250
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A close-up scene where a gigantic spaceship, occupying the upper half of the frame, is destroying the White House, situated in the lower half, by firing a blue beam directly downward. The stark contrast between the cool, destructive blue of the beam and the traditional whites of the White House emphasizes the scene's tension. The mood captures the shock and urgency of the moment, highlighting the unexpected disaster. --ar 16:9 --v 6.0 --style raw --s 300
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A sleek spaceship maneuvers through a storm-swept sky, its hull reflecting the turbulent gray clouds and flashes of lightning. The craft is detailed with a palette of dark silvers that gleam with a metallic sheen, and emerald lights that punctuate its form with bursts of color. Ambient lighting from the storm casts dramatic shadows and highlights across the vessel, creating a dynamic interplay of light and color that emphasizes the ship's aerodynamic design. The intense chiaroscuro effect dramatizes the scene, underscoring the ship's journey through the heart of a galactic tempest. --ar 16:9 --v 6.0 --s 250 --style raw
SF自体がCG baseで作成されることが多く, computerの得意な動きに基づいている, 容量問題, 処理を軽くするために最適化されているというか, これも仮説なため全く根拠はありませんが…
Midjourney prompt: A futuristic cityscape with towering skyscrapers, flying vehicles and advanced technology elements. The sky is clear blue with fluffy clouds in the background. In front of it lies an enormous river flowing through the center of town. On both sides there stand tall buildings made from silver metal material. There is also some greenery around them. This scene creates a sense of grandeur and wonder as if one were exploring another planet in the style of an futuristic artist. --ar 16:9 --s 250 --style raw
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie:A futuristic laboratory with scientists working on advanced holographic displays, geometric patterns, and digital interfaces. --ar 16:9 --s 250 --style raw
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A young wizard opening a magical book surrounded by lightning. The scene is illuminated by the intense, flickering light from the lightning and the glowing book, with shadows dancing around the room to create a dramatic and eerie effect. The predominant colors are dark blues and purples, with bright, electric hues of white and blue lightning, and the book emits a golden glow that contrasts with the darker surroundings. The mood is mystical and intense, with a sense of wonder and danger, as the atmosphere is charged with magical energy, making the scene both thrilling and enchanting. --ar 16:9 --s 250 --style raw --v 6.0
Midjourney prompt: Hyper-realistic image for SF movie: A giant mech robot with guns, fighting in the battlefield of war. In its background there is an air base and many military vehicles. It has large robotic arms with weapons on them. The style is digital art, full body shot, high resolution. --ar 16:9 --s 250 --style raw
7. 異なる時代, 場所
特定の都市の時代を変更 ★★★
京都の町を異なる時代で描きます。象徴的な建造物など現実世界にある程度忠実ですが, AIの特性上, 現存の街をそのまま再現は不可能です。
京都市 (現在 2024年)
まずは現代の京都市です。特に指示を与えていませんがカメラアングルはドローン (上空) 視点です。
京都市 (昭和)
Midjourney prompt: A photorealistic image of a shopping street in the Showa era. The scene includes traditional Japanese shops, street vendors, and signage typical of mid-20th century Japan. People are walking along the street, some wearing traditional attire, others in mid-20th century clothing. The atmosphere is lively and nostalgic, capturing the essence of a Showa-era shopping district. --ar 16:9 --s 250 --style raw
江戸時代 京都市
平安時代 (平安京 羅生門)
古代の日本は恐らくトレーニングデータが極端に少ないという理由から実写調の画像, 動画生成は困難と予想しています。
異なるスタイル, 架空の都市を融合 ★★★
もちろん実在する都市やアートスタイル以外にも架空の都市, 時代などアイデア次第で無数の組み合わせがあります。
Soraで実現可能な美しい動画作成のために, 都市とアートスタイルの組み合わせを挙げて下さい。
架空の都市, SFでも結構です。
1. ニューヨーク + アトランティス文明 (Sora Demoより)
2. 不思議の国のアリス + SF 3. パリ + 魔法の国 4. 東京 + サイバーパンク
5. ローマ + スチームパンク 6. ロンドン + ファンタジー
7. ヴェネツィア + バイオパンク 8. イスタンブール + アラビアンナイト
9. リオデジャネイロ + 熱帯雨林の魔法
10. シドニー + エイリアンテクノロジー
11. 京都 + 和風ファンタジー(平安時代)
12. ウィーン + ロココ様式 + 18世紀
13. マチュピチュ + インカ文明 + スチームパンク
14. アトランティス + アールヌーボー + 19世紀末
15. サンクトペテルブルク + ロシア民話 + 17世紀バロック
16. ラスベガス + エジプト文明 + サイバーパンク
17. 平泉 + 浄土思想 + 中世日本
フランス パリのモンマルトルという都市を魔法の国に変えてショッピングツアーします。
Midjourney prompt: A realistic depiction of Montmartre in Paris mixed with a magical kingdom. Cafes and restaurants have red canopies, floating lanterns, and magical plants. The cobblestone street has a magical aura, creating a cozy, enchanting atmosphere under a twilight sky. --ar 16:9 --s 250 --style raw
トルコ イスタンブールのバザーをアラビアンナイトをテーマに描いています。現代か過去のか分かりませんが現存のイスタンブールを神話?説話の世界で構築し冒険します。
Midjourney prompt: Hyper-realistic photo image for SF movie: the Grand Bazaar in Istanbul blended with Arabian Nights. The market is filled with vibrant stalls, magical lanterns, and exotic goods. Camels and magical creatures wander through, creating an enchanting atmosphere under a starry sky. --ar 16:9 --s 250 --style raw --v 6.0
ラスベガス ルクソールホテル×古代エジプト×サイバーパンク
Midjourney prompt: **Hyper-realistic photo image for SF movie: A realistic depiction of the Luxor Hotel lobby in Las Vegas, blending ancient Egyptian civilization and cyberpunk elements. Statues of Egyptian gods with holographic displays, neon-lit hieroglyphs, and digital screens. Guests in futuristic fashion under a starry sky ceiling. The mood is mysterious neon highlights, creating a perfect sci-fi movie setting. --ar 16:9 --s 150 --style raw
源平合戦の時代, 陰陽師が活躍した時代は微妙に違うかもしれませんが, AIならではの創作歴史作品が期待されます。
Midjourney prompt: Hyper-realistic photo image for SF movie: A realistic depiction of Hiraizumi blending Onmyodo and romance elements. A close-up of a couple in traditional attire sharing a moment by a serene pond, illuminated by soft lantern light. Mystical fog surrounds them, with cherry blossoms falling gently around. Magical symbols float in the air. The mood is romantic and enchanting, with a warm pink and soft gold color palette. The lighting is gentle, casting a warm glow, perfect for a romantic and mystical movie setting. --ar 16:9 --s 250 --style raw --v 6.0
人のいない街 ★★★
この動画によれば2027年の未来には人々が居なくなるというものです。動画のアップロード頻度から手動で動画を修正するには仕事が速すぎるという理由で本物 (ハビエルさん本当に未来人) ではと一部でささやかれていました。
Soraでは無人のValenciaのような都市での『徘徊』動画が作成できるのではないでしょうか? フェイク動画やこの手の未来人動画が作成されるかもしれません。
特定の時代の生活 ★★★
現代と大きく変わった生活様式, 道具, 機械の使用風景など安定して生成可能と思われます。
1960年代のATM (現金自動預払機)
この時代に生まれていないため実際は見たことがないのですが, ATMの中には人が居て半手動で現金の受け渡しをしていたとのことです。
(Soraに指示するであろう文) 1960年代のATMの風景が見てみたいです。実際に中に人がいたとか?
首都圏では平成まで現在の自動改札機ではなく, 駅員さんが切符を切っていました。
(Soraに指示するであろう文) 有人改札の風景を再現してください。今のような自動改札機ではなく
通称『黒電話』昭和60 (1985) 年の通信の自由化, 民営化まで現役でしたダイヤルを回すタイプの電話機です。ちなみにRunwayやHaiperAIではダイヤルを回す動きがうまくできませんでした。
8. 広告 CM
TVCM 商品広告 ★★☆
繰り返しになりますが, ストーリー性のある表現, 人物の動作, 位置関係を詳細に描くことは困難と思われるため, なるべくシンプルなプロンプトで自由度に描いてもらうのが良いと思われます。
(Soraに指示するであろう文) オレンジジュースのTVCM用 シーンを作成してください。
缶と水しぶき, オレンジの果実を使って短編の動画を作成してください。
Midjourney prompt: TV commercial for canned orange juice --ar 16:9 --s 250
一見自然に見えつつも現実的にはあり得ない動画 (下の缶ジュースでは炭酸の泡が缶の内側か外側か分からいようなところに発生しています) がAIらしくて面白いです。
3D広告 ★★☆
(Soraに指示するであろう文) 3D広告の動画 靴が飛び出すように生成してください。
立体の角と液晶displayを描き, そこをまたがるように靴を描くと飛び出すように見えますよ。
DALLE prompt: A realistic and detailed image of a bustling city street corner with a large, high-definition billboard displaying an advertisement for sneakers. The billboard should be designed to create an optical illusion that makes the sneakers appear to be popping out of the screen in a 3D effect, using perspective and shading to give the impression of depth. The setting should mimic a dense urban environment with buildings, pedestrians, and the ambient glow of city lights.
Runway gen2で靴だけ動かしてみます。
花火, ドローンショー ★★★
夜空に浮かぶドローンや花火などの光で描く, 文字, キャラクターはSoraと相性が良さそうですね。
DALLE prompt: A realistic night sky illuminated by a drone show featuring a magnificent dragon made of glowing LEDs. The dragon is soaring amidst twinkling stars, with the LEDs vividly depicting its scales and flowing tail. The background is a deep blue sky dotted with stars, enhancing the luminous effect of the dragon. The dragon is intricately detailed, showcasing its powerful wings and fierce expression, while the overall ambiance is magical and vibrant.
DALLE prompt: A realistic depiction of a night sky with fireworks forming the shape of a dragon. The image should capture the fiery trails of the fireworks creating the outline of the dragon's body, with bursts of light suggesting its scales and eyes. The dragon appears to be soaring upwards, its form composed of various colors of fireworks against the dark backdrop of the night, with the city lights twinkling below.
光 (LED) + 動物の組み合わせはAIの得意領域と思われます。もしかしたら花火でも文字や絵を表現することが可能かもしれません。
Midjourney prompt: Hyper-realistic photo image of beautiful fireworks over sea --ar 16:9 --s 250 --style raw
ロゴ制作工場 ★☆☆
Youtube, Twitterなど有名企業, アプリなどのロゴ, アイコンを仮想の工場で作るという面白い動画です。将来のAIで自分自身のオリジナルロゴを工場で製作している動画風景が作れるかもしれません。
Public domain (著作権フリー) のWikipediaロゴをオマージュしてDALLEでロゴを作ってみました。
企業PR, 団体組織PR ★☆☆
企業PRなどは極めて詳細なuserからの指示, オリジナリティを出す必要がありSoraとは相性が悪そうです。
Dalle prompt: The exterior of an AI company building in a near-future setting. The building is sleek and modern, with a glass facade and futuristic architectural design. Neon lights illuminate the company logo and name on the building's front. The surrounding area is clean and advanced, with autonomous vehicles and drones in operation. The sky has a slightly overcast, high-tech ambiance with digital billboards displaying AI-related advertisements. Pedestrians, dressed in contemporary futuristic attire, walk by, adding to the bustling, advanced atmosphere.
実在する企業を描くことは難しく, 企業PRに必須の『文字』の正確な入力などハードルが高いと言えます。
Dalle prompt: The text 'PuchiPony' is prominently displayed in the foreground. A glowing DNA helix intertwined with digital lines and nodes, symbolizing the integration of biology and technology. Bright blue tones dominate, with light effects highlighting connections and data flow. The background blends organic and digital elements, creating a futuristic depiction of biotechnology.
企業や団体, サークルをイメージとした抽象的, 一般的な素材でPR動画の背景を作成することは可能と思われます。
Dalle prompt: Hyper-realistic photo image for CM: The text 'Private AI Research Lab' is prominently displayed in large size in the foreground. An abstract representation of digital circuits and connections. The image features glowing lines and nodes, symbolizing the flow of data and technology. Bright blue tones dominate, with light effects highlighting the intricate patterns and connections. The background is a blend of digital elements, creating a visually striking and futuristic depiction of technology. --ar 16:9
9. ホビー
Dalle prompt: A beautiful, photorealistic image themed around hobbies. The composition includes a detailed model train setup, capturing trains moving through a miniature landscape with mountains and rivers. Additionally, the scene showcases a painting area with an easel displaying a landscape painting in progress, and various paintbrushes and colors. There's also a well-organized workbench with model airplanes and tools, reflecting the precision and dedication of the hobby. The lighting is soft and natural, enhancing the realistic and tranquil atmosphere of a hobby room dedicated to creative pursuits.
Soraと相性がいいカテゴリの一つと考えます。単純にホビーにシンプルな動作を加えるだけで楽しいこと, ショートムービー の素材など応用が幅広いこと, また何よりもDALLE3がホビーの描写能力が高い (Midjourneyより勝っている??) ことが挙げられます。
電動プラモデル 恐竜, 動物型 ★★★
Zoids (ゾイド) が生誕41周年ということでつくりました。
DALLEで問題なく画像表現できており, 動き的には恐竜の運動の再現で技術的に問題ないと思われ, Soraでは安定した動きを期待しています。
DALLE prompt: A highly detailed toy model of a robotic dinosaur that combines elements of a mechanized war machine with an animal figure. The dinosaur should have mechanical details such as gears, pistons, and wires, and be equipped with weaponry like guns and cannons. Its pose should be dynamic, suggesting movement or readiness for battle. The color scheme should include shades of metallic grey with some accents in red to highlight certain parts. The background should be plain to emphasize the model.
DALLE prompt: A highly detailed toy model of a robotic saber-toothed tiger that combines elements of a mechanized war machine with the prehistoric animal. The saber-toothed tiger should have mechanical details such as gears, pistons, and wires, and be equipped with weaponry like guns and cannons. Its design should be agile and fierce, with a pose suggesting movement or readiness for battle. The color scheme should include shades of dark grey and metallic tones, giving it a powerful and intimidating appearance. The background should be plain to emphasize the model.
DALLE prompt: A highly detailed toy model of a robotic saber-toothed tiger, featuring fluorescent green coloration with a glowing effect, set against a plain black background. The model should incorporate elements of a mechanized war machine, like gears, pistons, and wires. The design should be agile and fierce, with a pose suggesting movement or readiness for battle. The robotic saber-toothed tiger should also include weaponry such as guns and cannons, emphasizing the glowing elements.
Runway gen2 では動きの再現に苦戦していましたがSoraでは動くことを願っています。
ロボットプラモデル ★★★
Dalle prompt: A plastic model kit style depiction of a humanoid robot, maintaining the original design with a unique color scheme of dark grey, teal, and orange. The robot features angular armor plates and a single glowing eye, with its left arm transformed into a large energy cannon. The model appears as if made from separate plastic parts, showing seams and joints typical of a model kit. The background is a simple white to emphasize the DIY aspect of model kits, focusing on the assembly and paint details.
変身ロボット ★☆☆
上半身がロボット, 下半身が車輪に順時変身していくような複雑な体の構成, 変形モーションは非常に難易度が高く, そもそも画像生成の段階でも困難です。
Dalle prompt: A highly detailed die-cast toy robot inspired by a futuristic robot character, with car components incorporated into its design. The robot has a robust, metallic body with articulated joints and a glossy finish in vivid red and deep blue with grey elements. The broad, red chest features a car grill emblem. The small, blue head resembles a car's front with visor-like headlights and antennae. Equipped with gunmetal grey blasters on both arms and a sword in one hand, mimicking a car's exhaust pipe. The background is a dynamic cityscape, emphasizing the toy's futuristic, heroic aesthetic.
しかし昭和の時代に発売されたシンプルな変形ロボット, たとえば別の商品 (カップラーメンや本, ジュース) に足の生えたようなスタイルでは作成の難易度が下がるかもしれません。
DALLE prompt: A playful toy depicting a robot transformed from a cup of instant noodles, designed with a raccoon (tanuki) face on the lid. The robot features a circular body made from the cup, with a vibrant red and white label that includes Japanese characters. The lid creatively transforms into the head of a raccoon, featuring characteristic large, round eyes and a mischievous expression. The arms and legs are simple and mechanical, reflecting a whimsical fusion of traditional Japanese imagery with modern robotics, set against a plain background to emphasize the unique design.
フィギュア ★★☆
フィギュアはアニメやゲームをもとに作られることが多いと思います。著作物を避けるため安定的に画像 (動画生成) するためには特定のキャラクターの名前を含めずに生成する必要があります。
DALLE prompt: A 1/12 scale figure of a female knight in a dark fantasy setting, where her face is fully visible and she wears a shorter skirt as part of her armor. The knight's armor blends traditional and fantasy elements, with dark metallic tones and accents of deep red or purple. The skirt, made of layered metal plates resembling scales, provides flexibility and protection while being noticeably shorter. Her expression should show determination and courage, with long hair flowing back. She is in a dynamic pose, sword raised and shield ready, emphasizing her readiness for battle.
DALLE prompt: A realistic figure of a mythical Japanese yokai wearing traditional samurai armor. The armor is richly detailed, featuring ornate patterns and a metallic finish, reflecting the exquisite craftsmanship of ancient Japanese samurai gear. The yokai itself has a supernatural appearance, with eerie, otherworldly features that enhance its mystical essence. The setting includes a subtle background of ancient Japanese landscape, providing a dramatic and authentic feel to the figure.
パブリックドメイン (ギリシア神話, 不思議の国のアリスetc) を利用することでも回避できます。
DALLE prompt: A 1/12 scale figure of an anime character inspired by the gods of Olympus, specifically Artemis, in a dynamic pose drawing her bow and arrow. The figure features skirt-style armor influenced by the previous reference image, with a detailed blend of navy blue and gold. Artemis has long, flowing hair and the pose emphasizes her readiness to shoot, showcasing her strength and agility. The armor displays intricate patterns and a metallic finish. The background suggests a mystical forest to enhance the mythical theme.
ジオラマ ★★★
DALLE: Create a highly detailed diorama featuring a Western-style ancient castle next to a dense forest with a cascading waterfall and river running through the natural landscape. The castle should be intricately designed with visible stonework and historical architecture, evoking a sense of age and grandeur. The surrounding environment should be lush and green, with the waterfall adding a dynamic element to the serene scene.
レゴ ★★☆
DALLEでは安定してLEGOの世界を表現することは可能です。特に自然の風景, 一般的な日常の風景などSoraと相性が良いかもしれません。
DALLE prompt: A close-up view inside a LEGO-themed fried chicken restaurant kitchen, focusing on a LEGO chef preparing a smaller quantity of chicken in a fryer. The scene captures the LEGO fryer in detail, showing a reduced amount of LEGO chicken being cooked, with fewer bubbling oil effects made from tiny clear LEGO bricks. The chef, adorned with a LEGO chef's hat and apron, is intently managing the cooking process. The surroundings include kitchen utensils and a few ingredients, all constructed from LEGO bricks, reflecting a less busy moment in the LEGO kitchen.
DALLE prompt: A LEGO-themed scene depicting a luxurious cruise ship. The ship is constructed with an impressive array of LEGO bricks, featuring multiple decks, detailed windows, and lifeboats. The hull is designed with dark blue and white bricks, and the decks are adorned with LEGO passengers enjoying various activities. The ship is set on a vibrant blue LEGO ocean, and the sky above is clear with a few LEGO clouds. This scene captures the grandeur and leisure of a luxury cruise experience, all crafted from LEGO bricks.
DALLE prompt: A close-up view inside a LEGO-themed fried chicken restaurant kitchen, focusing on a LEGO chef preparing a smaller quantity of chicken in a fryer. The scene captures the LEGO fryer in detail, showing a reduced amount of LEGO chicken being cooked, with fewer bubbling oil effects made from tiny clear LEGO bricks. The chef, adorned with a LEGO chef's hat and apron, is intently managing the cooking process. The surroundings include kitchen utensils and a few ingredients, all constructed from LEGO bricks, reflecting a less busy moment in the LEGO kitchen.
また, 雑多な風景, 店内に人や物が多く, 複雑な動作 (食事している, 調理などな仕事をしている) の描写はSoraでも難しい可能性があります。
ミニチュア動物人形セット ★★★
Dalle prompt: A miniature playset set in a natural forest park. The scene includes a quaint, intricately designed house surrounded by lush greenery, complete with tiny furniture and playful details. Various animal figures resembling rabbits, squirrels, and bears are depicted interacting in a lively, family-oriented scenario. The setting maintains a peaceful, storybook atmosphere, with soft, earthy tones and textures that emphasize the fairy-tale-like environment.
特定の商品名をいれるとクオリティがアップすることもありますが, デメリット (主に著作権) も大きいため出来るだけオリジナル画像 (動画) を作成するように指示したいところです。
電動電車模型 ★★★
電車, 車などの乗り物はSoraに限らず多くの動画AIで安定した描写が確認されています。
DALLE prompt: A scene depicting an EF66 electric locomotive miniature model entering a mountain tunnel. The miniature train is captured at the moment it approaches the tunnel entrance, set against a detailed mountain landscape. The tunnel is crafted with realistic stone textures and overgrown with small patches of moss and shrubs. The surrounding environment features rugged terrain and dense foliage, enhancing the natural, wild aspect of the scene. The lighting is subdued, focusing on the striking blue and white colors of the locomotive as it enters the shadowy tunnel.
プリテンドプレイ ままごと ★★☆
料理など家事のAction, かつ, おもちゃ素材という少しハードルの高い動画です。トレーニングデータがどこまであるかにかかってくると思いますので実際Soraで作ってみないと何とも言えません。
アイスクリームのおもちゃはDalle, Runwayで作成が難しく, Haiper AIで直接プロンプトを打って作成しました…
人形の店員 『リ〇ちゃん』や『バー〇ー』などプロンプトせず, 『teeage doll ティーンエイジの人形』とだけDalleに指示しています。
Dalle prompt: A realistic and detailed playset scene featuring an entire donut shop, with a teenage doll resembling a popular Japanese fashion doll working at the counter. The shop showcases a wide interior view including various counters, display cases filled with assorted donuts, a seating area for customers, and colorful decorations typical of a lively donut shop. The atmosphere is engaging and inviting, crafted to enrich the pretend play experience for children.
Dalle prompt: realistic and detailed playset scene featuring an entire ice cream shop, with a teenage doll resembling a popular Japanese fashion doll working at the counter. The shop showcases a wide interior view including various counters, display cases filled with assorted ice creams and toppings, a seating area for customers, and colorful decorations typical of a lively ice cream shop. The atmosphere is engaging and inviting, crafted to enrich the pretend play experience for children.
将来なりたいものナンバーワン ケーキ屋さん
Dalle prompt: A realistic and detailed playset scene featuring an entire cake shop, with a teenage doll resembling a popular Japanese fashion doll working at the counter, in a 16:9 aspect ratio. The shop showcases a wide interior view including various counters, display cases filled with assorted cakes and pastries, a seating area for customers, and colorful decorations typical of a lively cake shop. The atmosphere is engaging and inviting, crafted to enrich the pretend play experience for children.
Dalle prompt: A realistic and detailed playset scene in a 16:9 aspect ratio, featuring a kitchen where a teenage doll resembling a popular Japanese fashion doll is baking cakes. The kitchen is equipped with miniature ovens, mixing bowls, baking trays, and various baking utensils, all tailored for a child's playset. The doll is actively mixing ingredients in a bowl, surrounded by ingredients like flour, eggs, and sugar. The setting includes colorful decorations and is designed to emulate the busy atmosphere of a professional cake-baking kitchen, enhancing the pretend play experience for children.
10. ゲームムービー
理論編でも述べましたがSoraの作り出すムービーは物理演算, シミュレーションとは別物であくまでプリレンダムービーと考えた方がよさそうです。ここ1ヵ月ゲーム業界で使えそうなアイデアを考えていましたがいまいちパットしません。
その昔, ジョイポリスという遊園地にゲーム『零』のアトラクションがありました。
大きな画面が目の前にあり3Dムービーが流れ, 椅子が動いたり?などの演出でホラー世界の仮想現実を体験するというものでした。当時としては最先端で感動したのを覚えています。
VR (Virtual Reality) 体験ムービー ★★★
Imagine being here drunk pic.twitter.com/VWR3vrD4iA
Soraで作成する際には, 背景には自然の風景, 無機質な建物を基本とし, 高度なストーリー性, 複雑な人間の動きは避ける必要がありそうです。
元も子もないですがCGクリエイターの方々の仕事であり, 我々一般人の応用例としては『猫コースター』位しかないでしょうか?!
11. その他 エンタメ
Dalle prompt: A photorealistic entertainment theme image featuring elements of sports, VR games, and movies. The scene includes detailed and lifelike athletes in action, VR gamers fully immersed in their virtual worlds with realistic VR gear, and iconic movie scenes with actors in cinematic poses. The background showcases a futuristic cityscape with neon lights and holographic displays, all rendered with high detail and realism. The overall composition is dynamic and visually stunning, capturing the excitement and diversity of modern entertainment.
【理論編】でも述べましたが, Soraへの指示はテキストプロンプトで動画全体のイメージ (全体の定義) をシンプルに伝えるのが得策です。AIは基本的に『何でも』知っていますので, 『ビデオマッピングのアイデアありませんか?』など聞けばアイデアは無数に提案してれると思います。
最近よくみかけるSNSスタイルの一つで気になる文面と画像でuserの興味を引き付け, タップすると続きのストーリーを読むことが出来るというものです。
Youtube背景動画 ★★☆
物語性の強い長編映画は不向きですが, 数秒で完結する動画, 例えばYoutubeなどの背景動画は相性が良いと思われます。テーマに合わせた自然の風景や人物などが当てはまります。たとえば
(Soraに指示するであろう文) Youtubeの背景動画を作成してください。サイエンスがテーマです。
テーマに沿った, 美しい背景動画を『自由』に作らせることがポイントではないでしょうか。
素数 (1 と自分自身以外には約数をもたない正の整数) をテーマに数学の話を解説します (すでにありますが...)。
しかし, どのジャンルの動画でもいえる事ですが, Sora/Dalleに高度なストーリー性や正確な位置関係, 理論概念, 抽象表現を求めるのはまだままだ時期早々と考えます。例えば下のような素数 (2, 3, 5, 7, 11・・) の階段を生成するように指示してみます。
引き続きYoutube向け背景動画生成お願いします。テーマは数学, 素数です。
実際生成された図は数字の順番もでたらめで素数のみをハイライト (光や他の色で強調) することはできませんでした。
無限ループ動画 ★★★
Chapter3.4 結合する動画の派生形というべきものかもしれません。AIで無限にループする動画を作る方法はMidjourneyやStable Diffusionで報告されています。
ループ系動画の応用で全く異なるシーンをシームレスに結合, 拡大していき, もとのシーンにループして戻ってくるという動画があります。
一貫性を保つことなど, いろいろ技術的に難しいと思われます。
しかし, 恐らくSoraはこのような動画が得意でシンプルプロンプトで実現できると思われます。
GoProカメラ動画 ★★★
このプロンプトを使えば、GoProで撮影したような臨場感のある画像が生成されます。… pic.twitter.com/CRK4whWebi
Midjourney用のプロンプトですが, Soraで直接プロンプトしてもいけるかもしれません。
Midjourney prompt: Gopro view high speed shutter , 名詞 --no camera --ar 16:9 --v 6.0
Midjourney prompt: Gopro view high speed shutter , a white and black cat --no camera --ar 16:9 --v 6.0 --s 250
ビデオマッピング ★★☆
建物や不規則な形状のオブジェクトに高精度な映像を投影し, 静的な構造物を動的なアート作品に変える技術です。ウォータースクリーン (水の幕に映像を映す) もこのカテゴリに含まれるかもしれません。
水滴という媒体に画像 (動画) が映し出されるというものです。下は水の幕 (スクリーン) にイルカが投影されるのをイメージしました。
Midjourney: 画像参照+The dolphin projected on the water screen --ar 16:9 --s 250 --style raw --v 6.0
オペラハウスの壁 (屋根) に画像が描かれています。平面ではなく, 曲面ということで立体感の増強やダイナミックさが強調される効果があります。
Midjourney prompt: A video mapping display on the Sydney Opera House at night. The sails are illuminated with colorful projections, showing patterns and designs. The harbor and city lights are visible in the background. --ar 16:9 --s 250 --style raw
ピタゴラスイッチ ★☆☆
イメージモーフィング ★★☆
特定の人物, 背景が徐々に変化していく動画です。特に年齢が変わっていく様子を描いたものをエイジングモーフィング Aging Morphingと呼びます。
自分の写真をSoraに見せて『成長していく動画』や『1970年代から2000年代のファッションに切り替わる Image Morphing』をお願いしたら面白いかもしれません。
SoraでこのようなImage Morphing, Aging Morphingは可能と考えますか?
さすがに自分の写真画像をSoraに与えて (Image2Video), Aging Morphingすることは難しいと予想します。トレーニングデータから似ている人間を作り出し, 近似的な動画が出力されるだけではないでしょうか。
エフェメラルアート ★★☆
エフェメラルアート (Ephemeral Art) とは実際の『物』を使ったアート表現です。パフォーマンスアート (Performance Art) やインタラクティブアート (Interactive Art) などのカテゴリとも重複します。
例えば絵画に実際の『火』を用いて『燃やす』表現を行います。燃やすと絵画自体が無くなってしまうので, 一度きり (エフェメラル) の芸術という意味が含まれます。
Inventive artwork 👌🏼 pic.twitter.com/tc5PnDIU50
AIの利点として非破壊でこのようなアートが再現できることです。下の動画は再現イメージで伝わりにくいかもしれませんが, 一応, 焚火など背景を水彩画で描き, 『火』の部分をフォトリアルに作成しました。
これらの組み合わせ ★☆☆
次期のSoraでは難しいかもしれませんが, 上記の技術を組み合わせれば, 将来動画生成AIで『テキストプロンプト』のみで新しい映像作品作成が可能になるのではないでしょうか?
飛び出す3D広告のロボットで背景がシームレスに切り替わり, 曲面の屋根に映し出されるような。
中に人がいる系 ★★★
シームレスに異なる動画をつなぎ合わせるDemoは公開されており, このような動画は再現可能ではないでしょうか。この動画はかき氷器から氷が落ちるシーンから, かき氷器の中を覗くと実は雪だるまが雪を降らしているというシーンに切り替わるというアイデアです。
・自動販売機:コーヒーを入れている人 (たまに味見している) がいる
・ラジオ:中でDJ, 演奏家が音楽を奏でる
・自動改札機:人間 (タ●リ) が手渡し
癒し猫動画 ★★★
フォトリアル 段ボール戦車に乗った猫バトル
Dalleで一発で画像生成できたので思わず, 『出来るんかい』と言いそうになりました (笑い)。
現在Soraが必死に猫動画データをトレーニング? (半分希望) していると思われ, 将来無数の癒しAI猫動画が量産されるかもしれません。
動く絵本, 絵画を動かす ★★★
有名絵画, 特にパブリックドメインは著作権侵害のリスクを回避できるため安定したハイクオリティ動画が生成可能と思われます。
(Soraに指示するであろう文) ナポレオンの戴冠式の油絵画を生成しその様子を動画に
Dalle porompt: An oil painting of Napoleon's coronation in the Neoclassical style. The scene is grand and majestic, depicting Napoleon in luxurious attire at the moment he is being crowned. The background features opulent buildings and decorations, with many spectators watching. The image is characterized by historical details and vibrant colors.
絵画に奥行きを持たせたり, AR (拡張現実Augmented Reality) の技法を模した3D表現をSoraで実現することが可能と考えます。この戴冠式を雲の上のシーンに変えます。
カメラがズームアウトして元の絵画の表示領域以外にAI (Sora) が『新たな空間』を作り出すシーンを再現しています。
Dalle prompt: A Neoclassical style depiction of Napoleon's coronation on the clouds. The scene is set in the heavens, with majestic clouds and divine light. Napoleon is being crowned by a human figure, surrounded by other human spectators and classical architecture elements. The atmosphere is grand and heavenly, with intricate details and a sense of historical accuracy similar to the real 'Napoleon's Coronation'. The image is in a 16:9 aspect ratio.
絵画やアニメにおけるキャラクターを3D (立体) 化する技法です。
しかし当方の技量が足りないせいか, そものそも現在のAIで技術的にできないのかは不明でしたが, このような飛び出すアニメは作成困難でした..
背表紙アートと言えばドラゴンボールが有名ではないでしょうか。本棚に漫画を1巻から正しい方向 (3巻←2巻←1巻ではなく) に並べると背表紙で一枚絵が出来上がるというものです。
Dalle prompt: Bookshelf filled with Japanese manga where the spines together form a single cohesive image. The manga volumes are arranged in a continuous line, and the spines display a detailed and colorful illustration that seamlessly connects across all volumes. Replace the illustration with 3D models representing the characters and scenes, as if the characters are coming to life. The 3D models are detailed and placed in front of the spines, creating a three-dimensional effect. The image depicts a vibrant fantasy scene featuring characters, landscapes, and dynamic action. The background shows a well-lit, cozy room with wooden shelves and a warm ambiance.
以下の動画がものすごく良かったので, パクリ 参考にさせていただきました。
有名絵画と画家が対峙する風景です。以下はモナリザを眺めるレオナルドダヴィンチです。ルネサンス期の工房をDalle3で作成しました。RunwayのVideo Editor Projectsで複数の動画を合成しています。
一般的な人物, 背景, 有名絵画の他の候補として歴史上の人物や建造物も安定した画像 (動画) 生成が可能と思われます。
(ChatGPTへ) 李白, 楊貴妃テーマに動く絵本物語簡単に考えてください。
優雅な女性がリュートを奏でながら物語を語る。美しい庭園が広がり, 静かな時間が流れている。
この物語は, 美しい自然と人々の織り成す唐代の長安を舞台にしている。楊貴妃と李白の物語が織りなす豊かな文化が描かれる。
Midjourney prompt: A beautiful ancient Chinese woman is playing the lute, wearing an orange red Hanfu with flowers on it. The background features blooming plum blossoms and smoke swirling in the air, creating a hazy effect with a traditional animation style and cinematic feel. High definition depicts delicate skin texture with soft lighting and delicate details. --ar 16:9 --s 250 --style raw
Midjourney prompt: An aerial view of the bustling streets and alleys in an ancient Chinese city, with people walking along them. The scene includes a distant view of the Daming Palace during the Tang dynasty, capturing its grand and majestic architecture. The scene is rendered in the style of traditional animation, featuring detailed architecture and rich colors. --ar 16:9 --s 250 --style raw --v 6.0
大明宮 水墨画:
Midjourney prompt: An ink wash painting featuring the Daming Palace with red and orange as the primary colors against a white background. The scene captures the grandeur and intricate architecture of the palace, blending traditional ink wash techniques with vibrant colors. --ar 16:9 --s 250 --style raw** - <@1184708639341166622> (fast)
Midjourney prompt: An ancient Chinese beauty is wearing red Hanfu, sitting in the center of an antique room with long black hair and two other women beside her holding white paper and gazing at it in front of them. The scene includes ink wash paintings in the style of Zhang Daqian, showcasing traditional aesthetics. It's a closeup shot with soft lighting, creating a mysterious atmosphere. This painting style combines classical art elements to capture the elegance and tranquility. --ar 16:9 --s 250 --style raw --v 6.0
最後に李白が画像生成AI Soraに関する詩を読んだらどうなるか作ってください。
玄機探電算, 妙理窮神奧。
虛實互為用, 幻真同一源。
詩興欲言難, 只餘天地懷。
玄妙な機微はコンピューターで探求され, 不思議な原理は深遠な神秘を究める。仮想と現実は互いに作用し合い, 幻想と真実は同じ一つの源から生まれる。詩心を言葉にしたくてもそれは難しい, ただ残るのは天地を抱く思いだけ。
Profound subtleties explored by computation, mysterious principles fathomed in the divine depths. The "virtual" and the "real" interact as one, "illusion" and "truth" originate from the same source. Poetic inspiration yearns to be spoken, yet words fail; only the embrace of heaven and earth remains.
AIという未知の存在に思いを馳せる詩人の心情を, 玄妙な言葉で表現しつつ, 言葉では尽くしがたい詩心の深淵をも感じさせる。そんな李白らしい詩世界が, よりクリアな句読点と空白によって, 現代の読者にも親しみやすい形で提示されているのではないでしょうか。
この調整された表記は, 古典の詩情を損なうことなく, 現代に蘇らせる一つの方法と言えるかもしれません。李白の詩魂が, 時空を超えてAIという新しい存在に呼応している。そんな不思議な感覚を, この6句の詩から味わうことができそうです。
1. 高度な物語性:長編 (短編ではない) の映画やドラマ
2. 現実世界, 知的財産:実在する場所, 著作物, 商品, 固有キャラクター
3. 因果関係, 概念の表現:概念図やアイデアを映像化したもの
4. 複雑な動作, 位置関係: 代表的なものはスポーツ (特に球技)
5. 教育, 解説:技術の解説動画など
6. リアルタイム:ニュース, ライブなどに合わせた実況AI, バーチャルツアー7. 物理シミュレーション:物理法則にのっとった演算
1. 高度な物語性のある動画
【理論編】でも解説していますが, 基本的に映画 (プロモーション含め) などの物語性が高度な長編ムービーは困難です。
2. 現実世界, 知的財産
基本的に映画, アニメなどの映像作品, キャラクターなどの著作物は作成不可と考えます。userに悪意がなくとも, たまに作れてしまうことがありますので取り扱いには注意が必要です。
またAIの特性と諸事情 (プライバシー, 著作権), 現実の街は再現不可とのことです。
将来, 自分が住んでいる町を仮想現実として冒険する, 『探検僕のまち』を再現するには技術面以外でも多くの問題をクリアする必要があります。
3. 因果関係, 概念の表現
AIに画像を渡し意味を考えさせたり, こちらから高度または抽象的な考察を指示するような動画は難しいと思われます。
現在のAIの性能をゆっくり転がる赤い四角とすれば, 一年後には高速で走行する緑の丸になるというイラストアニメです。
現実に存在していない, 抽象度の高いものはAIへの要求値が高すぎるためか作成困難と思われます。
因果関係や物事の結果などを考察し, 予測して現象を再現する動画の生成が不得意であると考えられます。これは, 前後関係や因果関係の考察, 物理演算などの制約によるものです。
GPTに『この後どうなるか』質問すると『予測して』爆発のシーンを生成します。しかしSoraではプロンプトに『爆発する』と含めなければ, 動画内にボタンが登場しただけでは, , transformerが『考えて』爆発するシーンを生成するかどうかは分かりません。
4. 複雑な動作, 位置関係
5. 教育, 解説
4の因果関係にも関連しますが高度な考察が伴う解説系の動画は今のところ不可能と考えます。以下カテゴライズしてます (小さすぎてもはや見えなくてすみません)。
たとえば画像を渡し, 『このリモコンの使い方を教えて下さい』と尋ねそれに対する解説動画をAIが作るというものです。
6. リアルタイム
Soraはプリレンダ (事前につくる) 動画であり, ニュース実況, ゲーム実況, VRなどのライブ動画は最も相性が悪いです。
7. 物理シミュレーション
物理シミュレーションの究極の動画とは何でしょうか。個人的には宇宙の外側などを計算によって映像化できたら面白いと思います。Soraどころか, もちろんまだまだ先の話だと思いますが, 現在のAIが理論的に可能と返答しています。
userからは宇宙の膨張速度や年齢などの基本パラメータ, ACDMモデルなどの宇宙論モデルなどの理論
また, 実際の実験データ, ここでは宇宙背景放射, 銀河分布などの観測データを大量に渡したら将来の
現時点でのGPTが考える宇宙の外側は以下の通りとのことです。1. 無限に広がる, 2. 無, 3. マルチバース 4. 高次元
A fantastical, dreamlike image of a clear blue sky with clouds artistically formed to spell out the word 'Sora' in a whimsical, flowing script. The clouds are not just fluffy and white but imbued with iridescent hues, reflecting a spectrum of colors that blend seamlessly with the deep blue of the sky. This scene is serene yet filled with a magical aura, as if the sky itself is alive with enchanted energies. The sun shines brightly, casting a mystical glow over the clouds, accentuating the letters with a luminous quality. This picturesque setting is not just a beautiful day but a portal to a realm where the sky conveys profound, otherworldly messages, inviting onlookers to gaze upwards and admire its ethereal beauty.
Sora+cloud+fantasticalでDALLEに画像生成をお願いしたら, すごく良い感じの画像ができました。元画像が気になってをgoogleで検索したら以下の結果となりました。確かにSora (キングダムハーツの方), Cloud (FF7の方) 間違ってはいないなあと思いました。