動画生成AIサービスの最新動向 - Blog 2023/10/23 Runway Gen-2
今月の28日(土)の報告会のために、動画生成AIについてもまとめていますが、今日はRunwayを中心とした最近の動向をメモしておきましたので参考にしてください。
Runwayの画像生成も地道に進化
Runwayは動画(ビデオ)生成で知られている生成AIサービス。
画像(イメージ)生成の品質はDALL·E 2 レベルだったので、Midjourneyの生成画像を使ってビデオを生成していましたが、最近、画像生成の表現力がかなり向上しました。Firefly Image 2 (Beta) に近いレベルです。
この動画見ていただければ一目瞭然ですが、生成される画像の品質が大幅に向上しています。
再生時間(20秒):
MidjourneyやDALL·E 3 のレベルには追いついていませんが、今後のアップデートで、画像生成から動画生成、そして動画編集まで、全てRunwayだけで完結できる可能性があります。
その頃には、主要な生成AIサービスが動画生成を提供し始めているかもしれませんが…
動画生成AIの厳しいガイドライン
Vlogでは何度も指摘しているとおり、Runwayは「幼い子ども」を生成できません。下図のように「子ども」と認識されるとブロックされます(どう見ても「子ども」ではないのですが…)。
ここで使用したプロンプトは、MidjourneyやDALL·E 3、Adobe Fireflyでも生成できる不適切な表現を含まないものですが、Runwayではガイドライン違反になります。
これは児童ポルノを「絶対に生成させない」ためのガイドラインであり、判定AIの誤認識であっても問答無用で削除されます。
今後、他の生成AIサービスで動画生成が提供される場合も同様の厳しいガイドラインが策定される可能性が高そうです。
Runwayでは、例えば「少年が主人公の物語」などは作れません。
表現の幅を狭めていることは間違いないので、判定AIのトレーニングを強化して、もう少し緩和されることを期待します。
生成できる動画の時間
Runwayは最大18秒の動画を生成できます(2023年10月現在)。現在公開されている動画生成AIサービスの中では最大です。18秒というのは現在の技術的な制限であり、技術の進化に伴い、より長い動画の生成が可能になると予想されます。
ただし、動画の長さが増えると、その品質や一貫性を保つのが難しくなるかもしれません。意図しないモーフィング現象やチラつきなどが顕著になりそうです。
現在の情報と技術のトレンドを基にした予測(2023年10月現在)
1年後:
技術的向上: 18秒の制限が徐々に緩和され、より長い動画の生成が可能となる。また、解像度や品質も向上し、よりリアルタイムでの動画生成が可能になる(GPU消費に伴うクレジット費用も増加する)。
商用利用の拡大: 企業やクリエイターが動画生成AIを活用した広告やコンテンツ制作に広く利用し始める。大手企業によるAI動画CMや、AIを用いた短編映画などが登場する可能性がある。
クリエイティブツール: 動画編集ツールに、エフェクト(パーティクルやエクスプロージョン、モーショングラフィック等)を生成するAIプラグインが登場する。
追記:
生成AIのCM、すでに登場していた
伊藤園公式チャンネル:お~いお茶 カテキン緑茶TVーCM 「未来を変えるのは、今!」篇
2年後:
さらなる技術進化: 動画の長さの制約はさらに緩和され、複雑なシーンやストーリーを持つ動画の生成も可能になる。また、ユーザーが指定したスタイルや感情を反映した動画生成が簡単になる可能性がある。
新たな利用シーンの登場: バーチャルリアルティ(VR)や拡張現実(AR)と組み合わせた新しいエンターテインメントや教育コンテンツが現れる可能性がある。
法的・倫理的課題: フェイク動画の問題がより顕著になり、それに関する法律やガイドラインが各国で制定・強化される動きが出てくる。動画生成AIサービスのコミュニティガイドラインは厳しくなり、表現の幅を狭めていく。
3年後:
革新的な技術進化: ほとんどの人が区別がつかないレベルの高品質な動画を生成可能になる。長時間動画生成がスマホのアプリで実現する可能性がある。ただし、コンシューマー向けのサービスのガイドラインはさらに厳しくなり、表現の幅を狭めていく。企業はカスタムトレーニングによってより高品質な映像制作を推進していく。
日常生活での利用: 個人の日常の中で、動画生成AIを活用するシーンが増える。例えば、個人の思い出の写真から動画を生成するサービス、家族や友人へのサプライズメッセージの生成など。
AI検出技術の進化: 検出技術や、本物の映像とAI生成映像を区別する技術が急速に発展する。
動画生成のワークフロー(2023年10月現在)
現在の生成技術は、実行する度に異なる結果を生成しますので一般的な動画制作には活用できません。多様なアイディアやインスピレーションを得るためのプロセスでは役立つこともありますが、一貫性やブランドのイメージを維持することは困難です。
ただし、カスタマイズされたモデルを使用することが容易になれば状況は一変します。企業が提供する生成AIサービスが、カスタムトレーニングの機能を実装するのは時間の問題で、エンタープライズ向けが先行するでしょう。
Runwayはカスタムトレーニングが可能ですが、動画生成には対応していませんので、今のところ「ガチャを何度もまわして」似たようなシーンを生成する方法しかありません。
現在は、MidjourneyやFireflyなどで映像のシーン(静止画)を生成し、Runway Gen-2でビデオ生成するワークフローになります。
一例:
Adobe Firefly Image 2 (Beta) でイメージを生成します。
Runway Gen-2でビデオ生成します。
Gen-2は、プロンプトによる指示、カスタムカメラコントロール、モーション値(速度値)などを指定できますが、以下の動画はデフォルトのまま生成しています。
再生時間(14秒):
初めてこの生成動画を見た方は「まだこの程度なの?」と感じていると思いますが、このレベルの動画生成が可能になったのは、7月中旬頃なので「まだ3か月」しか経っていません。この間にモーション値やカスタムカメラコントロールなどの機能が追加されています。
来年の今頃には、どうなっているのか想像つきませんが、より実写に近い映像が生成できるようになっているはずです。
過去の関連記事/Vlog
生成AIポリシー(2023年5月更新):
プロンプトに作家名や作品タイトルを入れない
プロンプトに映画監督の名前や映画タイトル、登場人物、俳優の名前などを入れない
他人の著作物を Describeしない
Nijiモデルが生成したキャラクター等の画像を自分の作品として公開しない
生成した画像は素材として活用する(無加工のまま公開しない)
公開する場合はAIで生成したことを表記する
更新日:2023年10月23日(月)/公開日:2023年10月23日(月)
この記事が気に入ったらサポートをしてみませんか?