見出し画像

建築ビジュアル CG AI 活用法⑩ 動画生成AIが切り拓く未来のコンテンツ制作 Sora + Sensei + Jupitrr AI

こんにちは。STUDIO55技術統括の入江です。
動画生成AIは、今後の映像ビジュアルの世界に大きな変革をもたらすジャンルであり、その動向から目が離せません。

VFX技術はハリウッド映画において主流となり、かつてと比べて撮影にかかる日数やコストが大幅に削減されました。さらに、AIの進化がこれらの技術に革新をもたらしつつあります。
動画生成AIこそが、次の進化を加速させるかぎになります。

動画生成AIに関しては、今後、代表的なプラットフォームや注目すべき特徴を持つツール等を紹介しながら、現状や最新のトレンドを複数回に分けてお伝えしていきます。それらの内容を通して、動画生成AIを改めて認識する機会にしていただければと思います。

初回となる今回は、「Sora」「Sensei」、そして、Bロール生成AIの「JUPITRR AI」を紹介します。


動画生成AIの仕組み

動画生成AIは、機械学習や深層学習、自然言語処理(NLP)などの先端技術を駆使して動作します。動画生成AIの初期においては、DeepDream(2015)、DeepMind's WaveNet(2016)、GANs(Generative Adoversarial Networks, 2014)、Pix2Pix(2017)などが重要な技術やツールとしてのステップになってきました。
これらの技術は、膨大なデータを解析し、パターンやトレンドを抽出することで、ユーザーの意図を理解し、高品質な動画を生成することを可能にしています。

🔶Sora

動画生成AIの筆頭に挙げられるのがSoraです。

画像引用 : Open AI | sora サイトページ

現在、多くの動画生成AIのプラットフォームが、実写レベルのリアルな動画を競うように開発していますが、その中でも Sora の “映像” は、依然として突出したレベルを誇っています。

OpenAI社 が開発した Sora が公開されたのは、今年の2月15日のことです。

「東京都心を歩く女性の動画」は、Sora を象徴する作品として、衝撃をもって一般のニュースなどでも取り上げられ、広く知られるものとなりました。

中でも「東京郊外を走る電車の車窓風景」は、身近なシチュエーションなだけに、ダイレクトにリアルさが伝わります。もはや完全な実写にしか見えません。

出典 : openai.com

Sora は、複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーンを生成することができます。このモデルは、ユーザーがプロンプトで要求した内容だけでなく、それらが物理世界にどのように存在するかも理解します。

出典 : openai.com

この解説通り、Sora が物理世界を理解して再現することを身近に実感できる動画の一例です。

OpenAI のサイトには異次元レベルの動画が数多く並んでいます。
まだ見たことがない場合は、ぜひこちらから直接ご覧ください。

出典 : openai.com

 テクニカルレポート に、Sora の仕組みが詳しく解説されています。

出典 : openai.com

Sora は、画像生成AI「DALL・E 3」の手法を応用して動画を作成しています。その高品質な動画生成の仕組みは、OpenAI社の DALL・E 3 と GPT の技術の融合であると言えます。

DALL·E 3 と同様に、GPT を活用して、短いユーザー プロンプトをより長い詳細なキャプションに変換し、ビデオ モデルに送信します。これにより、Sora はユーザー プロンプトに正確に従う高品質のビデオを生成できます。

出典 : openai.com

Soraと比較対象傾向にある動画生成業界の現状

Runway Gen-2 は、動画生成AIの業界をリードしてきたジェネレーターです。その使用感やクオリティは、他の多くの動画生成AIに影響を及ぼしてきました。
そのRunway社が開発した、待望の Gen-3 Alpha が、6月17日にリリースされ、多くの人が期待と驚きをもってこのニュースに注目しました。

出典 : runwayml.com

Gen-3 の代表的なサンプルデモは、「日本の都市を走る電車の車窓」です。

画像引用 : runway イントロダクション gen-3-alpha 
プロンプト: 日本の都市を超高速で走る電車の窓に映る女性の微妙な反射

技術的な表現意図は異なりますが、日本の都市を走る電車という題材において、Soraとの興味深い共通点を感じます。

Gen-3 Alpha は、大規模なマルチモーダル トレーニング用に構築された新しいインフラストラクチャ上で Runway によってトレーニングされた次世代の基礎モデルの最初のものです。これは、Gen-2 に比べて忠実度、一貫性、およびモーションの点で大幅に改善されており、一般世界モデルの構築に向けた一歩です。

出典 : runwayml.com

Runway だけではなく、リアル系動画生成AIは、常にSoraを意識した展開が見られ、リリースのたびに「Sora超え」「Soraを上回った」といった評判が世間で飛び交います。

Soraのクオリティは、動画生成のAI業界において、圧倒的な存在感を放っています。


OpenAI社の Sora は、日本語の “空” に由来する、日本人に親しみやすい名称です。
2024年9月現在、OpenAIはSoraのリリース時期を公表していませんが、今年3月の Sneaks で、Soraが Adobe Premiere Pro の機能の一部として導入予定であるとのニュースが大きな話題を呼びました。

Adobe Blog (04-16-2024)より

Adobe Premier Pro 搭載予定のAI機能

Sneaks で発表のあったAdobe Premiere Proに導入予定の機能として注目されるのは、以下の3つです。

  1. 生成拡張 (Generative Expansion): 動画のフレームを解析し、AIが自動的に内容を拡張する機能。

  2. オブジェクトの追加と削除 (Object Addition and Removal): 動画内の特定のオブジェクトをAIが自動で認識し、必要に応じて追加や削除を行う機能です。これにより、背景や前景のオブジェクトを簡単に編集できます。

  3. テキストからの動画生成 (Text-to-Video Generation): テキストを入力することで、その内容に基づいた動画をAIが生成する機能です。


関連して、Adobe Premiere Proに将来搭載予定のAI機能を以下にまとめておきます。

1. 自動シーン編集検出

AIが映像を分析し、シーンの変わり目を自動的に検出して、タイムライン上でカットを自動的に挿入する機能。これにより、編集の手間が大幅に削減されます。

2. スマートリフレーミング

AIが動画内の主要な被写体を追跡し、異なるアスペクト比(例えば、16:9から1:1など)にリフレーミングする際に、自動的に最適なフレームを選択して調整する機能。

3. 自動トランスクリプションと字幕生成

音声を自動的にテキストに変換し、トランスクリプトを生成する機能。これにより、字幕の生成が容易になり、アクセシビリティが向上します。

4. 自動カラーグレーディング

AIが映像の色調を解析し、最適なカラーグレーディングを自動で適用する機能。これにより、映像の一貫性とプロフェッショナルな見た目が確保されます。

5. 自動Bロール選定(将来的な可能性)

AIが映像素材を解析し、主要なストーリーラインに合わせて適切なBロールを自動的に選定する機能。現在は正式には発表されていませんが、将来的に期待される機能です。

6. 音声エンハンスメント

AIが音声トラックを解析し、ノイズリダクションやエコー除去などを自動的に行い、音質を向上させる機能。

7. モーショングラフィックステンプレートの最適化

AIを使って、ユーザーのプロジェクトに最適なモーショングラフィックステンプレートを提案し、自動的に適用する機能。

8. 自動ビデオ要約

長いビデオから主要なハイライトやキーポイントを抽出し、短い要約ビデオを自動的に生成する機能。

Premier Proは編集業界をリードするソフトウェアの1つですが、今後ますます映像編集の時短ワークフローにつながる仕様が期待されています。


🔶Adobe Sensei GenAI

Premier Proなどに搭載されるAdobeのAI機能は、「Adobe Sensei」というAdobe独自のAI技術によって支えられています。

Adobe Sensei は、Adobeが主催するクリエイティブ分野の大規模なイベント「Adobe MAX 2016年」で披露されたものです。

出典 : Adobe Experience Cloud | Adobe Sensei GenAI より

OpenAI「Sora」が日本語の「空」に由来するように、Adobe Sensei「Sensei」も日本語の「先生」から名付けられています。
共に、日本語からの命名というのも興味深いものがあります。

日本語の「先生」という言葉は「教師」「マスター」を意味し、知識やスキルに優れた人物を指します。この名前は、Adobe SenseiがAIおよび機械学習技術を通じてユーザーに賢明なサポートを提供し、作業を効率化するための「教師」「ガイド」の役割を果たすという意図を反映しています。


リアル系動画生成AIの傾向

AI競争が激化する中で、OpenAI社がハリウッド映画への売り込みを進めているとの話しがあります。
Soraが一般への公開は年内中としながらも、なかなか公開日が未定のままであるのは、こういったエンターテインメント業界との意図的な戦略の裏事情があるからのようです。
これはOpenAI社に限らず、リアル系の動画生成AI全般において、映画業界への戦略的アプローチが開発プロセスの一環と見なされるまでになっています。ハリウッドは常に最先端の技術を求めており、AIによる動画生成は物議ぶつぎかもしつつも、新たな映画制作の可能性を切り開く手段として注目されています。

この内容は Bloomberg によって報じられています。

Bloombergの記事 より

Soraの技術は、現在、限られた数のアーティストや映画製作者、セキュリティ研究者にのみ提供されています。OpenAIはまだSoraの一般公開日を発表しておらず、具体的なリリース時期は不明です。

一般に利用可能になるには、まだ時間がかかりそうです。

🔶JUPITRR AI(ジュピターAI)

先ほどの Adobe Premier Pro に搭載予定となっている「Bロール生成」がすでに可能なAIツールを、関連して紹介しておきます。

画像 : Jupitrr AI サイトページ

JUPITRR AI(ジュピター エーアイ)は、Bロール専用のAIプラットフォームです。

the fastest and easiest way to add engaging B-roll visuals to creators' content marketing videos. Powered with AI.
(直訳)
クリエイターのコンテンツ マーケティング ビデオに魅力的なBロール ビジュアルを追加する最も速くて簡単な方法です。AIを搭載しています。

出典 : Jupitrr AI サイト

BBC ByteDanceUNICEF などの名だたる企業が採用するAI編集プラットフォームで、作業効率を上げるソフトとして世界的に知られています。


🔹Bロールについて

「Bロール」という動画専門用語に馴染みのない場合もあるかと思いますので、解説をしておきます。

映像編集には基本的に「Aロール」「Bロール」があります。
Aロールは主となる映像フッテージを指し、Bロールは補足的なイメージフッテージを指します。

例えば、映画などにおいて、主人公の会話やアクションといったメインストーリーとなる映像に、単調さを避けるためキャプチャした映像が差し込まれることがあります。それがBロールです。

What is B-Roll? How to Get Cinematic B-Roll for your Project

視聴者が引き込まれるような映像作品を作るには、この Bロールのクォリティが非常に重要なポイント になってきます。

建築ビジュアルでは、エモーショナルな広告向け動画制作において、Bロールのテクニックが使われます。例えば、周辺環境のイメージを挿入するなどがそうです。

以前に、建築関係の制作者が知っておくべき動画用語についてコラムした内容があります。動画編集に興味のある方は、そちらも参考にご覧ください。


Bロール 自動生成

JUPITRR AI の使い方を解説します。
基本的に無料使用が可能なので、気軽に試してみてください。

サイトトップを立ち上げたページの ”Try Jupitrr AI for Free” ボタンをクリックします。

画像引用 : Jupitrr AI トップページ

2拓の選択画面になります。
ここでは、画面左側の「Add B-rolls to your video」を使用します。

Add B-rolls to your video

「Add B-rolls to your video」にある2つの項目は、独自のビデオを使用する場合の「Upload video」と、サンプル映像を使った「Try sample video」です。
ここでは、「Try sample video」のサンプル映像を使って解説を進めます。

「Try sample video」をクリックすると、サンプル動画の入ったBロール編集画面へと切り替わります。

B-roll Edit 画面

サンプル動画は、一人の女性が仕事の環境について語っている映像です。
画面左側に話している内容をトランスしたスクリプト(転写したセリフ)が表記されています。


(サンプル映像で彼女が話している内容を記載しておきます)

Oh. So what do you do for work? And every single person that I had a conversation with that night had their own thing going on. One owned a jewelry company, one was a producer, one had a podcast, another had their own coffee shot.
 
One had a tech startup. It was like a new world for me. I was used to being surrounded by perople who didn't like their job and spent all day complaining about it while doing nothing to change their situation.
 
And I too was one of those perple.

(直訳)
ああ。それで、仕事は何をしてるの?その夜私が会話した人はみんな、それぞれ自分のことをやっていた。ある人はジュエリー会社を経営し、ある人はプロデューサーで、ある人はポッドキャストをやっていて、ある人はコーヒーショットをやっていた。
 
ある人はテクノロジー系のスタートアップをやっていた。私にとってはまるで新しい世界のようだった。私は、自分の仕事が気に入らず、一日中不満を言いながら、状況を変えるために何もしない人たちに囲まれることに慣れていた。
 
そして私もその一人だった。


動画を再生すると、話しているセリフ箇所がハイライトアニメーションします。また、画面下部に自動生成されたキャプションも、同様にセリフに追従してカラーハイライトします。

Bロールイメージの生成方法は、イメージビジュアルを差し込みたいスクリプト箇所を選択して、自動表示される5つの項目から選択するだけです。後は、AIがそれに見合った内容の画像や動画を自動で差し込んでくれます。

画像 : テキストを選択した状態

(選択項目内容)

  1. Generate image : 静止画

  2. Generate video : 動画

  3. Search web image (Beta) : ウェッブ検索 ※新機能

  4. Add GIF : GIF動画

  5. Upload image / video : オリジナルの静止画/動画を使用する

差し込みたいイメージが静止画なのか動画なのか、あるいはGIFなのか、もしくはオリジナルのものかで選択するといった形です。
オリジナル使用の場合を除き、いずれかの項目を選択した時点で、その選択内容の言葉からくるイメージをAIが生成します。


AIジェネレート中の画面
B-roll 生成した内容

実際に生成された内容がイメージとして合わない場合、再度ハイライトしたスクリプト箇所を選択します。
すると、次の項目が表示されます。

B-roll 再生成画面

(編集選択項目の内容)

一番上の5つ星は、生成した内容の評価シートです。

  1. Pick another one from gallery : ギャラリーから任意で選択する

  2. Delete highlight : 削除

「Pick another one from gallery」をクリックすると、このような選択画面が表示されます。リスト内の一覧イメージから選択して決定します。


Search Footage 画面
B-roll 編集

動画や静止画などを使ってBロール編集した内容を下にリンクしておきます。参考にご覧ください。

Jupitrr AI 編集画面

エクスポート動画

動画編集ソフトを一切使わず、Bロールイメージ素材を用意する手間もなく、このような映像を手軽に作成することができます。インタビュー映像など、ものの数分で編集することが可能になります。


動画アスペクト比

動画のアスペクト比は3種から選択可能です。

● Landscape : YouTube系の16:9画角=デフォルト設定

Landscape

● Square : インスタグラム系のスクエア画角

Square

● Portait : TikTok系の9:16画角

Portait

サブタイトル編集

編集機能として、キャプションも編集調整が可能です。
「Subtitles(サブタイトル)」タブに切り替えて編集を行います。

Subtitles 画面

(キャプション編集 項目内容)

・ Style(スタイル) : 通常、ザブトン、なし の3種
Font(フォント) : 文字フォント。全大文字変更。文字の色変更。
Number of Words : キャプションの表示量
  More=デフォルト
  Less=少な目
  One=単語 ※日本語では単語として認識されません
・Font Size : 文字の大きさ
Position Y : キャプション表記位置の高さ
Animation : 文字のハイライトのあり/なし
 ※右側カラーボックス : 色変更


字幕作成には、オーディオの言語を自動検出し、ビデオの字幕として自動生成します。
サポートされている言語の一覧は以下になります。

Frequentry Asked Questions(FAQs) ページ

アフリカーンス語、アラビア語、アルメニア語、アゼルバイジャン語、ベラルーシ語、ボスニア語、ブルガリア語、カタロニア語、中国語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ガリシア語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、カンナダ語、カザフ語、韓国語、ラトビア語、リトアニア語、マケドニア語、マレー語、マラーティー語、マオリ語、ネパール語、ノルウェー語、ペルシア語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、タミル語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語、ウェールズ語。

Frequentry Asked Questions(FAQs) より抜粋

聞いたことのない言語まで数多く含まれており、かなりな範囲をカバーしているのが分かります。

Turn your audio to video (beta)

次は、先ほどの画面右側にある「Turn your audio to video(Beta)」を解説します。これは、音声データからイメージ動画を生成する機能になります。

Turn your audio to video (beta)

先ず、使用する音声(mp3)を用意します。

直接自分で読み上げた内容を録音しても良いですが、ここでは参考に、オススメのAI音声ジェネレーター の紹介と共に、AI生成した音声を使用したいと思います。

音声AI

オススメの音声AIを2つ挙げます。

🔹ElevenLabs(イレブンラボ)

ElevenLabsは、自然で高品質な音声を生成するAI音声ジェネレーターとして、世界的に高い使用率を誇ります。
その多言語対応や用途の多様性により、教育、エンターテインメント、マーケティング、カスタマーサービスなど、さまざまな分野で利用されています。Amazon Polly や Google Text-to-SpeechIBM Watson Text-to-Speech などの他のAI音声合成サービスと競合していますが、独自の技術力と表現力豊かな音声生成機能により、ユーザーから高く評価されているものです。

👉 ウェッブ操作は日本語翻訳で行うとエラーになる確率が高くなります。その場合、英文での言語表示に切り替えるのをオススメします。

ElevenLabs (イレブンラボ) サイト

基本無料ですが、一カ月あたり10,000文字(約10分の音声)の制限があります。それ以上使用する場合には、有料プランとなります。

Elevenlabs 価格表
対応する言語

AIによる日本語の読み上げは、どうしても機械的で発音がぎこちなくなりがちです。ElevenLabs もその例外ではありませんが、世界的に有名な音声AIジェネレーターの先駆者として広く知られます。
特に英語を中心とした音声生成には優れており、国際的にスタイリッシュなナレーションを求める際に、ぜひ試してみてください。

🔹音読さん

音読さんは、日本語特有のイントネーションやリズムに特化して設計されており、日本語を自然に読み上げることに重点を置いています。
開発者が日本語の音声生成における細かいニュアンスやアクセントに対する理解を持っているため、より自然でスムーズな日本語による音声生成が可能となっています。

画像引用 : 「音読さん」サイトページ

音読さん は、誰でも無料で利用できる音声読み上げサービスで、無料登録で毎月5000文字までの使用が可能です。

「音読さん」料金プラン

今回は、 "けいた" にテキスト内容を読み上げてもらいました。

画像 : 「音読さん」設定画面

(テキスト内容)

ビデオ生成AIは、クリエイティブなプロジェクトに革命をもたらす革新的な技術です。従来のビデオ制作プロセスを大幅に簡素化し、効率化することで、プロファッショナルからアマチュアまで、幅広いユーザーが手軽に高品質な映像を作成できるようになりました。


ジュピターの「Turn your audio to video」に、"けいた" に音読してもらった音声データ(mp3)をアップロードします。

タイトルを入力して、Continueをクリック。

画像 : 音声からの基本設定画面

音声から生成されたビデオがこちらになります。

Jupitrr AI 編集画面

エクスポート動画

自動生成の内容が気に入らない場合は、先ほどのBロール生成同様、選択したテキストから映像や画像を指定した設定が可能です。

今後予定される機能紹介

静止画GIF動画の生成は、比較的最近追加された機能です。さらに、新機能として "Search web image" 項目も追加されました。

この他、近日公開予定の機能の一部を以下に紹介しておきます。

つなぎ言葉の削除 :
「え~」などの言葉を自動的に削除

テキストオーバーレイの追加 :
テキストオーバーレイやタイトルを表示したい部分をハイライトすると、関連する見出しが自動的に生成される。

テキストベースのトリミング
トランススクリプトを編集してビデオをトリミングできる。


AI関連のプラットフォームは頻繁ひんぱんに更新されていますが、Jupyter も例外ではありません。新機能が続々と追加され、ますます便利になっています。手動で編集する手間を考えると、Jupyterの自動処理の利便性が一層際立ちます。

ただし、先ほどご覧いただいたように、サブタイトルのキャプション割りが日本語的には中途半端なところで切られることがあったりと、実務ベースでそのまま通用しないケースもあります。
その場合、手慣れた動画編集ソフトとJupyterを連携して使用する工夫が必要になりますが、それでも効率化には十分に役立つものと思います。

ジュピター単体の完成が難しい場合、こちらのブログ記事も参考にするとよいでしょう。

2024年4月30 ブログ記事

価格

JUPITRR AIの無料使用は月に10分の動画使用となっています。
使用条件項目の詳細は、添付した画像からサイトで確認してください。

料金プラン ページ

著作権

これほど便利に動画や静止画をBロール配置してくれるツールだと、さすがに使用素材の権利関係が気になるところです。

JUPITRR AIは、Jupitrrという会社が提供しているAI技術で、シンガポールを拠点とする会社です。

JUPITRR AIのウェッブページ等には、権利関係について明記されているものがありません。そこで、メーカーに直接問い合わせた内容を共有しておきますので、参考にしてください。

Jupitrr AI only uses free images and videos from platforms like Pexels.
Hence, it is unlikely you can get any copyright issues. So far, we have not received such issues.
However, if you still get any copyright issues or YouTube does not allow you to upload the video, you can reach out to us anytime.
We will try to resolve it as soon as possible.

(直訳)
Jupitrr AI は、Pexels などのプラットフォームからの無料の画像と動画のみを使用します。
したがって、著作権の問題が発生する可能性は低いです。これまでのところ、そのような問題は発生していません。
ただし、それでも著作権の問題が発生した場合、または YouTube で動画のアップロードが許可されない場合は、いつでもご連絡ください。
できるだけ早く解決するよう努めます。

Jupitrr Teamより 

日本ではそこまで聞こえていないAIでも、世界的にシェアされているものはたくさんあります。そういったものも含めて、今後もすぐれたAIを紹介していきます。

次回は、リアル系動画生成AIの代表的なプラットフォームについて紹介をします。


この記事が参加している募集