建築ビジュアル CG AI 活用法⑩ 動画生成AIが切り拓く未来のコンテンツ制作 Sora + Sensei + Jupitrr AI
こんにちは。STUDIO55技術統括の入江です。
動画生成AIは、今後の映像ビジュアルの世界に大きな変革をもたらすジャンルであり、その動向から目が離せません。
VFX技術はハリウッド映画において主流となり、かつてと比べて撮影にかかる日数やコストが大幅に削減されました。さらに、AIの進化がこれらの技術に革新をもたらしつつあります。
動画生成AIこそが、次の進化を加速させる鍵になります。
動画生成AIに関しては、今後、代表的なプラットフォームや注目すべき特徴を持つツール等を紹介しながら、現状や最新のトレンドを複数回に分けてお伝えしていきます。それらの内容を通して、動画生成AIを改めて認識する機会にしていただければと思います。
初回となる今回は、「Sora」と「Sensei」、そして、Bロール生成AIの「JUPITRR AI」を紹介します。
動画生成AIの仕組み
動画生成AIは、機械学習や深層学習、自然言語処理(NLP)などの先端技術を駆使して動作します。動画生成AIの初期においては、DeepDream(2015)、DeepMind's WaveNet(2016)、GANs(Generative Adoversarial Networks, 2014)、Pix2Pix(2017)などが重要な技術やツールとしてのステップになってきました。
これらの技術は、膨大なデータを解析し、パターンやトレンドを抽出することで、ユーザーの意図を理解し、高品質な動画を生成することを可能にしています。
🔶Sora
動画生成AIの筆頭に挙げられるのが「Sora」です。
現在、多くの動画生成AIのプラットフォームが、実写レベルのリアルな動画を競うように開発していますが、その中でも Sora の “映像” は、依然として突出したレベルを誇っています。
OpenAI社 が開発した Sora が公開されたのは、今年の2月15日のことです。
「東京都心を歩く女性の動画」は、Sora を象徴する作品として、衝撃をもって一般のニュースなどでも取り上げられ、広く知られるものとなりました。
中でも「東京郊外を走る電車の車窓風景」は、身近なシチュエーションなだけに、ダイレクトにリアルさが伝わります。もはや完全な実写にしか見えません。
この解説通り、Sora が物理世界を理解して再現することを身近に実感できる動画の一例です。
OpenAI のサイトには異次元レベルの動画が数多く並んでいます。
まだ見たことがない場合は、ぜひこちらから直接ご覧ください。
テクニカルレポート に、Sora の仕組みが詳しく解説されています。
Sora は、画像生成AI「DALL・E 3」の手法を応用して動画を作成しています。その高品質な動画生成の仕組みは、OpenAI社の DALL・E 3 と GPT の技術の融合であると言えます。
Soraと比較対象傾向にある動画生成業界の現状
Runway Gen-2 は、動画生成AIの業界をリードしてきたジェネレーターです。その使用感やクオリティは、他の多くの動画生成AIに影響を及ぼしてきました。
そのRunway社が開発した、待望の Gen-3 Alpha が、6月17日にリリースされ、多くの人が期待と驚きをもってこのニュースに注目しました。
Gen-3 の代表的なサンプルデモは、「日本の都市を走る電車の車窓」です。
技術的な表現意図は異なりますが、日本の都市を走る電車という題材において、Soraとの興味深い共通点を感じます。
Runway だけではなく、リアル系動画生成AIは、常にSoraを意識した展開が見られ、リリースのたびに「Sora超え」「Soraを上回った」といった評判が世間で飛び交います。
Soraのクオリティは、動画生成のAI業界において、圧倒的な存在感を放っています。
OpenAI社の Sora は、日本語の “空” に由来する、日本人に親しみやすい名称です。
2024年9月現在、OpenAIはSoraのリリース時期を公表していませんが、今年3月の Sneaks で、Soraが Adobe Premiere Pro の機能の一部として導入予定であるとのニュースが大きな話題を呼びました。
Adobe Premier Pro 搭載予定のAI機能
Sneaks で発表のあったAdobe Premiere Proに導入予定の機能として注目されるのは、以下の3つです。
生成拡張 (Generative Expansion): 動画のフレームを解析し、AIが自動的に内容を拡張する機能。
オブジェクトの追加と削除 (Object Addition and Removal): 動画内の特定のオブジェクトをAIが自動で認識し、必要に応じて追加や削除を行う機能です。これにより、背景や前景のオブジェクトを簡単に編集できます。
テキストからの動画生成 (Text-to-Video Generation): テキストを入力することで、その内容に基づいた動画をAIが生成する機能です。
関連して、Adobe Premiere Proに将来搭載予定のAI機能を以下にまとめておきます。
1. 自動シーン編集検出
AIが映像を分析し、シーンの変わり目を自動的に検出して、タイムライン上でカットを自動的に挿入する機能。これにより、編集の手間が大幅に削減されます。
2. スマートリフレーミング
AIが動画内の主要な被写体を追跡し、異なるアスペクト比(例えば、16:9から1:1など)にリフレーミングする際に、自動的に最適なフレームを選択して調整する機能。
3. 自動トランスクリプションと字幕生成
音声を自動的にテキストに変換し、トランスクリプトを生成する機能。これにより、字幕の生成が容易になり、アクセシビリティが向上します。
4. 自動カラーグレーディング
AIが映像の色調を解析し、最適なカラーグレーディングを自動で適用する機能。これにより、映像の一貫性とプロフェッショナルな見た目が確保されます。
5. 自動Bロール選定(将来的な可能性)
AIが映像素材を解析し、主要なストーリーラインに合わせて適切なBロールを自動的に選定する機能。現在は正式には発表されていませんが、将来的に期待される機能です。
6. 音声エンハンスメント
AIが音声トラックを解析し、ノイズリダクションやエコー除去などを自動的に行い、音質を向上させる機能。
7. モーショングラフィックステンプレートの最適化
AIを使って、ユーザーのプロジェクトに最適なモーショングラフィックステンプレートを提案し、自動的に適用する機能。
8. 自動ビデオ要約
長いビデオから主要なハイライトやキーポイントを抽出し、短い要約ビデオを自動的に生成する機能。
*
Premier Proは編集業界をリードするソフトウェアの1つですが、今後ますます映像編集の時短ワークフローにつながる仕様が期待されています。
🔶Adobe Sensei GenAI
Premier Proなどに搭載されるAdobeのAI機能は、「Adobe Sensei」というAdobe独自のAI技術によって支えられています。
Adobe Sensei は、Adobeが主催するクリエイティブ分野の大規模なイベント「Adobe MAX 2016年」で披露されたものです。
OpenAIの「Sora」が日本語の「空」に由来するように、Adobe Senseiの「Sensei」も日本語の「先生」から名付けられています。
共に、日本語からの命名というのも興味深いものがあります。
日本語の「先生」という言葉は「教師」や「マスター」を意味し、知識やスキルに優れた人物を指します。この名前は、Adobe SenseiがAIおよび機械学習技術を通じてユーザーに賢明なサポートを提供し、作業を効率化するための「教師」や「ガイド」の役割を果たすという意図を反映しています。
リアル系動画生成AIの傾向
AI競争が激化する中で、OpenAI社がハリウッド映画への売り込みを進めているとの話しがあります。
Soraが一般への公開は年内中としながらも、なかなか公開日が未定のままであるのは、こういったエンターテインメント業界との意図的な戦略の裏事情があるからのようです。
これはOpenAI社に限らず、リアル系の動画生成AI全般において、映画業界への戦略的アプローチが開発プロセスの一環と見なされるまでになっています。ハリウッドは常に最先端の技術を求めており、AIによる動画生成は物議を醸しつつも、新たな映画制作の可能性を切り開く手段として注目されています。
この内容は Bloomberg によって報じられています。
Soraの技術は、現在、限られた数のアーティストや映画製作者、セキュリティ研究者にのみ提供されています。OpenAIはまだSoraの一般公開日を発表しておらず、具体的なリリース時期は不明です。
一般に利用可能になるには、まだ時間がかかりそうです。
🔶JUPITRR AI(ジュピターAI)
先ほどの Adobe Premier Pro に搭載予定となっている「Bロール生成」がすでに可能なAIツールを、関連して紹介しておきます。
JUPITRR AI(ジュピター エーアイ)は、Bロール専用のAIプラットフォームです。
BBC や ByteDance、UNICEF などの名だたる企業が採用するAI編集プラットフォームで、作業効率を上げるソフトとして世界的に知られています。
🔹Bロールについて
「Bロール」という動画専門用語に馴染みのない場合もあるかと思いますので、解説をしておきます。
映像編集には基本的に「Aロール」と「Bロール」があります。
Aロールは主となる映像フッテージを指し、Bロールは補足的なイメージフッテージを指します。
例えば、映画などにおいて、主人公の会話やアクションといったメインストーリーとなる映像に、単調さを避けるためキャプチャした映像が差し込まれることがあります。それがBロールです。
視聴者が引き込まれるような映像作品を作るには、この Bロールのクォリティが非常に重要なポイント になってきます。
建築ビジュアルでは、エモーショナルな広告向け動画制作において、Bロールのテクニックが使われます。例えば、周辺環境のイメージを挿入するなどがそうです。
以前に、建築関係の制作者が知っておくべき動画用語についてコラムした内容があります。動画編集に興味のある方は、そちらも参考にご覧ください。
Bロール 自動生成
JUPITRR AI の使い方を解説します。
基本的に無料使用が可能なので、気軽に試してみてください。
サイトトップを立ち上げたページの ”Try Jupitrr AI for Free” ボタンをクリックします。
2拓の選択画面になります。
ここでは、画面左側の「Add B-rolls to your video」を使用します。
「Add B-rolls to your video」にある2つの項目は、独自のビデオを使用する場合の「Upload video」と、サンプル映像を使った「Try sample video」です。
ここでは、「Try sample video」のサンプル映像を使って解説を進めます。
「Try sample video」をクリックすると、サンプル動画の入ったBロール編集画面へと切り替わります。
サンプル動画は、一人の女性が仕事の環境について語っている映像です。
画面左側に話している内容をトランスしたスクリプト(転写したセリフ)が表記されています。
(サンプル映像で彼女が話している内容を記載しておきます)
Oh. So what do you do for work? And every single person that I had a conversation with that night had their own thing going on. One owned a jewelry company, one was a producer, one had a podcast, another had their own coffee shot.
One had a tech startup. It was like a new world for me. I was used to being surrounded by perople who didn't like their job and spent all day complaining about it while doing nothing to change their situation.
And I too was one of those perple.
(直訳)
ああ。それで、仕事は何をしてるの?その夜私が会話した人はみんな、それぞれ自分のことをやっていた。ある人はジュエリー会社を経営し、ある人はプロデューサーで、ある人はポッドキャストをやっていて、ある人はコーヒーショットをやっていた。
ある人はテクノロジー系のスタートアップをやっていた。私にとってはまるで新しい世界のようだった。私は、自分の仕事が気に入らず、一日中不満を言いながら、状況を変えるために何もしない人たちに囲まれることに慣れていた。
そして私もその一人だった。
動画を再生すると、話しているセリフ箇所がハイライトアニメーションします。また、画面下部に自動生成されたキャプションも、同様にセリフに追従してカラーハイライトします。
Bロールイメージの生成方法は、イメージビジュアルを差し込みたいスクリプト箇所を選択して、自動表示される5つの項目から選択するだけです。後は、AIがそれに見合った内容の画像や動画を自動で差し込んでくれます。
(選択項目内容)
Generate image : 静止画
Generate video : 動画
Search web image (Beta) : ウェッブ検索 ※新機能
Add GIF : GIF動画
Upload image / video : オリジナルの静止画/動画を使用する
差し込みたいイメージが静止画なのか動画なのか、あるいはGIFなのか、もしくはオリジナルのものかで選択するといった形です。
オリジナル使用の場合を除き、いずれかの項目を選択した時点で、その選択内容の言葉からくるイメージをAIが生成します。
実際に生成された内容がイメージとして合わない場合、再度ハイライトしたスクリプト箇所を選択します。
すると、次の項目が表示されます。
(編集選択項目の内容)
一番上の5つ星は、生成した内容の評価シートです。
Pick another one from gallery : ギャラリーから任意で選択する
Delete highlight : 削除
「Pick another one from gallery」をクリックすると、このような選択画面が表示されます。リスト内の一覧イメージから選択して決定します。
動画や静止画などを使ってBロール編集した内容を下にリンクしておきます。参考にご覧ください。
Jupitrr AI 編集画面
エクスポート動画
動画編集ソフトを一切使わず、Bロールイメージ素材を用意する手間もなく、このような映像を手軽に作成することができます。インタビュー映像など、ものの数分で編集することが可能になります。
動画アスペクト比
動画のアスペクト比は3種から選択可能です。
● Landscape : YouTube系の16:9画角=デフォルト設定
● Square : インスタグラム系のスクエア画角
● Portait : TikTok系の9:16画角
サブタイトル編集
編集機能として、キャプションも編集調整が可能です。
「Subtitles(サブタイトル)」タブに切り替えて編集を行います。
(キャプション編集 項目内容)
・ Style(スタイル) : 通常、ザブトン、なし の3種
・ Font(フォント) : 文字フォント。全大文字変更。文字の色変更。
・Number of Words : キャプションの表示量
More=デフォルト
Less=少な目
One=単語 ※日本語では単語として認識されません
・Font Size : 文字の大きさ
・Position Y : キャプション表記位置の高さ
・Animation : 文字のハイライトのあり/なし
※右側カラーボックス : 色変更
字幕作成には、オーディオの言語を自動検出し、ビデオの字幕として自動生成します。
サポートされている言語の一覧は以下になります。
聞いたことのない言語まで数多く含まれており、かなりな範囲をカバーしているのが分かります。
Turn your audio to video (beta)
次は、先ほどの画面右側にある「Turn your audio to video(Beta)」を解説します。これは、音声データからイメージ動画を生成する機能になります。
先ず、使用する音声(mp3)を用意します。
直接自分で読み上げた内容を録音しても良いですが、ここでは参考に、オススメのAI音声ジェネレーター の紹介と共に、AI生成した音声を使用したいと思います。
音声AI
オススメの音声AIを2つ挙げます。
🔹ElevenLabs(イレブンラボ)
ElevenLabsは、自然で高品質な音声を生成するAI音声ジェネレーターとして、世界的に高い使用率を誇ります。
その多言語対応や用途の多様性により、教育、エンターテインメント、マーケティング、カスタマーサービスなど、さまざまな分野で利用されています。Amazon Polly や Google Text-to-Speech、IBM Watson Text-to-Speech などの他のAI音声合成サービスと競合していますが、独自の技術力と表現力豊かな音声生成機能により、ユーザーから高く評価されているものです。
👉 ウェッブ操作は日本語翻訳で行うとエラーになる確率が高くなります。その場合、英文での言語表示に切り替えるのをオススメします。
基本無料ですが、一カ月あたり10,000文字(約10分の音声)の制限があります。それ以上使用する場合には、有料プランとなります。
AIによる日本語の読み上げは、どうしても機械的で発音がぎこちなくなりがちです。ElevenLabs もその例外ではありませんが、世界的に有名な音声AIジェネレーターの先駆者として広く知られます。
特に英語を中心とした音声生成には優れており、国際的にスタイリッシュなナレーションを求める際に、ぜひ試してみてください。
🔹音読さん
「音読さん」は、日本語特有のイントネーションやリズムに特化して設計されており、日本語を自然に読み上げることに重点を置いています。
開発者が日本語の音声生成における細かいニュアンスやアクセントに対する理解を持っているため、より自然でスムーズな日本語による音声生成が可能となっています。
音読さん は、誰でも無料で利用できる音声読み上げサービスで、無料登録で毎月5000文字までの使用が可能です。
今回は、 "けいた" にテキスト内容を読み上げてもらいました。
(テキスト内容)
ビデオ生成AIは、クリエイティブなプロジェクトに革命をもたらす革新的な技術です。従来のビデオ制作プロセスを大幅に簡素化し、効率化することで、プロファッショナルからアマチュアまで、幅広いユーザーが手軽に高品質な映像を作成できるようになりました。
ジュピターの「Turn your audio to video」に、"けいた" に音読してもらった音声データ(mp3)をアップロードします。
タイトルを入力して、Continueをクリック。
音声から生成されたビデオがこちらになります。
Jupitrr AI 編集画面
エクスポート動画
自動生成の内容が気に入らない場合は、先ほどのBロール生成同様、選択したテキストから映像や画像を指定した設定が可能です。
今後予定される機能紹介
静止画やGIF動画の生成は、比較的最近追加された機能です。さらに、新機能として "Search web image" 項目も追加されました。
この他、近日公開予定の機能の一部を以下に紹介しておきます。
つなぎ言葉の削除 :
「え~」などの言葉を自動的に削除
テキストオーバーレイの追加 :
テキストオーバーレイやタイトルを表示したい部分をハイライトすると、関連する見出しが自動的に生成される。
テキストベースのトリミング :
トランススクリプトを編集してビデオをトリミングできる。
AI関連のプラットフォームは頻繁に更新されていますが、Jupyter も例外ではありません。新機能が続々と追加され、ますます便利になっています。手動で編集する手間を考えると、Jupyterの自動処理の利便性が一層際立ちます。
ただし、先ほどご覧いただいたように、サブタイトルのキャプション割りが日本語的には中途半端なところで切られることがあったりと、実務ベースでそのまま通用しないケースもあります。
その場合、手慣れた動画編集ソフトとJupyterを連携して使用する工夫が必要になりますが、それでも効率化には十分に役立つものと思います。
ジュピター単体の完成が難しい場合、こちらのブログ記事も参考にするとよいでしょう。
価格
JUPITRR AIの無料使用は月に10分の動画使用となっています。
使用条件項目の詳細は、添付した画像からサイトで確認してください。
著作権
これほど便利に動画や静止画をBロール配置してくれるツールだと、さすがに使用素材の権利関係が気になるところです。
JUPITRR AIは、Jupitrrという会社が提供しているAI技術で、シンガポールを拠点とする会社です。
JUPITRR AIのウェッブページ等には、権利関係について明記されているものがありません。そこで、メーカーに直接問い合わせた内容を共有しておきますので、参考にしてください。
*
日本ではそこまで聞こえていないAIでも、世界的にシェアされているものはたくさんあります。そういったものも含めて、今後もすぐれたAIを紹介していきます。
次回は、リアル系動画生成AIの代表的なプラットフォームについて紹介をします。