動画生成AI

2023年4月30日 11:09

映像生成AIとは？

こんにちは、皆さん。今日は、映像生成AIという技術についてお話ししたいと思います。映像生成AIとは、人工知能が画像や動画を自動的に作り出す技術のことです。例えば、ある写真に別の写真の要素を加えたり、テキストや音声から画像や動画を生成したり、といったことができます。映像生成AIは、様々な分野で応用されています。例えば、映画やゲームの制作では、リアルな背景やキャラクターを作るのに役立ちます。また、医療や教育では、病気の診断や学習の補助に使われます。さらに、芸術や娯楽では、新しい表現や体験を提供します。

映像生成AIの仕組みはどうなっているのでしょうか？一般的には、深層学習という技術を使っています。深層学習とは、人間の脳の仕組みに似た多層のニューラルネットワークというモデルを使って、大量のデータからパターンや特徴を学習する技術です。映像生成AIでは、このニューラルネットワークを二つ使っています。一つは、生成器と呼ばれるもので、入力されたデータから新しい映像を生成します。もう一つは、判別器と呼ばれるもので、生成された映像が本物か偽物かを判断します。この二つのモデルが互いに競争しながら学習することで、より高品質な映像を生成することができます。このような仕組みをGAN（敵対的生成ネットワーク）と呼びます。

映像生成AIは、まだ発展途上の技術ですが、今後もさらに進化していくでしょう。しかし、同時に、倫理的な問題や社会的な影響も考えなければなりません。例えば、映像生成AIが悪用されて、偽造や詐欺などの犯罪に使われたり、人権やプライバシーの侵害につながったりする可能性があります。また、映像生成AIが人間の創造性や感性に影響を与えたり、現実と虚構の区別が曖昧になったりすることも考えられます。そこで、映像生成AIを利用する際には、その目的や方法について十分に検討し、適切な規制や監視を行う必要があります。

映像生成AIは、人間の夢や想像力を形にする驚異的な技術です。しかし、その一方で、人間の責任や倫理も忘れてはなりません。映像生成AIを正しく使って、より良い社会や文化を築きましょう。

①Meta−A−Scene

今回は、その中でも注目の「Meta-A-Scene」というサービスをご紹介します。

「Meta-A-Scene」とは、自分の好きなシーンをテキストで書くと、それに合った映像が生成されるというサービスです。例えば、「夕日が沈む海辺で、犬と一緒に走る女性」というテキストを入力すると、そのシーンが動画として表示されます。また、「海辺のシーンに、ピアノの音楽をつける」というように、音声も追加できます。

このサービスの特徴は、映像の細かい設定も自由に変えられることです。例えば、「女性の髪型をボブにする」「犬の種類を柴犬にする」「夕日の色をオレンジにする」というように、テキストで指示するだけで、映像が変化します。また、「女性が笑顔で振り返る」「犬がしっぽを振る」というように、動きや表情もコントロールできます。

このように、「Meta-A-Scene」は、自分のイメージしたシーンを映像化することができるサービスです。映画やアニメのファンなら、自分の好きなキャラクターや場面を再現したり、オリジナルのストーリーを作ったりすることができます。また、写真や動画を撮るのが好きな人なら、自分の撮りたいシーンを実現したり、素材として使ったりすることができます。

「Meta-A-Scene」はまだベータ版ですが、今後はさらに多様な映像や音声を生成できるようになると言われています。もし興味があれば、ぜひ試してみてください。

②映像処理AI　DONOv2

最新の映像処理技術「DINOv2」の具体的なサービスをご紹介します。

「DINOv2」とは、Deep Invariant and NOvelty-based learning version 2の略で、自己教師付き学習によって映像から物体や背景を自動的に認識し、セグメンテーションやインスタンス化などのタスクを行うことができるAIです。このAIは、Google ResearchとFacebook AI Researchの共同研究によって開発されました。

「DINOv2」の特徴は、以下の通りです。

ラベル付けされていない大量の映像データから学習することができる
物体や背景の境界を鮮明に検出することができる
新しい物体やシーンに対しても柔軟に対応することができる
高速かつ省メモリで動作することができる

「DINOv2」の具体的なサービスとしては、以下のようなものがあります。

セキュリティカメラやドローンなどの監視映像から、人や車両などの動きを検出し、異常や危険を警告する
ソーシャルメディアや動画サイトなどのコンテンツから、人物や風景などの要素を抽出し、検索や推薦に活用する
VRやARなどの仮想現実や拡張現実のアプリケーションから、現実の映像と合成するために必要な物体や背景を生成する
ヘルスケアや教育などの分野から、医療画像や教材などの映像を分析し、診断や学習に役立てる

以上が、「DINOv2」の具体的なサービスの一部です。

Creative Reality

いくつかの動画生成AIサービスをご紹介します。まず、Creative Reality Studioは、リアルなアバターが自然な雰囲気で喋る動画をAIが生成するサービスです1。次に、Video BRAINは、素材と文章をアップロードするだけでAIが自動で絵コンテを生成し、その後、ユーザー自身の調整（フォントの指定など）により、動画が完成するサービスです。

Adobe Firefly

最後に、Adobe Fireflyは、同社の生成AIサービスを活用した動画編集分野での取り組みについて今後の展開を発表しています3。
ご参考になれば幸いです。
受信したメッセージ. いくつかの動画生成AIサービスをご紹介します。まず、Creative Reality Studioは、リアルなアバターが自然な雰囲気で喋る動画をAIが生成するサービスです。次に、Video BRAINは、素材と文章をアップロードするだけでAIが自動で絵コンテを生成し、その後、ユーザー自身の調整（フォントの指定など）により、動画が完成するサービスです。最後に、Adobe Fireflyは、同社の生成AIサービスを活用した動画編集分野での取り組みについて今後の展開を発表しています。ご参考になれば幸いです。

Imagen Video

Imagen Videoは、AIを活用して、あなたの動画を自動的に最適化することができるアプリです。例えば、動画の長さや画質、音声、字幕などを調整したり、動画にエフェクトや音楽を追加したり、動画を分割や結合したりすることができます。Imagen Videoは、あなたのニーズに合わせてカスタマイズすることもできます。例えば、動画のテーマやターゲットオーディエンスに応じて、最適なフォーマットやスタイルを選択することができます。Imagen Videoは、簡単に使えるだけでなく、高品質なビデオを作成することができます。Imagen Videoは、あなたのビジネスや趣味に役立つだけでなく、あなたのクリエイティビティや表現力を高めることができます。Imagen Videoは、無料でダウンロードして試すことができます。是非、Imagen Videoを使ってみてください。Imagen Videoは、あなたのビデオ編集のパートナーになることでしょう。

Phenaki

Phenakiとは、テキストから動画を生成することができるAIシステムです。テキストは時間に応じて変化するプロンプトとして与えられ、それに沿って動画が作成されます。例えば、「テディベアが海で泳いでいる。テディベアが水中に潜る。テディベアがカラフルな魚と一緒に水中を泳ぎ続ける。パンダが水中で泳いでいる」というプロンプトを入力すると、その通りの動画が生成されます。

Phenakiは、Google ResearchのRuben Villegas氏らによって開発されました。彼らは、2021年10月に発表された論文「Phenaki: Realistic video generation from open-domain textual descriptions」で、Phenakiの仕組みと性能を詳しく説明しています。Phenakiは、以下の2つの主要なコンポーネントから構成されています。

動画を離散的な埋め込み（トークン）に圧縮するエンコーダ・デコーダモデル。このモデルは、時間方向に因果的な注意機構を用いたトークナイザーを持ち、可変長の動画に対応できます。
テキスト埋め込みを動画トークンに変換するトランスフォーマーモデル。このモデルは、事前に計算されたテキストトークンに条件付けられた双方向マスクトランスフォーマーを用いて、テキストから動画トークンを生成し、それらを逆トークナイズして実際の動画を作成します。

Phenakiは、大規模な画像・テキストペアのコーパスと、少数の動画・テキストの例で共同学習することで、動画データセットだけでは得られない一般化能力を示しました。既存の動画生成手法と比較して、Phenakiは時間変化するプロンプトやストーリーという形式のオープンドメインのテキストに基づいて任意の長さの動画を生成できることが観察されました。このような時間変化するプロンプトから動画を生成することを研究した論文は、これが初めてだと言われています。さらに、Phenakiの動画エンコーダ・デコーダは、空間的・時間的な品質と動画あたりのトークン数の両方で、現在の文献で使用されているすべてのフレームごとのベースラインを上回ったことが観察されました。

Phenakiは、テキストから動画を生成することで、創造性や表現力を高めることができるAIシステムです。

deforum

Deforumは、プロンプトと呼ばれる文章からアニメーションを自動生成できるツールです。Stable Diffusionは、自然言語から画像を生成することができるAIモデルで、様々なジャンルやスタイルの画像を作成することが可能です。Deforumは、Stable Diffusionの出力をフレームにしてアニメーションにするだけでなく、2Dや3Dのモーションや深度を加えることで、よりリアルで印象的な動画を作り出すことができます。

Deforumの使い方は簡単です。まず、Google Colaboratoryというオンラインのプログラミング環境にアクセスします。次に、Deforum Stable Diffusion v0.4というColabノートブックを開きます。このノートブックには、Deforumのインストールや設定、実行の手順が書かれています。上から順番にセルを実行していくだけで、Deforumが使えるようになります。

Deforumでは、アニメーションの種類やパラメーターを設定することができます。アニメーションの種類には、None, 2D, 3D, Video Input, Interpolationの5つがあります。Noneは、Stable Diffusionの通常の画像生成です。2Dは、ズームやシフトなどの2次元的なモーションを加えたアニメーションです。3Dは、深度情報を利用して立体的なモーションを加えたアニメーションです。Video Inputは、既存のビデオにStable Diffusionの画像生成を適用したアニメーションです。Interpolationは、2つのプロンプト間の画像生成を補完したアニメーションです。

パラメーターには、max_frames, zoom, shift_x, shift_y, rotate, coherence, depth_warpingなどがあります。max_framesは、生成する画像の枚数です。zoomは、ズームインやズームアウトの度合いです。shift_xとshift_yは、水平方向と垂直方向の移動量です。rotateは、回転角度です。coherenceは、画像生成の位相です。depth_warpingは、3Dアニメーションで深度情報を利用するかどうかです。

Deforumでは、プロンプトと呼ばれる文章から画像を生成します。プロンプトは、「animation_prompts」という変数に辞書型で入力します。辞書型とは、「キー: 値」という形式でデータを格納する方法です。「animation_prompts」では、「キー」にフレーム番号、「値」にプロンプトを入力します。例えば、「0: "world of made in abyss"」と入力すると、0番目のフレームに「world of made in abyss」というプロンプトから生成された画像が表示されます。「animation_prompts」に複数のキーと値を入力することで、異なるフレームに異なるプロンプトから生成された画像を表示

映像生成AIは、これらのサービスだけではありません。他にも多くのサービスが開発されており、今後もさらに進化していくでしょう。映像生成AIは、私たちの創造力や表現力を高めるだけでなく、社会や産業にも大きな影響を与える可能性があります。映像生成AIの各サービスを紹介しましたが、皆さんはどのサービスに興味がありますか？ぜひ試してみてください。