テキストから動画を生成する新しいツールが登場し、その結果が注目されています。Pano headというプロジェクトでは、単一の画像から立体的な頭部を作成することができます。また、motion GPTでは人間の動きのテキスト説明や予測を生成します。ビデオでは、テキストから動画を生成するツールに焦点を当てて紹介し、以前のオプションであるRunwayMLやmodel scopeと比較して、無料で利用できるZeroscopeという新しいツールを紹介します。Zeroscopeで作成された印象的な動画生成の例も示されます。
公開日:2023年6月29日
※動画を再生してから読むのがオススメです。
テキストをビデオに変換する全く新しいツールが利用可能になったばかりだが、その結果は今のところ、実に素晴らしいものだ。
私たちは、テキストからビデオへの変換で実際にできることの、まったく新しい標準を手に入れたと思う。
このビデオでは、私が出会った最もクールなジェネレーションのいくつかを分解し、このようなツールを完全に無料で自分で使う方法をお見せします。
このビデオは、私のビデオの大半よりも早く終わるだろうが、この新しいテキスト・トゥ・ビデオ・モデルに入る前に、他にもいくつかお見せしたいことがある。
これはパノヘッドと呼ばれる新しい研究で、1枚の画像から3Dの頭部を作ることができます。
これが3Dで生成された頭部で、頭の周りを回転しているのがわかります。
しかし、下にスクロールしてみると、この例ではザ・ロックの写真があり、それをこのような3D、つまり回転可能なザ・ロックに変えることができます。
さて、彼の頭の形は完璧ではないです。推測によるものなので。
そして、この小さなアニメーションで私たちが見ているのは、本質的に、また、ガンという言葉を聞いたことがあるかもしれない。
これはジェンダー・アクティブ・アドバーサリアル・ネットワークの略で、基本的にこれがやっていることは、この最初の絵を見て、絵を作り、「この絵はこの絵に似ているか?
違う?
じゃあ、これはどう?
違うか?
これはどうですか?
そして、それは元の画像にできるだけ近づくまで繰り返し戻ります。
さて、これは完全に単純化しすぎだが、いったん十分に近い画像を見つけ出すと、その画像の基本的にすべての角度を推測しようとする。
これは@hackmansのツイッターで見つけた例で、彼らは左の画像を生成しようとしている。
左の画像が最終的に生成され、十分に近く見えたら、その3Dバージョンを生成します。
もうひとつはこちら。
左側の画像を生成し、ここで3Dの画像が得られます。
もうひとつはこちらです。
これは興味深いものだと思います。彼女の髪がまとめられるべきであることがわかりますが、そのまとめ髪の後ろにあるはずの髪の姿を推測すると、まとめ髪のようには見えません。
そして、もう1つの例です。
このパノヘッドはオープンソースの研究で、GitHubで公開されています。
このURLで見つけることができます。
もちろん、説明文の下にリンクがあることを確認しておく。
しかし、もしこれを使いたいのであれば、要件のところに1~8個のハイエンドNVIDIA GPUと書いてあります。
ということは、もし自宅にRTX 3090かそれに近いものがあれば、おそらく自宅のコンピューターでこれを使えるだろう。
しかし、時間がかかりそうな予感がする。
Hugging Faceとreplicate.comの両方で検索してみたが、これの公開クラウド版はまだ見つからなかった。
ただし、いずれクラウド環境の1つで使用できるようになるまで時間の問題だと思います。
さて、最近見つけた他の研究で、すぐに紹介したいものがあります。それは、motion GPT human motion as foreign languageと呼ばれるものです。
これは基本的にテキスト感情を生成するものです。
空手のキックを練習している人を見せてくれませんか?
すると、空手のキックを練習している人の感情がテキストで生成されます。
また、動きをテキスト化し、その動きを説明することもできます。
そして、この右側にある英語の小さなビデオでは、キャラクターが歩き回っているのを見ることができます。
そして、コンピューターからの反応ですが、人が半円を描くように、つま先立ちで歩いています。
また、見たものから次の動きを予測することもできます。
ここでは、左下に次の動きを予測しようとしています。
他にもいくつかの例があります。
ある人が前方に歩いているのですが、つまずいて後ずさりし、そのまま前方に進みます。
彼らが前に進み、少しよろけてから続けるのが見えます。
人はほうきを使っているかのように手を前後に動かします。
それで、これは非常に興味深い研究です。
残念ながら、私たちはまだこの研究にアクセスできていないようだ。
GitHubのレポジトリを見れば、それが何をするものなのかが説明されているし、どのように機能するのかについても少し読むことができる。
しかし、まだあまり情報はありませんので、実際にいつ使用できるようになるかはわかりません。
さて、次はテキストからビデオへの変換についてです。
以前は、テキストをビデオに変換する場合、runwaymlなどを使う必要があった。
個人的には、私はrunwaymlの大ファンだ。
個人的には、runwaymlの大ファンだ。私の魚は両側に尾があるように見えるが、かなり良い世代を生成してくれる。
そして、ビデオを生成するにはクレジットが必要で、もしあなたがまともな量のビデオを生成しているなら、クレジットをあっという間に使い果たしてしまうだろう。
コストはかなり速く積み上がります。
Gen 2以外の選択肢としては、Hugging Faceで無料で使えるモデル・スコープのようなものがあります。
これは、Hugging Faceで無料で使えるモデルスコープのようなもので、猿がローラースケートに乗っているという設定で、このようなものができました。
しかし、モデルの範囲について話した過去のビデオを覚えているならば、どのビデオでもShutterstockの透かしマークがほぼすべてのビデオに表示されていることがわかるでしょう。明らかにShutterstockのデータで訓練されたからです。
しかし最近、私たちはZeroscopeにアクセスできるようになりました。これは実際にHugging Faceで無料で入手できます。
このURLで見つけることができる。
さて、それでもかなり短い世代しか作れないが、この1枚を見てわかるように、ウォーターマークは入っていないし、実際、モデルスコープから見ていたものよりも若干首尾一貫しているように感じられる。
ただし、Hugging FaceにあるZeroscopeの無料版で何かを生成したい場合は、生成時間がかなり長くなることがあることをお断りしておく。
また、ピーク時に使用すると、まったく機能せず、「混雑しています」と言われることもある。
ローラースケートを履いた猿のように、何か問題が起きたのなら、アプリケーションが混み合っているのだ。
というわけで、どうやら今使っている人が多すぎて、別の動画を生成することができないようだ。
しかし、そのスペースを複製することは可能だ。
そして、推奨されるハードウェアはNVIDIA A10 Gを使うことで、1時間あたり約3ドルと15セントかかる。
しかし、この方法を使えば、ビデオを生成するのにかかる時間は約1分、1分もかからない、55秒かそこらだ。
時間あたり3ドルと15セントで、プロンプトを出すのが本当に速ければ、理論的には50本から60本のビデオを作ることができる。
ここではスペースを自分で複製していますので、これをすぐに試してみましょう。
しかし、それを行う前に、これまでに出会った中で最もすごい生成物のいくつかを紹介したいと思います。これが何ができるのかをお見せします。
この動画はPharma psychoticのもので、レーザーや銃などを持ったロボット猫のような、とてもクールな世代です。
レーザーや銃を持っています。
とてもクールだ。
モデル・スコープからこんなものは出てこないよ。
スペンサー・スターリングから見つけた別の作品です。
これは、この奇妙な水中生物のようなシナリオです。
しかし、色合いや定義、品質は、Model scopeよりもはるかに優れているように思われます。
正直なところ、僕はRunwayが大好きだし、彼らのツール群も大好きだし、Gen 2から得られるものも大好きなんだけど、今僕らがZeroscopeから得ているものは、実際にはもう少し優れていると思うんだ。
ああ、これはおそらく最良の例ではありません。これは何か怖いような海の怪物のようなものです。
もうひとつ、Vaniaの作品に出会ってとても楽しかったものがあります。
でも、これは花火とみんなの歓声があるお祝いのようなもの。
そして、私たちはこのサイケデリックなビジュアルを持っています。本当に私を感動させるものです。
私はこの色彩が大好きだし、この映像の鮮明さが大好きなんだ。
こちらはLyleさんから見つけたものです。
この映像の音楽はミュージック・ジェネレーションで作られたものだから、実際に演奏することができるんだ。
でも、これは絵画的なスタイルだね。
まるでヴィンセント・ファン・ゴッホの絵に命が吹き込まれたかのようだ。
これはZeroscopeで生成したものだ。
こちらはrupe renistoで見つけたものです。
お名前を間違えていたらごめんなさい。
ジェリー・サインフェルドのつもりなんだけど。
それは、いい考えですか?
靴下がペアで洗濯機に入って、シングルで出てくるのって不思議じゃない?
男と女って違う惑星から来たみたいに見えることがよくある。
私はそれが滑稽だと思う。
明らかに、これらは誰もが実際の人のビデオだと思うことはありません。
映像の中では、映像がブラーとなって混ざり合っているんだ。
しかし、AIがこれらの動画を生成したと知りながら、これらの動画を見るのは何か楽しくて面白い。
そして、見ているうちに、奇妙な、境界線上の不気味な結果を得る。
RedditのAIビデオ・サブRedditの代わりに、3つのディールから見つけた別のものを紹介しよう。
さまざまなキャラクターが歩いているのがわかるだろう。
あなたはナイトを持っています、兵士を持っています、ロボットを持っています、異なるスタイルのロボットを持っています。
本当にクールだよ。
どうやって3秒以上の動画を作っているのかと思ったら、いろいろな動画を生成して、それを組み合わせているだけなんだ。
この動画は、猿が歩いている動画や人が歩いている動画を1つだけ生成して、それをGEN 1のようなものに通して、映像の見え方を変えているのかもしれない。
どのようにしてこのような効果が得られたのかはまったくわかりません。
これがゼロスコープです。
Hugging Faceの中で使うとこんな感じです。
私はスペースを複製したので、自分が望むものを生成し、それをかなり速く行うことができました。
そこで、ローラースケートを履いた猿を生成してみた。
これがローラースケートを履いた猿のバージョンです。
もう少し漫画っぽいです。
超リアルさを追求したわけではない。
前に見た他のもののいくつかを再現してみましょう。
カラフルな水中生物。
このビデオを生成するのに約53秒かかっているのがわかるだろう。
そしてこれがその結果だ。
以前のGen2世代を覚えている人は、正直に言うと、この動画よりも魚のように見えなかったと思う。
鮮やかな青い海の中を泳ぐタコをやってみよう。
これは約51秒かかります。
それによって得られるものはこちらです。
悪くない。
つまり、あなたはそれが何であるか間違いなく知っている。
イーロン・マスクがマーク・ザッカーバーグと格闘。
それがどのように見えるかをここに示します。
何が起こっているのかわからない。
実際にイーロン・マスクとマーク・ザッカーバーグが戦っているところを何世代にもわたって撮影した結果がこれだ。
それがまさに私がそれが起こると想像している方法です。
これがゼロスコープと呼ばれるものです。
繰り返しになりますが、我慢すればHugging Faceで無料で100個使えます。
個人的には、自分のコンピューターにインストールしてローカルで実行する方法は見つかっていない。
ただ、個人的にはまだ見つけていない。
だから、今現在のベストな選択肢は、Hugging Faceで無料で使うか、スペースを複製して待つかのどちらかだ。
それで、以上です。
新しいテキストをビデオに変換するAIツール、zeroscopeは、今すぐ誰でも使うことができます。
楽しいビデオを作ることができます。
私がTwitterで見つけたほんの一握りの動画をお見せしましたが、これらの動画の多くは今、バイラルになっています。
探せばもっとたくさん見つかるだろう。
作るのは本当に楽しい。
それらは作成が非常に簡単です。
想像できるものなら何でも、ファンキーなビデオを作ることができる。
このビデオを楽しんでいただけたなら幸いです。
もしこのようなことについて興味がなければ、私が出会った最新のツールやニュースをまとめているfuturetools.ioをチェックしてみてください。
また、まだの方は無料のニュースレターに参加してください。
毎週金曜日に配信しています。
その週のツールやAIのニュースなど、見逃したものをすべてまとめたものだ。
すべてfuturetools.ioでご覧いただけます。
もしまだであれば、このビデオに高評価や購読、ベルの設定などを考慮してみてください。それはアルゴリズムの改善に役立ち、またあなたがこのようなビデオをもっとニュースフィードで見ることができるようになります。
ご視聴ありがとうございました。
本当に本当にありがとう。
また次のビデオでお会いしましょう。
さようなら。