全てをアニメーション化するAIを試してみた...その結果はこうなった！

2024年12月22日 18:31

7,597 文字

この1週間は完全に狂っていました。多くのAIがリリースされ、この動画では皆さんが見逃しているかもしれないAIツールをご紹介したいと思います。もし具体的なAIの応用例を見たことがない方は、今日の動画でびっくりされることでしょう。
今日の動画では、これまでで最高の3Dモデル生成ツールがあります。OpenAIのSoraがついにリリースされ、本当に驚くべきものです。全てご理解いただけると思います。また、画像をスワイプする方法で動きを付けられる新しいAIもあります。Googleは、先日専用の動画を作成したGemini 2などの大規模なアップデートを公開しました。別のAIは、複数のコマと一貫性のあるキャラクターで完全な漫画を作成できます。そして最後に、超高速な新しい画像エディターなど、さらに多くのものがあります。
それでは、これ以上時間を無駄にせず、直接見ていきましょう。このすばらしいAIを見てみましょう。Motion Prompting（モーションプロンプティング）と呼ばれ、Google DeepMindから来ています。つまり、その背後にいるのは並の組織ではありません。
このAIを使うと、どんな画像でもスワイプして、描いた軌道に沿ってアニメーション化することができます。例えば、オウムの頭をここでスワイプすると、頭の動きがアニメーション化されます。他の例として、クマや、パン、チェスの駒などがあります。
このAIで最も印象的なのは、動物やキャラクターだけでなく、砂のようなあらゆる種類のものやオブジェクトをアニメーション化できることです。この例を見てください。かなりリアルな動きをしていますね。もう一つの例では、現実世界の物理的な性質をどのように理解しているかが分かります。煙の動きを見ることができ、本当に煙のように見えます。
従来の方法でこれをシミュレートするのは非常に複雑で時間がかかります。ご存知かもしれませんが、流体力学という分野があり、様々な分野における煙や水、流体の動きをシミュレートしています。そのために必要な計算は非常に重いのですが、ここでは小さなAIモデルで簡単に実現できています。
別の例では、この女性の髪を動かすことができ、髪の毛は本物の髪のように動きます。ここでは馬の頭を動かすだけでなく、AIはシーンがおそらく風が強いと判断し、馬のたてがみも風に揺れるようにしています。
さらに、このツールでカメラの動きまでコントロールできます。アップロードした画像の深度を推定し、このようなポイントクラウドを作成します。そしてこのポイントクラウドをスワイプして、望む効果を得ることができます。例えば、このようにスワイプするとズーム効果が得られ、ポイントクラウドをこのようにスワイプしても、同様にクールなズーム効果が得られます。
このように画像を動かせるようになったことは、かなり印象的ですね。私たちは画像を動かせる時代に到達し、とても興味深くなってきました。実に多くの可能性が開かれています。
この円形の効果を使った別の例では、パノラマのように見え、軌道に従ってカメラが移動しているのが分かります。そして最も驚くべき機能は、参照動画をアップロードできることです。自分の動画をアップロードすると、その動きを別の画像に適用することができます。
例えば、参照動画がこの食事をしている猿で、その後にこの森の航空写真を入れると、猿が噛む動きに合わせて木々をアニメーション化する様子を見てください。すごいですね。また、猿の動きに合わせてレンガの壁も動かします。かなり奇妙な生成ですが、同時にクールでもあります。
最後の例として、アップロードした動画がこの滝で、秋の木々の画像を入れると、このような結果が得られます。
現時点では、これはまだ技術論文の段階ですが、著者らはHugging FaceやGitHubにすぐにリリースすると言っています。リリースされ次第お知らせします。
次のAIに移りましょう。このAIは、テキストの説明だけでコミックや漫画を作成することができます。DiffSenseiと呼ばれ、なぜこれが画期的なのかをお見せします。
以前にも同様の生成ツールをいくつか紹介しましたが、これは初めてキャラクターをきちんとコントロールできるものです。つまり、コミックの中で一貫性のあるキャラクターを生成でき、さらに表情、ポーズ、アクションをカスタマイズすることもできます。また、複数のコマがある複数のページを生成することもできます。
いくつか例を見てみましょう。指示が「ダイナミックな戦闘シーンのキャラクター」で、このキャラクター画像をアップロードすると、実際にアップロードしたキャラクターに基づいて、この戦闘シーンの複数のコマがある1ページ全体を生成します。
もう一つの例として、指示を「少年と男性が謎の事件を解決した」とし、この男性の写真とこの少年の写真をアップロードすると、この男性と少年が登場する複数のコマのある1ページ全体を本当に生成します。テキストは意味のない文字の羅列ですが、ChatGPTでスクリプトを簡単に書いて、これらのコマのテキストを置き換えることができます。
これはすごくないですか？コミックやストーリーボードが必要なプロジェクトのプロトタイプを作成する非常に強力な方法です。しかもこのツールは1枚の画像だけでなく、一連のページを作成します。
さて、私のお気に入りの例を見てみましょう。ここで強調されているキャラクターを認識できるかもしれません。これらは少しLEIAのキャラクターに似ていますが、とにかくストーリーサマリー、つまり私たちが望む物語を読んでみると、「インドン・ルーケンとビオがノーベル賞を受賞する物語」とあります。これら3つの画像をアップロードすると、このような物語が得られます。
先ほど言ったように、このコミック生成ツールは意味のない文字の羅列しか生成しないため、ここのダイアログは後編集されていることに注意してください。しかし、最初のページを見てください。ヤン・ルーケンの家での晴れた日（申し訳ありませんが、名前の発音が間違っているかもしれません。ヤン・ルーケン、ヤン・ル・クン、正確な発音は分かりません）。
とにかく、得られる物語はかなり印象的です。キャラクターもよく保持されていて、ここでは楽しく会話しているのが見えます。「君のために研究ミッションがある。君が必要なんだ」という具合に、かなり面白い物語になっています。
実はこの物語は9ページもある長編です。興味のある方のために説明欄にリンクを貼っておきます。私たちは、漫画までもがAIになる段階に来ています。物語やコミックのファンの方は、今や、少なくとも近い将来には自分だけの物語を作れるようになります。そして、若い頃に持っていたアイデアを、今では本当に文字にする、あるいは少なくともアニメーション化できるようになるかもしれません。
これらが例でしたが、これは正確にどのように機能するのでしょうか。しかしその前に、まず手短に新しいプロジェクトについてお話ししたいと思います。
ご存知の通り、ここではAIについてよく話題にしています。私の目標は、この素晴らしい技術をできるだけ多くの人に知ってもらい、特にAIに関する意識を高めることです。私の周りの人々と話すと、人々は実際に何が起きているのかあまり意識していないように感じます。
しかし、よく言っているように、チャンネルをできるだけ本物に保ちたいので、チャンネルでは商品のプロモーションは一切行いません。そのため、私は研修コースを作りました。
生活のあらゆる面でAIを使う方法を学びたい方向けです。この動画をご覧の方は、おそらくすでにChatGPTなどのAIを使用されているでしょう。より深く考察を進め、全てのAIツールをマスターし、それらを生活にどのように適用するか正確に学びたい方は、説明欄やコメント欄、あるいはその両方に載せるリンクをご覧ください。
興味がある方は、ぜひチェックしてみてください。また、Vision AIコミュニティにもアクセスできることをお伝えしておきたいと思います。そこでは、AIの世界の熱心な仲間たちと一緒に、それぞれの分野でAIをどのように適用するかについて定期的に議論しています。
申し訳ありません、ちょっと話が逸れましたが、これ以上時間を無駄にせず、興味のある方は下のリンクをご覧ください。研究者たちは実際、この AIを「manga109」と呼ばれる巨大なデータセットで訓練しました。これには43,000ページ以上の漫画と427,000以上のコマが含まれています。
当然ながら、このデータセットでAIを訓練した後、今では様々な種類の漫画を生成することが本当に得意になりました。素晴らしいことに、コードはすでにリリースされているので、クラウド上のフォルダにアクセスして、このAIをダウンロードし、お好みでテストすることができます。
次に、非常に興味深い小さなAI、MM Audioがあります。これは任意の動画に同期する高品質な音声を生成できます。単に無音の動画を与えるだけで、それに合った音声やサウンド効果を生成してくれます。かなり驚くべきものです。
例をよく見てください。元の動画には音声がないことを覚えておいてください。このAIに与えた後、このようになります。動画を入力できるだけでなく、指示も与えることができ、その指示に最も適した音声を得られるようにできます。同様に、興味のある方はGitHub上のクラウドフォルダにアクセスできます。
次のツールも非常に驚くべきものです。SwiftEditと呼ばれ、いつもの通り無料でオープンソースです。指示を与えるだけで任意の画像を編集できます。OmniGenや、最近GoogleがリリースしたGemini 2など、これができる他のツールも紹介しましたが、このツールは超高速で、そのためSwiftEditと呼ばれています。
いくつか例を見てみましょう。この犬の元画像をアップロードし、「口を開けて」という指示を追加すると、数秒でこのような結果が得られます。「草原の中の猫」（申し訳ありません、間違えました）、「草原の中の猫」とすると、このような結果になります。「ライオン」と入力すると、これになります。[音楽]「キツネ」、まあ、お分かりいただけたと思いますが、超高速で良い結果が得られます。
別の例を試してみましょう。この女性の写真をアップロードして、お年寄りに変換すると、このような結果になります。テイラー・スウィフトに、あるいは笑顔の女性に変換することもできます。強度など、追加のパラメータも調整できます。つまり、元の画像に基づいてどの程度変更したいかを設定できます。なお、編集ボタンをクリックすると、画像は約2秒で編集されるので、本当に非常に高速です。
では、「怒っている」を試してみましょう。まず強度を6に設定すると、このようになります。1.8に設定すると、あまり怒っていない表情になります。もう一つの例として、この犬を猫に変換してみましょう。黒猫にしたい場合は、このような結果になります。馬、クマ、リス、というように、非常に柔軟なツールです。
素晴らしいのは、人物や有名人でも機能することです。これをソース画像として、指示に「ベッカム」と入力すると、このような結果が得られます。「ロナウド」や「トム・クルーズ」、「クリス・エヴァンス」も入力できます。さらに、「笑顔のベッカム」「笑顔のロナウド」「笑顔のトム・クルーズ」など、追加の指示を加えることもできます。お分かりの通り、このツールは非常にパワフルで、かなり多用途です。同様に、アクセスして自分で使用できるリポジトリがあります。
OpenAIの待望のAIジェネレーター、Soraが今週リリースされました。1週間経っているので、情報はすでにご覧になったと思います。AIの世界では1週間は非常に長い時間です。モデルが間もなくリリースされるというデータ漏洩があり、その前にイベントをカバーしていたため、それ以来あまり話す時間がありませんでした。
ここで簡単に見てみましょう。いくつか例をお見せするだけですが、ご覧の通り、予想通り品質は本当に素晴らしいです。細部は非常に鮮明で、全てが非常に一貫性があり、雪、煙、水の反射など、現実世界の物理的な性質を本当に理解しています。
ここでお見せしている例は、単純なズームやパン撮影だけの本当にシンプルな動画ですが、AIにとっては素晴らしいスタートであることを覚えておいてください。最高の動画ジェネレーターの多くは、すでにこれを扱えますが、Soraは最高の解像度と品質を持っていると言わなければなりません。
Soraは、このような多くの人々と多くのアクションがある複雑なシーンも生成できます。多くの人々と場面に多くのものがある別の混沌としたシーンの例がこちらです。これだけ多くの人がいると、もちろん不整合はありますが、これまで見てきた他の動画ジェネレーターよりもはるかに優れています。
このAIの主な問題点について、そして画像生成AIの初期の主要な問題点であった人体の解剖学について話したいと思います。なぜかAIは人間の扱いに非常に苦労しています。まるで私たちが特別で、AIが私たちを再現するのを難しくしている何かがあるかのようです。分かりません、奇妙ですね。
とにかく、多くの人々がいる別の混沌とした動画の例を見てください。他の動画ジェネレーターよりは良いですが、さらに改善の余地があります。失敗例を見てみましょう。この体操のパフォーマンスを生成させると、これが得られます。つまり、異常なポーズや奇妙なものに関してはまだ優れていません。
しかし、これは始まりにすぎません。画像生成AIが人間を生成する際に直面していた問題はほぼ解決されています。Soraが同じ結果に到達できない理由は見当たりません。そう、人体の解剖学を扱うのはまだ優れていないのが意外です。
先ほども言いましたが、AI動画やAI生成画像は多くのものを生成できますが、ヨガや体操、その他の最も異常なポーズを理解することに失敗します。
これは間違いなく、これまでに見た中で最高のAIベースの3Dモデルジェネレーターです。Microsoft自身が開発したTrillisです。最高なのは、無料でオープンソースだということです。使用方法はすぐにお見せしますが、まずいくつか例を見てみましょう。
説明を入力するだけで、完全な3Dモデルを作成してくれます。この例を見てください。テキストは「複雑な詳細を持つヴィンテージの銅製ロータリー電話」で、AIはこの3Dモデルを生成しました。もちろん、あらゆるプロジェクトに使用できます。
「赤い屋根とフェンスのある2階建てのレンガ造りの家」や「金と銀のデザインの球形ロボット」など、全てがよく作られており、ご覧の通り非常に詳細です。このツールは、ここで見える多数の窓を備えたこの船や、もちろん多数の窓と詳細なレンガを備えたビクトリア朝のマナーハウスのような、はるかに複雑な作品も生成できます。「レザーシートを備えた光沢のある銀と赤のバイク」もあります。
これはすでにとても印象的なAIですが、それだけではありません。このTrillisというAIは、説明から3Dモデルを作成する以外にもできることがあります。画像をアップロードすると、AIはその画像の完全な3Dモデルを生成します。
例えば、この入力画像で、これが何なのかさえ分かりませんが、AIはこのオブジェクトの背後にあるものを予測することができました。これは過去の他の3Dジェネレーターにとってしばしば課題でしたが、この新しいTrillisモデルはこれを非常にうまく扱います。
さらに難しい例があります。入力画像は正面から見たメカロボットですが、AIはロボットの背面がどのように見えるかを推測して作成することができます。本当に印象的です。
ドラゴンの頭を使った別の例もあります。ここでの細部の保持具合を見てください。このドラゴンの頭の背面がどのように見えるのか、実際には全く分かりませんが、このAIは完璧に推測する、あるいは少なくとも選択して背面を作成することができます。
アニメのドールのこの例も見てください。背面も同様に完璧に再現できています。しかし、それだけではありません。さらに良いことに、既存の3Dモデルを入力し、テキストの説明によってその外観を変更することもできます。これは非常にパワフルになるでしょう。
例を見てみましょう。このような初期モデルがあり、金属のテクスチャを要求すると、このような結果が得られます。しかし、緑と紫の色の編み物のようなテクスチャが欲しい場合は、このような結果が得られます。あるいは、レザーストラップ付きの頑丈な金属テクスチャ、そして最後に透明な緑の構造タイプです。
別の例として円形のロボットがあります。オレンジと白のペイントが施された頑丈な金属テクスチャを要求すると、このような結果になります。そして先ほどと同じように、緑と紫の編み物のようなテクスチャを要求すると、このようになります。
お分かりの通り、これは非常にパワフルです。実際、3Dモデルを入力して変更を要求すると、AIがそれを行ってくれます。
3Dモデリングの分野をご存知ないかもしれませんが、産業界からビデオゲーム、映画界、さらにはマーケティングや3Dモデルを印刷するためのDTPまで、非常に多くの企業や分野で使用されていることをご存知おきください。つまり、3Dモデルは非常に広範で、多くの場所で応用できます。
今、このようなAIの存在を見ると、かなりパワフルになってきます。これは非常にパワフルなツールで、最高なのは無料でオープンソースだということです。GitHubページの上部に、全ての指示が記載されたリポジトリがあります。
これが今週のAIのハイライトと主な進展をまとめたものです。これらのツールが役立つと思ったかどうか、このビデオフォーマットが気に入ったかどうか、教えてください。いつもとは少し異なりますが、いずれにしても、いつも通り新しいAIのリリースに注目し、必ずご紹介させていただきます。
まだチャンネル登録していない方は、ぜひ登録してください。私をサポートする最良の方法です。また、研修コースなどのリンクは説明欄やピン留めされたコメントにあることを改めてお伝えします。
それでは、ありがとうございました。また会いましょう。

全てをアニメーション化するAIを試してみた...その結果はこうなった！

いいなと思ったら応援しよう！