現在のテキストから画像生成AIシステムには、キャラクターの一貫性という根本的な問題がありますが、NVIDIAの新しい論文はこの課題に対する解決策を提示しています。この技術により、同一人物を異なる状況で生成することが可能になり、さらにControlNetを使用することで、スティックフィギュアから詳細な人物像を生成することもできます。これにより、一貫したキャラクターを維持しながら完全なストーリーを作成することが可能になります。さらに、テキストから3Dジオメトリやアニメーションを生成する技術も紹介されています。特に注目すべきは、テキストから物理ベースのアニメーションを生成する新しい論文です。この技術は約5000の異なる動きから学習し、単純な移動から複雑な動きまで生成することができます。シミュレーション分野でも革新的な進展があり、メッシュ、点群、神経放射場、ガウシアンスプラットなど、さまざまな形式のデータに対して単一のアルゴリズムでシミュレーションを行うことができる新技術が紹介されています。これにより、NASAの火星探査機キュリオシティの熱解析など、これまで困難だった高度な解析が可能になりました。さらに、光の波動性を考慮した完全な波動光学シミュレーションも可能になり、より正確な電波伝搬シミュレーションなどに応用できます。
公開日:2024年7月27日
※動画を再生してから読むのがオススメです。
私は現在、NVIDIA本社に滞在しており、彼らの研究者やCEOである黃仁勳を訪ねて、SIGGRAPHという最も権威あるコンピュータグラフィックスのカンファレンスや多くのAI関連の研究について少し詳しく知るために来ています。そして、はい、質問される前に、もちろん、彼には自分の論文を持っているように頼みました。
この内容を参考に、現在のテキストから画像を生成するAIシステムを使用して、私たちのより多くの画像を作成しようとしましたが、うーん、私が求めているものとは少し違います。
それは、紙を持っている2人の人物や、ここにあるレザージャケットなどを理解していますが、人物はまったく異なっています。
これは、テキストから画像へのAIシステムにおける最も基本的な問題の1つであり、キャラクターの一貫性です。
同じキャラクターを2度生成することはほとんど不可能であり、彼らはまさにそれを解決するのに役立つ、素晴らしい論文を発表しました。将来的には、私たちに正確にその点を助けてくれるかもしれません。
同じ人物に異なる状況を求めると、それは本当に同じ人物です。
状況は良くなります。
それはControlNetもサポートします。
言い換えれば、私たちは棒人形を描くことができ、そして…それを見て!
まさに同じ人物がこれらのポーズを取ります。
全ての画像には10秒かかります。
狂気です!
これで、私たちはついに完全なストーリーを作成し、以前に生成したキャラクターを失うことはありません。
とても素敵です。
これはテキストから画像への変換であり、AIの時代にはテキストからビデオへの変換も可能であり、さらに驚くべきことに、テキストから3Dジオメトリへの変換も可能です。ですので、もっと狂ったアイデアはどうでしょうか?
アニメーションへのテキスト変換。
それはまさにその通りです!
尊敬する研究者の皆様、私はカーロイ・ゾルナイ=フェール博士とともにお届けするTwo Minute Papersです。
研究者の皆様、お手元の論文をお持ちください。なぜなら、この新しい論文はわずか1週間前のもので、テキストを書くだけで仮想キャラクター上でその動きを合成することができます。
それは、単純な移動タイプのアニメーションから、ダンスや武道の動きなど、より複雑な動きまで可能です。
約5000種類の異なる動きを見て学びました。そして、あなたは経験豊富な研究者です。
このような作業では、最も重要な部分は、単純なものではなく、AIのトレーニングデータセットにはないより複雑な動きを探すことです。
率直に言わせていただきますと、彼らはこの小さなAIに手加減しませんでした。
これらの動きには複雑さがあります。
非常に印象的です。
楽しんでいます。
これが物理ベースのアニメーションシステムであることを忘れないでください。
それはどういう意味ですか?
それは良いニュースと悪いニュースを意味します。
正確であるということが良いニュースです。
動きは空中からでっち上げられたものではなく、現実と関連していなければなりません。そして悪いニュースは、わずかな間違いをするとバランスを失う可能性があるため、より面白いものです。それはここでも起こり得ます。
それどころか、見てください。
それは倒れるかもしれません。
蹴りに関してあまり無茶をしないでください、小さな学者さん。
また、私たちのプロンプトで使用している表現にはかなり敏感です。
それは、非常に似ている2つのプロンプトが全く似ていない結果につながる可能性があることを意味します。
しかし、その可能性は巨大であり、このような場合には常に論文の第一法則を引用するべきです。それは、今いる場所を見るのではなく、2つの論文をさらに進めた先の場所を見るというものです。
すべてが消費者向けグラフィックカードでリアルタイムで実行されていると考えると、非常に印象的です。
NVIDIAは旅行費用以外には何も支払わないことに同意したこと、そしてこのビデオは彼らによってスポンサーされていないことに留意してください。また、私たちは技術の限界についても話すことに同意しました。
それが学者の道です。
1年がシミュレーションの論文なしで完了することはありませんが、私は言わせていただきます、今年は特に興味深いです。
たとえば、三角形メッシュを持っている場合、メッシュに合わせた技術が必要です。
ニューラル放射輝度場を持っている場合、それに特化した別の方法が必要です。
しかし、ここには、メッシュ、ポイントクラウド、神経、ガウススプラット、あなたが望む可能性のあるもの、さらにはトモグラフィーのスキャンまでをシミュレートできる新しい技術があります。すべてこれを1つのアルゴリズムで実現します。
ここでの制限は、これらが最高の忠実度のシミュレーションではないことです。ガウススプラットで実行できるものが、視覚的な忠実度を製品設定に最も近づけますが、それでも1つまたは2つの論文が必要です。
これをご覧ください。例えば、有限要素シミュレーションなど、従来のシミュレーション技術は、非常に詳細なジオメトリにはあまり適していません。
こちらが彼らの新しい技術で、以前はほとんど不可能または費用がかかりすぎるとされていたこと、つまりNASAの好奇心の火星ローバーの熱解析を行っている様子です。
あなた、鋭敏な研究者の皆さんは、すぐにこれらが時間の経過とともに解消されるノイズパターンであることに気づくでしょう。光輸送シミュレーション、例えばレイトレーシングで見られるように、それはなぜでしょうか?
そうです、そこで使用されている技術の一部を借用し、以前は不可能または遅すぎて費用がかかりすぎる他のシミュレーション領域に適用しているのです。
これは本当の革命であり、SIGGRAPHのベストペーパーアワードの1つも受賞しました。
それは非常に少数の研究者が達成する名誉です。
おめでとうございます!
この方法にも制限があります。例えば、非凸領域の処理は可能ですが、よりコストがかかります。
レイトレーシングについて話しています。
レイトレーシングでは、何百万もの光線の経路をシミュレートして、このような美しい写実的なシーンを作成します。
私が「光線」と「光線追跡」という言葉を繰り返しているのに気づきましたか?
しかし、技術的には、光は光線ではなく、電磁波です。
ほとんどのシミュレーションでは、単に光線の表現を使用していますが、それはより簡単で、ほとんどの実用的なケースには十分です。
しかし、常にそうとは限りません。
光の完全な波光学シミュレーションは、この分野の聖杯の一つであり、私がこれを言っていることを信じられませんが、この新しい技術はそれを実現する方法を提案しています。
それは何ができるのか、そしてなぜそれが役立つのか?
これを見てください、それは都市全体にわたる細胞信号カバレッジの伝播を計算することができ、単純な光線表現で行うと、このようになります。
しかし、これらの光線は曲がり、回折するため、それを考慮に入れることは非常に重要であり、より現実的なシミュレーションを生み出します。
これには難解でコストのかかる回折積分の評価が含まれており、そのため、これはまだ非常に遅いです。
これは、ほぼ不可能だったことを可能にした概念の証明論文と考えてください。
素晴らしいニュースです、このプロジェクトの完全なソースコードが利用可能です。
実験を始めましょう!
これらの論文の品質はただ驚くべきものです!
大好きです!
ちなみに、NVIDIAのカフェは別格です。
ピザを注文し、約2分後に届きました。
これが私が「Two Minute Papersスタイル」と呼ぶものです。
どう思いますか?
皆さん学者の方々は、これらのテクニックをどのように活用しますか?
コメント欄で教えてください!