AIが匂いを作り出す、AI RPGとマインクラフト、新しい画像モデルがFLUXを上回る、GoogleとOpenAIのアップデート
10,328 文字
AIは眠らへんし、今週はほんまにめっちゃすごかったんですわ。匂いをコピーして再現できるAIが出てきて、2つのフレーム間に動画を作れる新しいAIも登場し、FLUXを超える新しい画像モデルも出てきました。リアルタイムでAIが生成するマインクラフトとRPGゲームもあって、OpenAIはサーチGPT機能をリリースし、Googleもこっそりと超便利なAIツールをリリースしました。NVIDIAもヒューマノイドロボット向けの革新的なモデルを発表するなど、他にもようけありますので、早速見ていきましょか。
まず最初はフレーマーですわ。これは1枚の画像を開始フレームとして、もう1枚を終了フレームとして使って、その間の動画を生成できるツールです。ほんで、これがすごいのは、漫画やアニメでも使えるんです。線画やスケッチでも行けます。
で、何ヶ月か前に紹介したトゥーンクラフターでもできるやん?って思われるかもしれませんが、フレーマーとの違いは何かというと、フレーマーは2つのフレーム間の補間だけやなくて、オブジェクトの動きもコントロールできるんです。動画の中でオブジェクトがどう動くかの軌道を描けるんですわ。
軌道を描かへんかっても、自動で動きを補間してくれるんです。同じ開始フレームと終了フレームを使っても、違う軌道を描くと、生成される補間が微妙に違うんです。
これの一番ええ使い方は、ポケモンの進化動画を作ることやと思います。始めの進化段階を開始フレームに、次の進化段階を終了フレームに入れるだけで、間を埋めてくれるんです。このツールを使ったキャラクター変身の例もほかにもあって、比較してみると、フレーマーは既存の補間方法よりもずっと優れているんです。他の方法だと歪みや幻覚、ノイズが多いんですけど、フレーマーは動画全体を通して一貫性を保ってくれます。
すごいのは、もうハギングフェイスにデモを公開してはるんです。開始フレームと終了フレームをアップロードして、いろんな軌道を試して動画を生成できます。
次は、新しいAIリアルタイムビデオゲームで、これはマインクラフトがベースになってます。数週間前に、GoogleのProject Game Engineについて話しましたが、これはAIを使ってシューターゲームDoomのリアルタイムプレイ可能なシミュレーションを作るものでした。これは単一のテンソル処理ユニットで毎秒20フレーム以上を生成できて、シーンは事前にプログラムされてるんじゃなくて、動き回るたびにAIがリアルタイムで生成するんです。これだけでもすごいのに、その数週間後にマイクロソフトがProject Diamondをリリースして、これはCounter-Strikeのシミュレーションをリアルタイムで生成します。
今週になって、また別のリアルタイムAIビデオゲームが登場しました。今度はマインクラフトのシミュレーションです。これはdcart AIが開発したProject Oasisで、完全にプレイ可能で完全にインタラクティブなマインクラフトゲームなんですが、動き回ったり行動を起こしたりするたびに、すべてがその場で生成されるんです。
ゲームエンジンもコードもロジックもないのに、マインクラフトでできることは全部できるんです。歩き回ったり、ブロックを壊したり、インベントリをチェックしたり、物を作ったり、泳いだり、ジャンプしたりできます。体力ポイントも機能するし、道具も使えるし、トンネルも掘れます。
これは事前にプログラムされてるわけやなくて、何百万時間ものマインクラフトのゲームプレイデータで学習させてるんです。そのゲームプレイ映像と一緒に、ユーザーが取った対応するアクションも学習させてるんです。例えば、キーボードのこのキーを押したらこうなる、別のキーを押したら別のことが起こる、というようなデータをAIモデルに大量に学習させて、特定のキーを押したり特定のアクションを取ったりしたときに何が起こるかを理解させたんです。
ちなみに、マイクロソフトのDiamondプロジェクトも同じように学習させてます。特定のアクションに基づいて動画の次のフレームを予測するのに、このディフュージョンモデルを使ってるんです。
Oasisのすごいところは、毎秒20フレームを生成できて、遅延がゼロやと主張してることです。新しいフレームを0.04秒ごとに作るんです。これは、ClingやRunway Gen 3のような最先端の動画生成器と比べてめっちゃ速いんです。普通は1秒の動画を生成するのに10〜20秒かかるんですから。
このリアルタイムAIマインクラフトゲーム、今すぐウェブサイトでプレイできます。それだけやなくて、モデルの重みもハギングフェイスでオープンソース化されてます。これは5億パラメータのモデルで、サイズは約2.4GBです。他のディフュージョントランスフォーマーモデルと比べるとめっちゃ小さいです。このモデルをダウンロードして、自分のパソコンでリアルタイムAIマインクラフトを動かすことができるんです。めっちゃ面白いですよね。
次に、Googleのこの論文もめっちゃ面白いです。Unboundedというプロジェクトで、これは基本的に終わりのないAI生成RPGゲームです。Unboundedは、独自の外見を持つカスタムで一貫性のあるキャラクターを作れて、オープンエンドな仮想世界でそのキャラクターとインタラクションできます。例えば、餌をあげたり、動かしたりできます。
これがオープンエンドなインタラクションやいうのは、ストーリーラインも事前に定義されたルールもないからです。だから「Unbounded(無制限)」って呼ばれてるんです。例えば、若い魔女のキャラクターを生成して、好きなゲーム環境を選んで、何でもできます。ドラゴン狩りに行ったり、ポーションを買いに行ったり、探検したり、村に行ったり、買い物したり、池に行ったり、休んで食べたり、ピクニックしたり、学校に行ったり、山登りしたり、可能性は無限大です。
仕組みはこうです。アーキテクチャには複数のコンポーネントがあって、まずIPアダプターがあります。これは一貫性のあるキャラクターを作るのに使われます。このキャラクターがすべてのシーンで見た目の一貫性を保つようにしてくれます。それから2つのエージェントLLMシステムがあって、1つ目のLLMは世界を構築してナラティブを生成するために使われ、2つ目のLLMはユーザーとのインタラクションをシミュレートするために使われます。
ここで使われてるのは蒸留されたLLM、つまりもっと小さく凝縮されたモデルで、Gemma 2Bという20億パラメータのモデルを使ってると思います。これは消費者向け製品に搭載できるくらい小さなモデルです。
これはかなり面白いコンセプトで、たまごっちみたいなもんですわ。お腹の空き具合、エネルギーレベル、これはパーティーハットなんで楽しさか幸福度のレベルやと思いますが、世界を動き回って色んなアクションを起こすと、これらのレベルが上下するんです。
一見すると、一貫性のあるキャラクターで画像を生成してるだけやから、そんなにすごくないように思えるかもしれません。でも、そんな単純なことやないんです。ゲームの上にエネルギーレベルを重ねてるだけやなくて、キャラクターが動き回るとそのレベルも変化する完全にインタラクティブなゲームなんです。
将来的にこの技術がどう使われる可能性があるか想像できますよね。画像の代わりに動画を使って、リアルタイムAI RPGゲームを作れるようになるかもしれません。事前に定義されたストーリーラインはなく、AIがプレイ中にリアルタイムで世界や敵やストーリーを生成して、しかも終わりがない。5年後のビデオゲームは、今とはかなり違うものになってると思います。
次は、既存のアップスケーラーを上回る性能を持つ新しいオープンソースのアップスケーラーです。これはDream Clearと呼ばれてます。例を見せましょう。これはほんまにすごいです。
この画像から始めると、めっちゃぼやけてますよね。でも、このアップスケーラーとディテーラーを通すと、見てください。元の画像がこんな感じやのに、これだけのディテールを加えられるのはほんまに難しいことなんです。めっちゃ印象的です。
別の例を見てみましょう。開始画像はめっちゃぼやけてますが、アップスケーラーを通すと、この猫の毛並みと目にこれだけのディテールが加わります。これは別の例で、超ぼやけた写真がこうなります。顔でもよく機能します。これは別のぼやけた写真で、これが結果です。
オーロラの別の例もあります。これがビフォーで、これがアフターです。特に木々や枝のディテールがめっちゃすごいです。元の画像があまりにもぼやけてて、シャープにしたらどうなるべきかアップスケーラーが推測するのはほんまに難しいんですけど、これはめっちゃうまく処理してます。
研究論文を深く見ていくと、StableとSuperのような最先端のアップスケーラーと比較してます。Stable Diffusionを使ったことがある人なら知ってるかもしれませんが、このDream Clear(青いバー)が品質の面で他のアップスケーラーを上回ってるように見えます。
すごいのは、もうコードとウェイトをリリースしてはることです。GitHubに行けば、このアップスケーラーをダウンロードして自分のパソコンでローカルに使えます。
他のニュースでは、Googleがこっそりと「Learn About」という新しいAIツールをリリースしました。学びたいトピックを入力するだけで、簡単に深く掘り下げていけます。数週間前に、Googleがノートブック LMオーディオオーバービュー機能をリリースしましたよね。どんな文書もアップロードしたらポッドキャストを生成してくれる機能です。この新しいLearn About機能も同じくらい便利やと思います。
試してみましょう。まだ実験段階なので、すべての国で利用できるわけではありませんが、アクセスできる場合はこんなインターフェースが表示されます。「野生動物の保護について教えて」と入力してみましょう。
野生動物の保護について情報を出し始めて、めっちゃ見やすく美しいインターフェースで分解してくれます。それからもっと掘り下げられる項目もあります。例えば、野生動物への主な脅威として、生息地の損失、気候変動、汚染、密猟と違法な野生動物取引などがあります。
どのトピックも簡単にしたり、もっと深く掘り下げたりできます。例えば、密猟と違法な野生動物取引をクリックすると、選んだトピックについてもっと情報を出力します。まず、これが何かについて分かりやすい要約があって、それから違法な野生動物取引に関連する他の掘り下げられる項目があります。例えば、象牙、サイの角、虎の部位などです。
これも簡単にしたり、もっと深く掘り下げたり、Googleで画像を検索したりできます。それから、さらに質問できる提案もしてくれます。これはPerplexityがやってることにも似てますね。じゃあ、「この違法な活動を止めるためにどんなことがされてるんですか?」をクリックしてみましょう。これらの掘り下げていく過程で、左の列に選んだ経路が表示されることにも注目してください。
ここには、別のカテゴリーを選べるインタラクティブなリストがあって、これを展開すると野生動物保護についてのさらなる提案トピックもあります。例えば、生物多様性やエコシステムのバランスなどです。
このプラットフォームは、特定のトピックについて幅広く深い理解を得られると思います。好きなだけ広く、あるいは深く掘り下げていけます。例えば、AIや機械学習、データサイエンスについて学びたい場合、これは始めるのにめっちゃ役立つツールになると思います。
ここに戻って、さらに調べられるカテゴリーを提案するだけやなくて、関連する動画があれば埋め込んでくれます。「画像を取得」をクリックしてみましょう。これが結果です。これはGoogleイメージ検索から引っ張ってきてるだけやと思いますが、特定のトピックについての画像を取得するのにめっちゃええ方法です。
これは本当に役立つ無料のリソースです。あまり注目されてないのが信じられませんが、静かにリリースしただけみたいですね。
次に、NVIDIAがHOVERというAIモデルをリリースしました。これは150万パラメータの本当に小さなモデルで、ヒューマノイドロボットの体を制御できます。私たちが歩いたりバランスを取ったり、腕や脚を動かしたりするとき、意識的に考えてないですよね。脳が無意識のうちに処理してくれてるんです。このHOVERモデルも基本的に同じことをしていて、ヒューマノイドロボットが歩行やバランス取り、腕や脚の動きを調整するのを助けます。
このHOVERモデルは、NVIDIAのIsaac Simで訓練されました。これは仮想ジムみたいなもので、ヒューマノイドロボットが何万回も訓練を受けることができます。これが仮想シミュレーションなので、実際のロボットを使って現実世界で訓練するよりもコストがずっと低くて済みます。
NVIDIAのIsaac Simは現実世界の物理法則をシミュレートするので、すべてが仮想的であっても、このHOVERモデルの訓練が終わって実際のロボットに搭載しても、ほぼシームレスにすべてが引き継がれます。ロボットは追加の訓練なしで、すぐにバランスを取ったり歩いたり、他の複雑な動作をしたりできます。
これはNVIDIAのJim Fan博士のツイートですが、HOVERのすごいところは、ロボットを制御するあらゆる方法を理解できることです。例えば、XRデバイスを使ってロボットの頭と手を制御したり、モーションキャプチャー技術を使って体全体をコピーさせたり、ビデオゲームのようにジョイスティックを使ってロボットを動かしたりできます。
HOVERは、手元にある便利な入力デバイスを使ってロボットを制御するための統一されたインターフェースを提供します。このIsaac仮想ジムでシミュレートできるヒューマノイドロボットの脳に、これを組み込むことができます。
本当にすごいのは、HOVERが非常に小さいことです。パラメータ数はわずか150万で、一方、GPT-4のような最先端のモデルは1.76兆パラメータと推定されています。ちょっと公開で計算してみましょう。Googleの電卓を使って、1.76兆÷150万を計算すると、NVIDIAのHOVERモデルは最先端の言語モデルの100万分の1以上小さいということになります。
でも、それでもロボットをスムーズに制御できるのは本当にすごいことです。これは、ヒューマノイドロボットを動かすのに巨大なデータセンターや高価なGPUすら必要ないということを示してます。
他のニュースでは、今週出会った中で多分一番面白いコンテンツがあります。新しいAIが今や匂いを複製できるようになりました。これはSFみたいに聞こえるかもしれませんが、実際に今できるんです。OsmosというこのAI企業が、ある場所で匂いを捕捉して、それを一から再現する方法を見つけ出しました。これはめっちゃクレイジーやと思いません?
仕組みはこうです。まず、例えばプラムの香りを取得して、その香りを追跡するための特別な容器に入れます。それからガスクロマトグラフィー質量分析計という fancy な機械を使って、匂いをすべての異なる分子に分解します。
そしてAIモデルと香りマップを使って、その匂いのレシピを解明します。そして、それらの成分で、捕捉した香りとまったく同じ匂いがする物質を実際に作れるんです。考えてみると、匂いは私たちの鼻が感知できるデータに過ぎないので、匂いをこのデータに分解する方法さえ見つければ、AIにそのデータを分析し、理解し、再現させることができるんです。
ここからが本当にワイルドになります。3Dプリンターをご存知かもしれません。これは基本的に一連の指示に基づいて3Dオブジェクトを印刷するものです。同じことを匂いでやることを想像してみてください。誰かがあなたに匂いを送りたいとします。彼らは特定のデバイスでそれを捕捉して、そのデータをあなたに送ることができ、あなたはそのデータを受け取って香りを再現する「セントプリンター」を持っていて、自宅でその匂いを再現できるんです。まさに匂いをテレポートするようなものです。
これは完全にSFみたいに聞こえますが、この技術があれば、それができるのもそう遠くないと思います。この技術は様々な産業に大きな影響を与える可能性があります。映画を見ていて、ビーチシーンで海の匂いを感じたり、新生児の匂いをお母さんに送ったりできることを想像してみてください。
楽しいことだけやなくて、この技術は病気の検出や食品安全の向上にも使えます。
また今週は、Artificial Analysisのこのリーダーボードに謎の新しい画像生成器が登場したのを聞いたかもしれません。これは最高のAI画像モデルのリーダーボードで、例えばFLUXやIdeogram、Midjourney、Stable Diffusion 3.5なども載ってます。
今週、Red Pandaという謎めいた名前で新しいものがリリースされ、少なくとも初期のLoスコアでは、FLUX 1.1 Proを含む他のすべてを上回っているようです。数日後、Red PandaはRecraft バージョン3であることが明らかになりました。
ああ、サイトが合ってるかな...これなんです?うん、正しいサイトですね。これが私の最初の反応でした。デザインがかなり面白いというか...とにかく、これはクローズドソースの画像生成器なので、重みをダウンロードしたり、ファインチューニングしたりはできません。また、NSFWコンテンツも生成できません。
しかし、画像の品質はかなり良いです。これらの例から分かるように、かなりリアルな画像を生成できます。また、現在の最高画像モデルでも非常に難しいテキストの多い画像も生成できます。これらの例を見ると、うまく処理できているのが分かります。
また、人体の解剖学的な部分も競合他社よりも正確に処理できると主張しています。もう一つのクールな機能があって、これは本当に気に入ってるんですが、FLUXやIdeogramでは簡単にはできない方法です。Recraftでは複数の画像を一緒に使って、それらをシームレスに1つの画像にマージしようとします。これは多くのクリエイティブな可能性を引き出します。
今すぐ試せます。サイトへのリンクを載せておきます。サインアップすると、毎日無料クレジットがもらえます。
とはいえ、ベンチマークとリーダーボードはある程度操作される可能性があるので、半信半疑で受け止めてください。ユーザーによって結果が分かれていて、FLUXよりも少し劣るという人もいれば、わずかに良いけど大きな改善ではないという人もいます。
実際にこれをテストする完全な動画を作る予定です。他の主要なモデルと比較して、本当にどれくらい良いのかを感じてもらえるようにします。その動画をお楽しみに。
他のニュースでは、RunwayがGen 3 Alpha Turboビデオモデルに高度なカメラコントロール機能をリリースしました。これによって動画のカメラの動きを本当に正確にコントロールできます。例えば、水平方向の動き、垂直方向の動き、パン、チルト、ズーム、ローリングなど、いくつかの設定を調整できるようになりました。
これらの設定を調整した後の動画の例をいくつか見てみましょう。カメラの動きが本当にクリーンで、これらの動画に欠陥を見つけるのは難しいです。これはめっちゃパワフルなツールで、クリエイターが動画をどのように見せたいかをより細かくコントロールできると思います。
他のニュースでは、OpenAIが今週かなりたくさんのものをリリースしました。最も注目すべきは、ついにSearch GPT機能をリリースしたことです。ただし、これはPlusとTeamユーザーに限定されています。残念ながら、無料プランではまだアクセスできません。
でも、有料プランの場合は、チャットウィンドウの下部にこの地球のアイコンが表示されるはずで、それをクリックするとこのSearch GPT機能が有効になります。この機能は基本的に、回答にウェブ検索を組み込むものです。以前は、少なくともネイティブインターフェースでのChat GPTの応答は、最新の情報を持っていないかもしれませんでした。でも今はウェブ検索で、インターネットから最新のデータを取得できます。
アマルフィ海岸への旅行を計画してって頼むと、テキストでの回答だけやなく、さらに読める情報源も含めてくれて、画像も含めてくれます。このインターフェースのデザイン全体がめっちゃ綺麗で美しいです。フォローアップの質問もできて、インターネットから情報を引っ張りながら答えてくれます。
ちなみに、これと同じことをする無料ツールがすでにあって、それがPerplexityです。私はPerplexityの大ファンで、彼らはすでに存在していて、ほぼ同じことをしています。アマルフィ海岸へのロードトリップを計画してって頼んでみましょう。
回答を見ると、インターネットから情報を引っ張ってきて、この情報をどこから得たのかを引用して、上部にソースをリストアップしてるので、さらに読むことができます。関連するフォローアップの質問も提案してくれます。
これをクリックしてみましょう。写真については、Perplexityはすべて右列にグループ化してます。これがGPT検索のUIとの若干の違いですが、すべての回答でインターネットから情報を引っ張ってきて、すべてを引用してくれます。
UIとデザインの観点からは、GPTのレイアウトの方が少し好みです。より美しくてクリーンですし、画像も右列にグループ化されてるだけやなくて、テキスト全体に実際に追加されてます。でも正直、GPT検索もPerplexityもめっちゃ似てて、明確な勝者を決めるのは難しいです。
確実に言えるのは、この両方がGoogleの検索の直接の競合相手になるということです。最近、Google検索の結果が悪くなってきてるのを経験したかもしれません。これは広告が多すぎることが原因ですが、人々がSEOでシステムを悪用してることも原因です。彼らは本当に求めている情報を提供せず、ただGoogle検索結果でよくランク付けされるようにコンテンツを最適化してるだけです。
これらすべての結果を手動で確認して必要な情報を見つけるのは、ほんまに面倒くさいです。AIに聞いて、AIが関連するすべての情報を1つの回答にまとめてくれたら便利やと思いませんか?だから、GPT検索とPerplexityは、Googleの検索から多くのシェアを奪うと思います。
実際、OpenAIはそれについて遠慮してません。GPT検索をGoogleの代わりにデフォルトの検索エンジンとして設定できるChrome拡張機能もリリースしたってツイートしてます。
これについてどう思うか、コメントで教えてください。Google検索は死にかけてて、PerplexityやGPT検索のようなAIチャットボットに置き換えられると思いますか?また、Googleの新しいLearn About機能についてはどう思いますか?これはトラフィック減少に対するGoogleの答えやと思いますか?
他にもOpenAIが今週リリースした素晴らしい機能があります。ようやくチャット履歴を検索できる機能を追加しました。この機能は現在、PlusとTeamユーザーが利用できて、虫眼鏡ボタンを使ってチャットを検索できます。彼らによると、無料ユーザーは来月中にこの機能にアクセスできるようになるそうです。
もう一つの素晴らしい発表は、高度な音声機能が今デスクトップアプリでも利用できるようになったことです。Chat GPTのデスクトップ版をダウンロードできるページへのリンクを載せておきます。MacOSとWindows両方のバージョンがあります。以前は、高度な音声モードはモバイルGPTアプリだけの機能でしたが、ついにデスクトップアプリにもこの機能が追加されました。パソコンで本当に自然なAIの声とチャットできます。
以上が今週のAIのハイライトです。これらすべてについてどう思うか、コメントで教えてください。いつも通り、シェアすべきトップAIニュースやツールを探し続けます。この動画を楽しんでいただけたなら、いいね、シェア、購読をお願いします。より多くのコンテンツをお楽しみに。
また、毎週AIの世界では本当にたくさんのことが起きてて、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起きていることすべてを本当に把握するには、無料の週刊ニュースレターの購読をお勧めします。リンクは説明欄にあります。
視聴ありがとうございました。また次回お会いしましょう。