![見出し画像](https://assets.st-note.com/production/uploads/images/167169351/rectangle_large_type_2_38280a7372005be54441df3ec5029d75.jpeg?width=1200)
SORA が200ユーロ? この無料AIで同じことができる!(しかもフランスで使える)
9,657 文字
人工知能は決して眠ることがなく、今週は本当に驚くべき1週間でした。新しいAIモデルが登場し、顔の唇と任意の音声を同期させることができます。これは私が今まで見た中で最高のものです。また別のAIは、キャラクターの複数の視点を生成することができ、これは3Dモデルやテクスチャを作成する際に非常に便利です。さらに、新しいオープンソースの動画生成AIが登場し、KlingやSORAなどの商用モデルを含め、他のすべてを凌駕しています。
また別のAIは、1枚の画像を探索可能な3D世界に変換することができ、これも私が今まで見た中で最高の品質です。Googleは、気象や極端な事象を例外的な精度で予測できるAIをリリースしました。他にもまだ多くのことがありますので、始めましょう。
まず、このオープンソースの無料AIは非常に便利です。説明文やイメージを入力すると、キャラクターの複数の視点を生成することができ、MultiView Adapter、略してMV Adapterと呼ばれます。Stable DiffusionやFluxxを使用したことがある方は、ControlNetや他のプラグインを使って一貫したキャラクターを生成できましたが、それほど安定していませんでした。特に細部が多いキャラクターの場合、複数の一貫した視点を生成することは非常に難しかったのですが、このツールを使えば、すべての画像が非常に一貫性のあるものになります。
利点は、これが基本モデルではなくプラグインであることです。そのため、アニメ、3D、水彩画、その他どのようなスタイルのStable Diffusionモデルにも統合でき、常に一貫性のある複数のキャラクター視点を生成することができます。例えば、アニメ生成に特化したAnimagine XLモデルを使用すると、このようなアニメキャラクターを生成できます。また、3Dレンダリングスタイルのこのローラを使用すると、この3D的な外観のキャラクターを生成でき、このレゴブリケッツモデルを使用すると、このスタイルでキャラクターの複数の視点を生成できます。
したがって、これは非常に汎用性の高いプラグインです。さらに、説明テキストを入力するだけでなく、単純に画像をアップロードすることもでき、その画像に含まれるキャラクターの複数の視点を生成します。ここで見られるように、これは特に繊細な作業です。特にキャラクターの背面を生成する場合、1枚の画像からどのように見えるかを推測することは非常に困難ですが、全体的に見ると、特にキャラクターの背面の生成については、このAIはすべてを非常に正確に再現することができます。
完全な画像をアップロードする代わりに、作成したいキャラクターのおおよその輪郭をスケッチするだけでもよいです。その後、ControlNetとMV Adapterを使用することで、単純なスケッチから複数のキャラクター視点を作成することもできます。これは本当に強力なツールです。キャラクターの複数の視点を示すこれらの画像があれば、モデリングツールに簡単に統合して、このような3Dモデルを作成することができます。
ここに追加の例がありますが、3Dモデルがアップロードした元の画像のすべての詳細を保持していることに注目してください。したがって、これは非常に汎用性が高く強力なツールです。実験できる他の3Dモデルのデモもあり、これらの生成がいかに詳細であるかを見てください。特に、このトランスフォーマーの細部は非常に印象的です。
最も興味深いのは、モデルがすでに利用可能であることです。GitHubリポジトリに行くだけで、ローカルのコンピュータにインストールして使用するためのすべての指示を見つけることができます。直感的なGradioインターフェースを備えており、説明テキストを入力してrunをクリックするだけで、キャラクターの複数の視点を生成します。ここにアニメキャラクターの別の例があり、さらに別の例もあります。ComfyUIとの統合もおそらく提供されるので、既存のワークフローに追加するのは比較的簡単です。GitHubへのリンクと科学論文へのリンクはすべてここにあり、詳細については以下の説明に記載します。
他のニュースとして、新しいオープンソースの動画モデルがあり、これは私が今まで見た中で最高のものです。SORAやKlingなどの商用モデルよりも優れていると思います。Tencentが開発したUnuan Videoと呼ばれ、品質は単に例外的です。他のすべてのオープンソースの動画生成器や独自のモデルを簡単に凌駕します。全体の一貫性と、シーン全体がいかに詳細でシャープであるかに注目してください。これは本当に高品質です。
複雑なシーケンスも理解します。例えば、「猫が階段を降りてハンバーガーを食べる」と指示すると、ご覧のように、すべてが超リアルに見えます。また、このような例で見られるように、シーンからシーンへの移行もできます。これは単一の生成ですが、説明テキストで動画の途中で別のシーンに移行するように指定することができます。
そして、はい、これはより激しいアクションシーンや、トレーニングデータで見たことのないシナリオでも機能します。例えば、都市で自転車に乗るパンダのように、すべてが非常に詳細で、動きが非常に滑らかで、すべてが完全に一貫していることに注目してください。ここに、恐竜に乗る猫と周りで踊るリスがいる、別の激しいアクションシーンがあります。このように多くのキャラクターの動きや背景で歩く人々がいても、AIは非常に一貫性のある方法でこれを生成できることがわかります。
これは間違いなく、私たちが今まで見た最高の動画生成器と同等かそれ以上のレベルです。もちろん、このような信じられないほど映画的な動画も生成できます。まるで映画から直接切り取ったシーンのようです。これがAIによって生成されたものだと言うのは本当に難しいです。
ここにシーン間の移行の別の例があります。説明テキストでは、まず砂漠の黄金の砂丘にいるラクダのキャラバンの広角ショットを生成し、その後クローズアップに移行します。このAIモデルはこれを非常に滑らかに処理します。
そして、最も驚くべき部分は、テキストから動画への変換だけでなく、音声ファイルをアップロードすることもでき、入力画像から人物の顔の唇と音声を同期させることができることです。これらのデモで見られるように、ここの上に入力画像があり、音声を追加すると、これが得られます。素晴らしいですね。顔を動かすだけでなく、体全体も非常に滑らかに動かします。さらに、背景さえアニメーション化します。ここで再生すると、誰かが背景のシーンを横切っているのがわかります。
ここに別の例があります。再び、超滑らかな動画です。彼女がビーチにいることを検出し、風を追加していると思われます。髪が風に揺れており、波もアニメーション化されています。彼女は歌い、それに応じて体が動きます。これは非常に滑らかでリアルです。私は、これまで分析してきた人々をアニメーション化して話させるすべてのAIツールの中で、これは間違いなく最もリアルなものだと言わなければなりません。
このUnuan動画生成AIは、すべてを圧倒しています。そしてまだ終わっていません。入力音声との口の同期だけでなく、動画から動画への変換もできます。ここに入力画像と入力動画の例があり、この入力動画の動きを画像にマッピングする方法を知っています。入力画像が男性で入力動画がこの女性である別の例があり、女性の動きに基づいて男性をアニメーション化する方法に注目してください。
ちなみに、これは約4ヶ月前に私が紹介したLive Portraitと呼ばれる私たちのツールとまったく同じ機能です。Live Portraitはすでにかなり印象的ですが、このTencentの新機能はさらに優れているかもしれません。
ここに動画から動画への変換の別の例があります。実際に動く誰かの本物の動画をアップロードする必要はなく、このようなポーズスケルトン動画を単にアップロードすることもでき、入力画像があれば、動画のポーズの動きに基づいてその画像をアニメーション化します。ここにコントロール動画としてポーズ動画を使用する別の例があり、再び、Mimic Motionのような他のツールもこれを行いますが、この新しいUnuanモデルは、私が今まで見た中で最高の品質と最大の一貫性を提供するものです。
そして、アニメに対して機能するかどうか疑問に思う方もいるでしょうが、答えはイエスです。ここに例があり、すべてが一貫していることに注目してください。顔や手足にほとんど歪みがなく、これらの動きはポーズ動画に完全に一致します。これは本当に滑らかで一貫性のある動画です。
さて、先ほど述べたように、これは完全にオープンソースです。これは本当に信じられないことです。彼らがこれを無料でローカルでの使用のために提供しているとは信じられません。簡単に独自のソフトウェアにして、多くのお金を稼ぐことができたはずです。いずれにせよ、ここに彼らのGitHubページがあり、すでにモデルの重みへのすべてのリンクが含まれています。また、試すことができるプレイグラウンドやReplicateスペースもあります。そして、彼らのタスクリストには、Gradioインターフェースの公開とComfyUIへの統合が予定されていると記載されており、これは素晴らしいことです。
しかし、あまり興奮する前に、ここに要件があります。720x1280の動画を生成したい場合、少なくとも60GBのVRAMが必要で、おそらくほとんどの方が持っていないと思います。さらに、544x960のより低い解像度でも、まだ45GBのVRAMが必要です。実際、より良い品質の生成には80GBのVRAMを推奨しています。したがって、残念ながら、ほとんどすべての一般的なグラフィックスカードではこれを実行することはできません。
しかし、オープンソースなので、コミュニティが最終的により控えめな設定でも上手く動作する量子化バージョンを開発することを願っています。もし奇跡的にそれだけのVRAMがある場合は、これをローカルにダウンロードして実行するためのすべての指示がここにあります。そうでない場合は、現時点では試すことができるReplicateスペースがあります。各生成には約70セントかかりますが、それでもRunwayなどの商用モデルよりもはるかに安価です。
オープンソースが最終的に商用モデルに追いついたり、さらには追い越したりしたことは本当に印象的です。これは、利用可能な最高の独自モデルの一部と同等かそれ以上です。私は間違いなくこれについての完全な分析ビデオを作成し、これらの生成を他の主要な動画モデルと比較する予定なので、お楽しみに。
非常に手短に、私の新しいプロジェクトについてお話ししたいと思います。ご存知の通り、ここではよくAIについて話しています。私の目標は、この素晴らしい技術をできるだけ多くの人々に発見してもらい、特にAIについての意識を高めることです。なぜなら、私の周りの人々に話すと、実際に何が起こっているのかあまり意識していないからです。しかし、私がよく言っているように、チャンネルをできるだけ本物に保ちたいので、チャンネルでは製品プレイスメントは一切行っていません。
そのため、私は研修を作成しました。もし人生のあらゆる分野でAIの使用を学びたい場合は、ビデオを見ていれば、おそらくすでにChat GPTなどのAIを使用していると思います。そして、あなたの思考をさらに深め、すべてのAIツールをマスターし、それらをあなたの人生にどのように正確に適用するかを学びたい場合は、説明欄かコメント欄、もしくはその両方に記載するリンクをご覧ください。
また、AIの世界の情熱的な仲間たちが集まり、それぞれの分野でAIをどのように適用するかを定期的に議論しているVision AIコミュニティにもアクセスできることをお伝えしたいと思います。申し訳ありませんが、少し中断してしまいました。時間を無駄にせず、興味がある方は下記のリンクをご覧いただけることをお伝えしておきます。
他のニュースとして、入力画像と任意の音声を取り込んで音声と画像を同期させることができる別のAIがあります。このツールはFLと呼ばれています。いくつかのデモをお見せしましょう。私のチャンネルですでに、Helloのような同様のツールを紹介しました。そこでも画像と任意の音声を入力して顔を音声と同期させることができますが、この新しいFLの方が若干品質が良いと思います。
最も興味深いのは、人物の感情さえも指定できることです。例えば、人物が幸せ、悲しい、または驚いているように指定すると、このような結果が得られます。感情の強度も調整できます。例えば、ここでは感情のスケールがゼロですが、スケールを1にすることで表現力を少し高めたり、スケールを2にすることでさらに表現力豊かにすることができます。
また、入力音声ファイルを受け付けるだけでなく、話している人の参照動画をアップロードすることもでき、その動きを入力画像に再現します。例えば、メッシの画像をアップロードし、誰かが話している別の動画をアップロードすると、その動きをメッシに再現します。これは、Live Portraitと呼ばれる別のツールがやっていることとまったく同じで、実際、Live Portraitはすでに非常に優れています。
いずれにせよ、FLは顔画像をライブでアニメーション化するために使用できる別のツールです。本当に驚くべき時代です。創作から動画の操作、人々を動かし、踊らせ、話させることまで、多くのことができるツールがたくさん登場しています。本当に狂気的な時期です。サイトの上部に戻ると、まもなくコードを公開すると記載されているので、引き続き注目してください。とりあえず、このページへのリンクを以下の説明に記載します。
次に、このAIは非常に便利です。Google DeepMindのGencastと呼ばれ、極端な気象条件を非常に高い精度で予測するAIモデルです。通常の気象予報システムは決定論的、つまり将来の天候の最良の推定値を単に提供するのに対し、この新しいGencastモデルは実際に50以上の予測の組み合わせを提供し、それぞれが可能な気象の軌道を表しています。
例えば、台風の7日間予報を求めると、7日先の予報なのでかなりの不確実性があるため、Gencastは実際にその7日間で台風がどのように移動する可能性があるかについて、多くの異なるシナリオを提供します。しかし、予報が近づくにつれて、これらの可能性はより狭くより正確になっていくのがわかります。
Gencastの中核は拡散モデルで、私のチャンネルをフォローしている方には馴染みのある用語です。これは、画像、動画、音声を生成するために使用されるのと同じタイプのモデルです。Gencastでは、この拡散モデルはERA5アーカイブからの40年分の歴史的気象データで訓練されました。このデータには、さまざまな高度での温度、風速、気圧などの要素が含まれています。
40年分のこのデータで拡散モデルを訓練した後、天候と極端な条件をかなり正確に予測することができます。Gencastは、日々の天気予報と極端な事象の両方をより良く予測することに注目してください。青い線のGencastと、現在の最高の運用システムであるENSを示す灰色の線を比較すると、Gencastはすべてのケースで極端な事象の予測が優れていることがわかります。言い換えれば、青い線の値がより高く、したがって灰色の線よりも優れています。
より正確なだけでなく、計算能力も少なくて済みます。15日間の予報を生成するのに、単一のGoogle Cloud TPUで数分しかかからないと記載されています。一方、現在の最高の方法では、数万個のプロセッサを持つスーパーコンピュータで数時間かかります。したがって、これは間違いなく気象予報の革命です。災害対応や安全性など、さまざまな分野での意思決定の改善に役立つ可能性があります。
そして最高なのは、オープンソース化されていることです。ここでコードと重みをダウンロードできます。このリンクをクリックすると、ローカルでのダウンロードと使用方法についてのすべての指示が含まれているGitHubリポジトリに移動します。いずれにせよ、詳細については、このメインページへのリンクを以下の説明に記載します。
他のニュースとして、ご存じない方のために、AIの巨人とよく呼ばれるFarfetchが、World Labsという新興企業を持っています。今週、彼らは最初の主要プロジェクトを公開しました。これは任意のオブジェクトを探索可能でインタラクティブな3D環境に変換できるAIです。リアルタイムで周りを移動できます。単一の画像から生成された3D世界の中で、最も詳細で高品質なものの1つだと言わざるを得ません。
画像を取り込んで3Dシーンを生成できる他の多くのツールもありますが、それらは一般的により一貫性が低く、多くの欠陥があります。これは驚くほど滑らかで詳細です。これらの例で見られるように、ここに別の例があり、単に画像を入力するだけで、ユーザーが環境とリアルタイムでインタラクトし、そのコントロールを使用してその環境の周りを移動できる3D世界を作成します。
再び、すべてが滑らかであることに注目してください。実際、以下の説明にリンクを記載するこのページで、いくつかの3D世界を自分で実際に探索することができます。例えば、ここでシーンをドラッグしていますが、ほとんどの場合、非常に一貫性があることに注目してください。これは明らかにメイン画像ですが、完全に後ろにドラッグすると、シーンの後ろがどのように見えるかまで推測し、このようなものを生成します。非常に印象的です。
ここに別の例があります。これは多くの要素を持つかなり複雑なシーンです。これはかなり抽象的なシーンですが、すべてを非常に滑らかで一貫性のある方法で生成することができます。そして再び、これを後ろにドラッグすると、入力画像から得られないデータであっても、このシーンの後ろがどのように見えるかを推測できます。したがって、これは非常に非常に印象的です。そしてクリックして保持すると、ズームインすることさえできます。全体的に非常に滑らかで印象的です。
ここに別のシーンがあります。これはよりリアルな写真で、また移動すると、すべてが非常に滑らかで一貫性があります。これを180度ドラッグすると、ギャップを埋めます。部屋の後ろがこのように見える可能性があると予測します。
ここにハイキングの美しいシーンの別の例があり、再び、この単一の画像からでさえ利用できなかったデータのギャップを埋める方法を知っています。このAIは単に移動できる3D世界を作成するだけでなく、被写界深度などのリアルタイムのカメラ効果も提供します。
例えば、ここには被写界深度スライダーがあり、これが入力画像の場合、実際にスライダーをドラッグしてレンズのフォーカスを近くや遠くに移動させることができます。この例で見られるように、ここに別の例があり、移動できるだけでなく、レンズのフォーカスも変更できます。したがって、ここでは最も近いボールがシャープな近接フォーカスで、これを遠くに移動すると、次の列のボールが現在シャープになっており、以下同様です。したがって、これは写真撮影と画像編集のための本当に強力な効果です。
また、ドリーズーム効果もシミュレートできます。これが何をするのか見てみましょう。この入力画像があるとします。これを広角から滑らかにドラッグしてみましょう。これは写真撮影でドリーズーム効果と呼ばれるものをシミュレートします。そしてこれが3D世界であるため、このように深度マップを作成することもできます。ここに別の例があります。
さらに、インタラクティブな照明効果を使用してこれらの3D世界とインタラクトすることもできます。例えば、ソナー効果の場合、世界のどこかをクリックすると、シーンを通じてこのソナータイプのパルスを放出することに注目してください。非常に印象的です。そしてスポットライトが何をするか見てみましょう。スポットライトはシーンの特定の領域を照らすフラッシュライトのようなものです。非常に印象的です。そして波紋効果、これが何をするか見てみましょう。これは基本的にシーンに波紋を作ります。
これらの例は、このツールができることの最初の一瞥に過ぎません。彼らはまだこのAIモデルを開発中で、これやこれからのバージョンへのアクセスを希望する場合は、彼らのウェイティングリストに参加できます。残念ながら、現時点ではすぐに使用できるものではありません。
これは、別の動画で紹介したGoogleのGenie 2に少し似ています。単なる説明テキストから3D世界を作成し、ビデオゲームのようにインタラクトできます。このWorld LabsのAIは実際に非常に非常に似ていて、ゲーム、映画、バーチャルリアリティなどの分野で非常に便利です。将来的には、AIに指示を与えるか画像を提供するだけで、AIが瞬時に生成した3D世界全体に没入できるようになると思います。いずれにせよ、詳細については、このメインページへのリンクを以下の説明に記載します。
アニメの動画を生成したい方のために、ここに真のパラダイムシフトがあります。私はアニメに関するさまざまなAI動画ジェネレーターをテストしましたが、そのほとんどは本当にアニメや2次元のシーンを上手く生成できませんでした。キャラクターを3次元に変換するか、キャラクターを実在の人物に変換する傾向があります。または、アニメキャラクターを話させたり動かしたりしようとすると、非常に奇妙に見えます。
そして最終的に、Minim Maxが新しい画像から動画への変換モデルであるI2Vo1 Liveをリリースし、これは2D動画の生成に特化しています。このLiveモデルの実際の例をいくつか紹介します。見てわかるように、2Dアニメーションや、さらにはディズニー・ピクサースタイルのアニメーションにも本当に上手く機能します。そして使用方法は本当に簡単です。
必要なのは、まだ接続していない場合はIluaまたはMinim Maxに接続し、画像から動画タブで、開始画像として画像を単にアップロードするだけです。この画像を開始画像として使用し、最後のステップはここで、2Dまたは非リアルな画像に特化したI2V1 Liveを選択する必要があります。さらにガイドするために説明テキストをここに入力することもできますが、私は空のままにして、何が出てくるか見るために生成をクリックします。
そしてこれが得られた結果です。私はこれは本当に良いと言わなければなりません。まだいくつかの小さな欠陥がありますが、これは確かに私が見た中で最高の2Dまたは非リアル動画ジェネレーターです。比較のために、ここに同じ入力画像を使用したLiveモデルと元の画像から動画への変換モデルがあり、見てわかるように、ほとんどの場合、このアニメーションまたは非リアルな画像に関して、この新しいLiveモデルの方がはるかに優れています。