
AGIが到来、リアルタイム3D顔、驚異的なAIビデオ生成、画像から3D世界へ、Genesisシミュレーター
13,174 文字
AIは休むことを知らず、これは間違いなく最も驚異的な一週間となりました。動画を超滑らかな3D映像に変換して自由に視点を移動できる新しいAIが登場し、分子レベルまで驚くほど正確でリアルなAI シミュレーターが誕生しました。また、Googleは群を抜いて最高のビデオジェネレーターをリリースしましたが、これは他の追随を許さないレベルです。OpenAIも、あらゆる分野で人間の能力を簡単に上回る、群を抜いて賢い最新のAIモデルをリリースしました。さらに、1枚の顔写真から制御可能な4Dアバターを作成できる別のAIも登場しましたが、これまで見た中で最もリアルなものです。加えて、コミックのページや画像を一貫性を持って着色できる新しいAIなど、他にも多くの進展がありました。
では早速見ていきましょう。まずこのツールは既に驚異的です。Long Volumetric Video with Temporal Gaussian Hierarchyという少し長い名前ですが、マルチビューRGBビデオを長尺のボリューメトリックビデオに変換できます。これらの用語が何を意味するのか疑問に思うかもしれません。まず、マルチビューとは、複数のカメラで同時に撮影された映像のセットを指し、同じシーンを異なる視点から捉えたものです。これらの映像をすべて3D映像として統合したものがボリューメトリックビデオで、基本的には視点を移動できる動く3Dシーンとなります。
私の頭に最初に浮かんだのは、このAIはポル...いや、コーン、コーン動画を見るのに完璧だということです。ジューシーなコーン動画を見ながら、マウスをドラッグして様々な角度からアクションを楽しめるなんて、まさにゲームチェンジャーです。あるいは、スポーツの試合やダンスパフォーマンスを見ながら、選手やダンサーを異なる角度から見ることができます。
問題は、このような映像を作成するのは非常に困難だということです。特に数分程度の長尺になると、コンピューターは膨大なデータを処理して保存する必要があります。そこでこのプロジェクトの研究者たちは、temporal gaussian hierarchyと呼ばれる新しいデータ処理方法を考案しました。これは3Dデータと動きをより効率的に整理する方法で、この新技術により、3D映像をより高速にレンダリングできるようになりました。また、メモリ不足エラーを起こすことなく、より長い映像をレンダリングすることも可能です。
左側で見られるのがこの新しいtemporal gaussian hierarchy技術で、右側は数百フレーム後にメモリ不足エラーを起こしてしまう古い技術です。このツールは速いだけでなく、より滑らかで高品質です。これらのデモを見てください。これは間違いなく、私がこれまで見た中で最高かつ最も一貫性のある3Dビデオジェネレーターです。VRやアニメーション、ビデオゲーム、スポーツや公演の鑑賞など、用途は無限にあります。
素晴らしいことに、これは既に利用可能なようです。ページ上部にいくつかのGitHubリンクがあり、それぞれをクリックすると、ローカルコンピューターへのインストールと実行手順が記載されています。
次にこのAIも非常に驚異的です。Wonderlandと呼ばれ、1枚の画像から完全な3Dシーンを生成できます。この例で見られるように、3Dシーン内を自由に移動でき、すべてが非常に一貫性を保っています。もちろん1枚の画像からは、端の向こうや熊の背後に何があるのかわかりませんが、このAIはそれらを美しく推測して生成することができます。画像に映っていない部分まで移動することも可能です。
別の例では、このバラ園の画像を入力すると、自由に移動できる完全な3Dのバラ園の世界を生成できます。さらに別の例として、この美しい風景写真があります。元の画像に映っていない方向に完全に回転することができ、AIはその見え方を非常に一貫性を持って推測・生成することができます。
過去に私は、1枚の画像から3Dシーンを生成できる他のAIツールも紹介してきました。例えばDimension Xは、この少女の画像を使って回転、傾斜、ズームイン/アウトができる非常に柔軟なツールです。また、World Labsの「W」も同様に1枚の画像から3D世界を生成できます。さらにもう1つの例としてGoogle DeepMindのCat 3Dもありますが、今回紹介する新しいWonderlandは、これまで見た中で最高品質かつ最も一貫性のある3Dシーンジェネレーターのように思えます。
これは、camera guided video diffusion modelという機能を備えており、このコンポーネントは指定したカメラ軌道に正確に従って映像を生成します。例えば、カメラ軌道として「最初にズームインして左に移動し、その後ズームアウトして右に回転し、さらに大きくズームアウトしてから中央に戻る」というものを設定し、お茶を淹れる着物姿の女性の画像を入力すると、このような結果が得られます。同じカメラ軌道を車の中の犬の画像に適用すると、このような結果になります。あるいは、荒野の中の建物の画像に適用しても、同じカメラの動きが映像に反映されているのがわかります。これは、カメラの動きをコントロールしながらアニメーションを作成できる非常に汎用性の高いツールです。
現在これはプレプリントの段階ですが、上部に「コードは近日公開予定」と記載されているので、オープンソース化される予定のようです。これは素晴らしいことです。
次にこのAIは本当に度肝を抜くものです。Genesisと呼ばれる超リアルな物理シミュレーターで、水や柔らかい物質、粘性のある物質など、実生活における様々な物質や現象の動きと物理をシミュレートできます。このガラス瓶を伝い落ちる小さな水滴のような動きまで、非常にリアルにシミュレートし、すべてこれを1つのプロンプトから実現します。分子レベルまで分解することも可能で、水滴がガラス瓶を滑り落ちる際の摩擦までシミュレートします。これは驚異的です。
他にもいくつか例があり、これらはすべて非常にリアルに見えます。このAIについて驚くべき特徴をいくつか紹介します。毎秒4,300万フレームを超える速度でシミュレートできるため、水を貫通するイチゴや水の塊を貫通する弾丸のような超スローモーション映像をシミュレートできます。毎秒4,300万フレームは既存のシミュレーターと比べて数十万倍も高速です。
さらに、これは非常に軽量で高速であり、Windows、Linux、macOSを含む異なるオペレーティングシステムで実行できます。また、NVIDIAのGPUだけでなく、CPUやAMD GPUでも実行できるため、非常に柔軟なツールとなっています。
このシミュレーターは何に使うのかと疑問に思うかもしれません。実際には多くの用途があります。まず、ロボットのトレーニングに使用できます。NVIDIAのOmniverseやIsaac Simをご存知かもしれませんが、これらも同様に物理シミュレーターで、仮想環境で数千回の反復トレーニングを行うことができます。すべてが仮想であるため、実世界でトレーニングするよりもはるかに安価で迅速にロボットをトレーニングできます。これらの環境は実世界の物理をシミュレートするため、理論的には、この仮想ジムでトレーニングを受けたロボットは、実世界に展開してもすぐに正常に動作するはずです。
Genesisも基本的に同じで、ロボットが様々なタスクを学習したり、様々な物体を扱ったりするために使用できる仮想シミュレーションです。しかしGenesisはロボット工学に限定されません。このテクノロジーはビデオゲームのデザインや開発にも使用できます。例えば「棒を持った小さな悟空が3秒間テーブルの表面を走り、空中に飛び上がり、着地時に右腕を下に振り下ろす。カメラは最初に顔のクローズアップから始まり、徐々にズームアウトしながらキャラクターを追跡する」というプロンプトをGenesisに与えると、このような結果が得られます。
これは単なる3Dシミュレーターではなく、ビデオジェネレーターとしても使用できるため、アニメーションや映画制作、バーチャルリアリティにも活用できます。素晴らしいことに、これは完全にオープンソースで、ダウンロードしてローカルで使用することができます。このページ上部の「コード」をクリックすると、インストールと無料での実行方法について説明したGitHubリポジトリにリンクします。さらに、これはApache 2ライセンスの下で提供されており、制限が最小限で、商用目的を含むほぼすべての用途に使用できます。
次にこのAIも非常に印象的です。CAP 4Dと呼ばれ、リアルタイムでアニメーションできるリアルな4Dアバターを作成できます。必要なのは1枚の画像、あるいはより正確にするために複数の画像を追加することもできます。これまで見てきた同様のツールの一歩先を行くもので、リアルタイムでアニメーションを行うことができます。見てわかるように、これらのアバターを回転させたり、目を動かしたり、表情を変えたりすることができ、すべてが一貫性を保ち、リアルに見えます。
他にもいくつか例があり、難しい表情でもうまく機能します。先ほど述べたように、これは非常に柔軟で、1枚の画像を使用することも、より正確にするために複数の画像を使用することもできます。2Dキャラクターやフィクションのアニメーションキャラクターにも対応しています。
このページの中央には実際にインタラクティブなビューアーがあり、これらの画像をクリックして回転させることができます。例えば、エイブラハム・リンカーンの参照画像1枚だけで、アニメーションで異なる表情を付けられる3Dアバターを作成できます。1枚の画像の代わりに誰かの4枚の画像を入力すると、このようなアバターが作成されます。マウスで回転させていますが、すべてが一貫性を保ち、正確に見えます。これは確かに元の人物そっくりです。
これは2Dキャラクターの別の例で、同様にアニメーションを付けることができます。最後にもう1つ、ジェフリー・ヒンソンの1枚の画像からの例があります。ジェフリーの3Dアバターを生成でき、表情をアニメーションできます。これは非常に正確で、1枚の写真からこのようなアバターを生成できることに本当に感心します。
簡単に仕組みを説明すると、実際には2つの段階があります。最初に参照画像を取り込み、morphable multiview diffusion model(MMDM)と呼ばれるものを使用して、その人物の異なる視点や表情の多くの画像を生成します。次に第2段階で、生成されたすべての画像と元の参照画像から4Dアバターが作成されます。素晴らしいことに、これらのアバターはリアルタイムで制御とレンダリングが可能です。
この3Dアバターに、driving videoとも呼ばれるこのような参照動画を適用すると、その動きと表情がアバターに反映されます。これは3Dアバターなので、好きなカメラアングルに回転させることもできます。このCAP 4Dを他の手法と比較すると、現時点で最高品質かつ最も一貫性があり、本当に印象的な成果です。
過去に私のチャンネルで同様のツールを紹介したことがあります。例えば、無料でオープンソースのAIであるLive Portraitは同じことができます。これはドライビング映像や参照映像を取り込んで、その表情を別の顔に反映させることができ、難しい表情でもうまく機能します。実際、Live Portraitのインストールについては完全なチュートリアル動画がありますので、今すぐ無料でコンピューターにダウンロードして使用することができます。
しかし、今日紹介する新しいものは別次元です。単に顔の画像をアニメーション化するだけでなく、その顔の完全な3Dモデルを作成するので、好きなカメラアングルに回転させることができます。さらにリアルタイムでレンダリングできるのは驚異的です。
これはまだ初期段階なので、試すためのコードはまだリリースされていませんが、「コードは近日公開予定」と記載されているので、オープンソース化される予定のようです。
先週の土曜日に配信されるニュース動画で、OpenAIが待望のビデオジェネレーターをついにリリースしたSoraを紹介しました。ほとんどの人が、他をはるかに凌駕する驚異的なビデオジェネレーターを期待していましたが、実際にはそうではないようでした。確かにSoraのほとんどの生成物は、目に見えて品質が良く一貫性がありますが、既存の主要なビデオモデル(Kling、Minimax、さらにはオープンソースのHunen)と比べて圧倒的に優れているわけではありません。場合によってはSoraは非常に似ており、わずかに優れているだけと言えるかもしれません。
しかしSoraのことは忘れてください。今週、新しいビデオモデルが登場し、これは本当に驚くべきものです。今週、GoogleはV2と呼ばれる最新のビデオジェネレーターを発表しましたが、これらの映像の品質とリアリズムを見てください。これは、これまで見てきた他のビデオモデルとは全く異なるレベルです。この例で見られるように、最大4K解像度の映像を、映画的なものやアニメーションを含む様々なスタイルで作成できます。正直なところ、このようなツールがあれば、来年には間違いなくハリウッド級の品質の映画がAIで作られるでしょう。
V2を使用したさらなる例がありますが、Soraと比べてこの一貫性は圧倒的に優れています。これらの映像のほとんどについて、AIによって生成されたものだと見分けられる目立った特徴がないか、2回、3回とチェックする必要があります。しかし、ほとんどの場合、何も見つけられません。Soraでさえ、通常はAIによって生成されたものだとすぐにわかりますが、V2による生成物では、その境界線が本当に曖昧になっています。
指や顔、他の動物、アクションシーンにも優れており、スローモーションも非常にリアルで、明らかに他を圧倒しています。これらのスポーツ映像を見てください。非常にリアルに見え、Twitterのフィードでこれを見かけても、AIによって生成されたものだとは決して疑わなかったでしょう。
スポンサーのAbacus AIによるChat LLMというこの素晴らしいツールについてお話しましょう。これは、最高のAIモデルを1つの統合プラットフォームで使用できるようにするものです。最新のo0プレビューo1ミニや、GPT 4o、Claude Sonnet 3.5などの最先端のモデルが含まれています。また、プロンプトに基づいて最適なLLMを自動的に選択するRoute LLM機能も新たに搭載されています。
さらに、最新かつ最も正確な情報を見つけるためにウェブを検索するSearch LLM機能もあります。また、トーンを設定して生成を人間らしく、AIらしくない文章にできるHumanize機能もあります。チャットボットから直接画像を生成することもでき、最高のジェネレーターであるFlux Proを使用しています。また、1つのプロンプトで映像を生成することもできます。
さらに、コーディングや何かを構築している場合に、アプリをサイドバイサイドで表示して操作できる非常に便利なアーティファクト機能があります。プロンプトを与えるだけでPowerPointプレゼンテーションなどのドキュメントも簡単に作成できます。分析用のPDFやドキュメントをドラッグ&ドロップすることもでき、レポートの生成やデータ分析が簡単にできます。
また、カスタムデータや指示に基づいて独自のカスタムチャットボットを作成できるAI Engineer機能も新たに追加されました。これは、最高のAIモデルを1つのプラットフォームで使用するための非常に強力な方法です。
フィギュアスケートをする女性の別の例がありますが、これは実際に適切なフィギュアスケート映像を生成できる初めてのものだと思います。他のすべてのビデオモデルは幻覚を見て、回転時に手足を本当にめちゃくちゃにしてしまいます。
「猫が鏡を見て吠えるが、代わりに吠えているライオンとして自分を見る」という難しい例もあります。AIが反射や鏡の動きを理解するのは quite 困難でしたが、V2は完璧に処理しています。水の入ったカップに落ちるブルーベリーの超リアルな例もあります。正直なところ、私にはこの映像の欠点を見つけることができませんでした。何か気づいたことがあれば、コメント欄で教えてください。
このテクノロジーにより、創造性が大きく解放されます。誰でも自宅で、いくつかの簡単なプロンプトだけで自分の映画を監督・制作できます。望むすべての特殊効果を作り出し、リアルなものでもSFやファンタジー、アニメーションでも、望むキャラクターを作り出すことができます。来年には間違いなく、AIだけで作られたハリウッド級の映画が登場するでしょう。
GoogleのV2とOpenAIのSoraを比較してどれほど優れているのか気になる方のために、同じプロンプトを使用した例をいくつか紹介します。ご覧のように、ほとんどの場合、Soraは何かの物理的な性質を理解できていません。このトマトを切る物理的な動きを理解できず、犬がジャンプする様子を適切に生成できず、車が通りを横切るドリフトを生成できず、Soraにはまだ多くの目立った欠点があり、不気味なところが多く残っています。
ところで、これに関して興味深い話があります。ティム・ブルックスという人物は以前OpenAIのSoraの責任者でしたが、数ヶ月前にGoogle DeepMindに移籍して、ビデオ生成とワールドシミュレーターの開発に取り組むと発表しました。外部の人間から見ると、OpenAIのSoraに取り組んでいた人材がGoogleに移って、V2の開発に携わったように見えます。そして、彼らが作り出したものを見てください。これはSoraと比べて大きな飛躍です。
また、Googleはコンピューティングをほぼ独占しており、独自のTPU(テンソル処理ユニット)を持っています。これは、NVIDIAの最高のGPUよりも優れているという意見もあります。なお、GoogleのV2は現在、一部の早期テスターのみが利用可能で、まだ一般には公開されていません。しかし、できることは、説明文にリンクを貼っているこのサイトlabs.googgleにアクセスし、ここで待機リストに登録することです。V2(Video FX としても知られる)は来年初めにGoogleのAI Studioで利用可能になる予定だと発表されています。
次のニュースもGoogleからのものです。Googleは過去数週間で素晴らしい製品をリリースしています。今回は、Whiskと呼ばれる新しいツールで、今すぐ無料で使用を開始できます。これも説明文にリンクを貼っているlabs.gooogle sfxにあります。無料アカウントにサインアップしたら、Whiskをクリックするだけです。これは基本的に、異なるアーティスティックスタイルと異なる画像、異なる被写体を組み合わせて画像を作成できるようにするものです。
試してみましょう。デフォルトのぬいぐるみスタイルを選び、Googleのサンダー・ピチャイCEOのこの画像をアップロードして、何が得られるか見てみましょう。そしてこれが結果です。ぬいぐるみとしてのサンダー・ピチャイ、かわいいですね。「ツールを開く」をクリックして、何が表示されるか見てみましょう。実際に生成ごとに2つの画像を提供し、シーンを追加することもできます。プロンプトを入力するか、画像をアップロードできます。
プロンプトを入力してみましょう。「これは北極のツンドラ」として、生成をクリックします。これが生成された画像です。このぬいぐるみスタイルの代わりに、これを削除して千と千尋の神隠しのこの画像をアップロードします。まとめると、千と千尋のスタイルで、北極の砂漠環境にサンダー・ピチャイを生成します。追加の要素も加えることができます。例えば「キャラクターがアイスクリームを食べている」など。しかし、これは空欄のままにして生成をクリックし、結果を見てみましょう。
これが結果です。北極のツンドラ環境でアニメキャラクターとしてのサンダー・ピチャイ、非常に印象的です。これがGoogle Whiskで、完全に無料で無制限に使用できます。すぐに試せるよう、説明文にリンクを貼っておきます。
他のニュースでは、ご存知かもしれませんが、GoogleにはAI Studioという非常に強力なツールがあり、ここでGoogleの最新かつ最高のAIモデルを無料で使用できます。これには多くの機能があります。例えば「ストリームリアルタイム」をクリックすると、Geminiとリアルタイムの音声アシスタントのように会話できたり、ウェブカメラやスマートフォンのカメラを共有してそれについて質問したり、画面を共有したりできます。例えば、ビデオゲームをプレイしている時にAIに助けてもらったり、勉強中に講義ノートがある場合は、そのノートを共有して質問すると、リアルタイムで音声で応答してくれます。これについては既に完全なレビューを行っているので、まだ見ていない方は必ずチェックしてください。
AI Studioについて再び言及している理由は、Googleが今週さらに優れた賢いモデルをリリースしたからです。ここでモデルのドロップダウンをクリックすると、新しいモデル「Gemini 2.0 flinking experimental」があることがわかります。また驚くべきことに、現時点では使用料が0ドルで、基本的に無制限に無料で使用できます。
このflinkingモデルは、応答を出力する前に質問について考える時間を取るため、理論的には以前の最高モデルであるGemini 2.0 flash experimentalよりもはるかに優れた応答が得られます。これを選択して、例えば「9.9と9.11のどちらが大きいか」と質問してみましょう。実行をクリックして、結果を見てみましょう。
応答を考えるのに時間がかかっていることがわかります。これを展開すると、思考プロセスを見ることができます。まず目標を処理し、これらの2つの数字のどちらが大きいかを判断します。次に整数部分に注目し、小数部分を比較し、小数点を揃えて、桁ごとに比較するなどのプロセスを経て、最終的に9.9が9.11より大きいという正しい結論に達します。繰り返しになりますが、これは現在Google AI Studioで無料で使用できます。説明文にリンクを貼っておきます。
最先端のモデルと言えば、昨日OpenAIは絶対的な強者を解き放ちました。o3と呼ばれる新モデルを発表しましたが、このモデルのパフォーマンスは他をすべて圧倒しています。比べものにならないほどです。ソフトウェアエンジニアリングと競技プログラミングの面では、o3は以前の最高モデルo1を20%以上上回るパフォーマンスを示しています。競技プログラミングでも同様で、o3とo1の間には大きな差があります。実際、o3は人間のプログラマーの99.8%を上回るという記事を読んだ気がしますが、これは本当に驚異的で、間違いなくAGIの領域に入ってきています。
他のベンチマークもあります。競技数学では96.7%の精度を示し、PhD レベルの科学の質問でも、前世代と比べて大きな進歩が見られます。そしてここで最も驚くべき点があります。o3シリーズのArk AGIベンチマークでのパフォーマンスです。
このArk AGIベンチマークとは何でしょうか。文脈を説明すると、このベンチマークはAIが訓練データに含まれていない新しいことを一般化し、学習する能力を評価するものです。人間は通常このベンチマークで85%程度のスコアを獲得しますが、最高のAIモデルでも34%以下の低いスコアしか達成できませんでした。
これは人間の知性の最後の砦と言えるかもしれません。AIが85%を超えると、高い確実性を持ってほとんどの人間よりも知的だと言えます。これがAGIだと言う人もいるでしょう。その理由は、モデルが単に記憶したことを繰り返すのではなく、新しいスキルをその場で学習する能力をテストしたいからです。それが全体的なポイントです。
Ark AGI バージョン1は、最先端のフロンティアモデルで0%から5%に到達するのに5年かかりました。しかし今日、非常に興奮して言えることは、o3が低計算で75.7%という新しい最高スコアを達成し、私たちが非公開のホールドアウトセットで検証したということです。実際に高計算にすると、o3は同じ隠されたホールドアウトセットで87.5%を達成できました。
これは特に重要です。なぜなら、人間のパフォーマンスは85%の閾値で比較可能だからです。これを超えることは大きなマイルストーンです。驚くべきことに、o3は既に85%を超えており、このArk AGIベンチマークによると、群を抜いて最高のパフォーマンスを示すモデルです。o1ファミリーの他のモデルは比べものになりません。
ただし、現時点でo3は1タスクあたり11,000ドル以上かかり、o1モデルと比べて途方もなく高価です。しかし、癌や糖尿病の治療法のような科学的なブレイクスルーを求めるPhDレベルの知能に対して、これは比較的低い代価だと主張する人もいるでしょう。現時点では使用できませんが、昨日発表されたばかりです。より小さいバージョンのo3ミニは1月末にリリースされ、その直後に完全版のo3モデルが続く予定です。
他のニュースでは、このAIも画期的なものです。テンセントのColor Flowと呼ばれ、白黒画像に色を付けることができます。これはコミック、アニメーション、さらにリアルな写真でもうまく機能します。仕組みはこうです。まず、既に色付けされた参照画像のプールを与える必要があります。そして、このような白黒画像を与えると、参照画像に基づいてどのように色付けすべきかを理解します。
このAIは特定のキャラクターを認識し、髪、肌、服装などの元の色を維持することができます。ご覧のように、これが白黒画像の場合、この少女がこれだと認識して、髪を緑色に、ドレスを濃い紫色に色付けすることを知っています。同様に、白黒画像のこのキャラクターがこれと同じキャラクターだと認識し、このように色付けして、シャツを紫色にすることを知っています。
これは、コミックのページを一貫性を持って高速に色付けする素晴らしい方法となり得ます。一貫性が重要なポイントです。他のコミック色付けツールと比較すると、一貫した色を維持するのは本当に難しいのです。例えば、これが元の画像で、AIをテストするために白黒に変換したとします。これが入力する白黒画像です。これまでの色付けツールでは、正しい色を出せないことに注目してください。元の画像とは一致しません。
しかし、この新しいツールでは、色付けされた参照画像のプールを入力し、この白黒パネルを入力すると、元の色に従って完璧に色付けできます。先ほど述べたように、これはコミックのページだけでなく、このようなアニメーション画像にも対応します。色付けされた参照画像をいくつか入力し、この白黒パネルを与えるだけで、適切に色付けする方法を理解します。
別の例では、再び色付けされた画像のプールを与え、この白黒画像を与えると、参照画像に従って一貫した色付けを行います。これは、このようなリアル写真にも対応します。ここが入力画像で、色付けされた参照画像をいくつか与えると、この男性に赤いヘルメットと赤いシャツを着せることを理解します。
別の例では、これが入力画像で、いくつかの色付けされた参照画像を与えると、これらのキャラクターに応じて色付けします。確かに、参照画像に示されているように、ガンダルフの帽子とローブは灰色で、このホビットのシャツは参照画像に見られるようにマルーン色です。このように、白黒フィルムを正確かつ一貫性を持って色付けする強力な方法となり得ます。
ページ上部にはオンラインデモがあり、これは試すことができる無料のHugging Faceスペースです。また、既にコードもリリースされており、このボタンをクリックするとGitHubリポジトリに移動し、ローカルコンピューターへのインストールと実行方法の説明が記載されています。
最後に、AIビデオの世界での驚くべきニュースです。12月22日まで、Pika 2.0に無制限で無料にアクセスできるようになりました。まだ聞いたことがない方のために説明すると、Pikaは非常にクールな結果を生成できる別のビデオジェネレーターです。ログインまたは無料アカウントにサインアップすると、「12月22日までの無料2.0アクセス」というポップアップが表示されるはずです。「今すぐ試す」をクリックするだけで、すべてに無料で無制限にアクセスできます。
このように単にプロンプトを入力して生成をクリックするだけでなく、以前紹介したPika効果機能を使用して、画像をアップロードして粘土のように膨らませたり、押しつぶしたり、爆発させたりすることもできます。また、新しい成分機能もあり、特定のキャラクターやシーンをアップロードして、それらをすべて映像に統合することができます。これは驚異的です。必ずこの無料キャンペーンを活用してください。
他のニュースでは、Clingがクレイジーなアップデートをリリースしました。これは彼らの最新モデルであるCling 1.6で、これらの映像がどれほど優れているか見てください。このバージョン1.6モデルは、プロンプトの理解がはるかに向上し、より一貫性があり、よりダイナミックな結果が得られると主張しています。説明文にリンクを貼っているClingにアクセスし、上部でCling 1.6が既に表示されているはずです。ここで「砂漠でユニコーンに乗る宇宙飛行士」のようなプロンプトを入力して生成をクリックするだけです。
また、画像から映像への変換も可能で、開始フレームまたは終了フレームとして画像をアップロードし、これにもCling 1.6を選択できます。実際のCling 1.6の例をいくつか紹介します。ご覧のように、1.5と比べてやや優れており、細部がより鮮明で、すべてがより一貫性を持っています。Cling 1.6の完全なレビューを行う予定で、非常に難しいプロンプトでテストし、他の主要なビデオジェネレーターと比較して、Cling 1.6がどれほど良いか悪いかを理解できるようにします。おそらく来週のどこかで公開する予定なので、お楽しみに。ほとんどの人がGoogleの伝説的なV2をまだ使用できない中、Cling 1.6が次善の選択肢となるでしょう。
以上が今週のAIのハイライトです。今週は本当に多くのことが起きたため、これまでで最も長いAIニュース動画となりました。これらすべてについて、あなたの意見を聞かせてください。どのニュースが最も気に入りましたか?どのAIツールを試すのが最も楽しみですか?
いつものように、トップのAIニュースとツールを探し続け、皆さんと共有していきます。この動画を楽しんでいただけたなら、いいね、シェア、購読をお願いします。また、AIの世界では毎週本当に多くのことが起きているため、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起きているすべてのことを本当に把握し続けるために、無料の週刊ニュースレターを購読してください。リンクは説明文に記載しています。
ご視聴ありがとうございました。また次回お会いしましょう。