見出し画像

AIニュース: シンギュラリティが近づく、Grok 3、o1モデルのリーク、NVIDIAが驚愕、新しいヒューマノイド

12,930 文字

今週は人工知能に関して目まぐるしい展開がありました。最新のニュースを見ていきましょう。最も驚くべき出来事の1つは、イーロン・マスクがGrok 3について語ったことです。興味深いのは、マスクが何度も「最も強力なAIモデル」と呼んでいるGrok 3が、o1パラダイムが登場した今でもそうなのか疑問です。
彼は「事前学習が完了し、Grok 2の10倍の計算能力を持つ」と述べています。Grok 2もかなり優秀ですが、Grok 3は10倍の計算能力を持つことになります。これは非常に興味深いことです。なぜなら、通常モデルに計算能力とデータを追加し、質の高いデータを入れると、モデルはより賢くなるからです。
多くの人が気づいていないのは、Grokが実際に支配できる興味深い領域があるということです。ChatGPTはかなり前に王座を明け渡しています。現在のAI分野を見渡すと、純粋なチャットボット体験としては、ClaudeかGeminiが最高のモデルです。ChatGPTはファイルのアップロードなど多くの機能があるため、最高のチャットボット体験を提供していると言えますが。
これらのモデルを見てみると、Grok 3が参入してさらに状況を一変させる可能性があります。彼らは現在おそらく最大の計算能力を持っています。Googleほどではないかもしれませんが、設立からわずか1年半ほどのスタートアップとしては、途方もない計算能力を持っています。確かに他の組織より遅れを取っていますが、彼らははるかに速く動いています。
Grok 3がどのようなものになるか、非常に興味深いところです。2025年第1四半期に登場する予定で、多くの人が期待を寄せています。多くの人が言うように、イーロン・マスクを過小評価してはいけません。チーム間のツイートを見ていたとき、彼らは現在ひたすら仕事に没頭していると語っていました。それが彼らがこれほど速く追いつける理由です。文字通り1日18時間、週6日働いているのです。
これがどれほど凄いことなのかを示す例として、誰かがGrokを使って医療診断をした例があります。イーロン・マスクは「Grokが医療障害を診断できる」と述べ、先週Grokが誰かの娘の手首の骨折を診断した実話について語っています。
これがどのように起こるのかというと、これはAIの静かな革命です。ChatGPT、Claude、Gemini、そして今ではGrokのようなAIモデルは、画像や大量のデータの分析が非常に得意です。これらのモデルを優れたものにしているのは、データを要約する能力です。学習データで多くの画像を見ているため、類似の画像を認識するのが簡単なのです。そのため、これらのモデルは医療ケースで優れた成果を上げています。
この人の話によると、娘が朝6時まで眠れず、腕が折れていると確信していて、大きな痛みを訴えていたそうです。救急外来に行き、検査してレントゲンを撮りました。しかし、診察した医師と放射線科医は骨折はないと診断し、いくつかの質問に答えた後、包帯と鎮痛剤を処方して帰宅させました。
賢明にも、彼女は帰り際にかかりつけ医に見せるためにレントゲン写真を印刷してもらうよう依頼しました。母親の直感として、完全には納得していなかったのです。手が冷たくなってしびれ、親指が動かせず、様子がおかしかったため、さらに調べ始めました。正常な手首と骨折した手首のレントゲン写真を調べ始め、イーロン・マスクが数週間前にGrok 2が医療画像を読み取れると投稿していたことを思い出しました。
そこでレントゲンをGrokにアップロードしたところ、Grokは「これは明らかな骨折で、どうして腕を診察した人々がこれを見逃したのかわからない」と述べました。そこで、かかりつけ医に行って整形外科の紹介状をもらい、翌日、手首の専門医が複数の角度から新しいレントゲンを撮って診察し、Grokの診断した遠位橈骨頭骨折を確認しました。
彼女はGrokを使ったことは医師には告げませんでした。正気を疑われたくなかったからです。ギプスで固定しましたが、これを行わず、追加の検査をせずに放置されていれば、避けられたはずの手術が必要になっていたでしょう。これは驚くべきことです。
医師が大丈夫と言ったのに、「私はただの母親なのに、彼らの診断に疑問を持つなんて」と思ったのです。これは非常に興味深いことです。医師や放射線科医は過労状態にあり、医療システムには問題があります。彼女が言うように、疲れていたのかもしれませんし、長時間勤務の後だったのかもしれません。明らかな完全骨折だけを探していたのかもしれませんし、継続教育が必要だったのかもしれません。しかし、両者ともGrokが明らかだと判断した骨折を見逃しました。
これは驚くべきことです。医療分野におけるAIに関する研究論文を見るたびに、私は特効薬だとは言いませんが、これが将来的に多くの探求が行われる分野になることを示す明確な兆候を見てきました。医療の未来は、比較的安価で迅速、そして現在よりもはるかに優れたものになると思います。特に、これらのシステムが下位レベルで存在する場合はそうでしょう。
これはAIニュースですが、かなり衝撃的なニュースです。Twitterで大きな話題になり、130万回以上の視聴、2万件のいいね、7000件のリツイートを記録しました。億万長者のラリー・エリソンがAIを利用した監視システムで市民が最善の行動を取るようになると述べたからです。
これについては別の動画を作るかもしれませんが、かなり衝撃的です。彼は監視について語り、すべての警察官が常時監視されると述べました。現在もほとんどそうですが、問題があればAIが報告し、適切な人物に通報するとのことです。市民は常に記録され報告されているため、最善の行動を取るようになるというのです。
これは私たちが思い描く最高の未来とは思えません。人々が未来の世界について考えるとき、誰もが最善の行動を取らなければならないとは考えません。これは某ディストピア小説を連想させますが...はい、これはかなり衝撃的です。おそらく一般の人々の最悪の悪夢でしょう。一般の人々が犯罪者だからではなく、プライバシーに非常に敏感だからです。
政府が個人のプライバシーを侵害してきた様々な事例を知っています。これは一般の人々が望まないものでしょう。この反応を見るのは非常に興味深いでしょう。「市民は最善の行動を取るようになる」「常に記録する」という発言は、望ましいPRとは言えません。
失言だったのかもしれませんが、これは良いシナリオとは言えません。億万長者、つまり莫大な権力を持つ人物がこのように発言することは、非常にディストピア的で良い兆候とは言えません。
彼はまた、AIドローンが警察車両と高速追跡を代替すると予想しています。「ドローンに車を追跡させるだけ。自律型ドローンの時代では非常に単純」と述べています。追跡をネットワークで放送するかどうかは言及していません。
この話題はあまり深く掘り下げたくありません。非常に暗い話になってしまうからです。しかし、AIによって社会がどのように変化するかについての情報は多くあります。時々、AIのネガティブな面を忘れがちです。AIは24時間365日休みなく稼働し、監視を可能にします。
セキュリティや安全のための監視が悪いとは思いません。ただ、権力を持つ特定の人々がいる場合、人間は完璧ではないという意味で脆弱だと思います。権力を濫用したり、間違った方法で行使したりする可能性があります。これは非常に恐ろしいことです。
これについて、私たちはすでに中国のディストピア的なAIでその展開を見ています。社会信用システムなどがありますが、それについては深く掘り下げません。このディストピア的なAIが現実にならないことを願います。未来がどうなるかは分かりません。非常に速く進むでしょうが、考慮しなければならない問題です。
AIビデオは非常に驚くべき発展を遂げています。時間とともにさらに驚くべきものになっています。これはV2のウィル・スミスです。このベンチマークがSoraによって打ち破られる例を見ましたが、最近V2のアップデートを見ることができました。V2は概してより優れたモデルで、Cherry pickされていない例でもインターネットを驚かせ続けています。
これは話題になった例の1つです。わずか2年間での進歩を示していると思います。2年後にはどうなっているのか、非常に興味深いですね。改善の余地はあるかもしれませんが、驚くべきことです。
誰もがAIに注目している中で、私もAIに注目しています。この60秒の間に、私のAI Grid Academyを恥ずかしげもなく宣伝させてください。これは最近リニューアルしたもので、200人以上がAIエージェントとプロンプトテンプレートを使ってお金を稼いでいます。毎週、人々がこのAI革命をどのように活用できるかについて、様々なリソースを共有しています。
多くの企業がこれを未来として注目していることは周知の事実です。29時間後に始まるWorkshop Wednesdayでは、成功戦略をシンプルで実行可能なステップに分解します。AIエージェントでお金を稼ぐ方法を示す非公開動画もあります。金曜日には、これらの多くを自動化するための最高のAIツールを紹介し、日曜日にはコミュニティやインターネット上でAIで真剣にお金を稼いでいる人々の事例研究を分析します。
興味があれば、説明欄の最初のリンクをチェックしてください。それでは、動画に戻りましょう。
また、AGIに関する経済予測もありました。スチュアート・ラッセルは、AIの構築は人類史上最大の出来事になるだろうと述べています。なぜなら、地球上のすべての人々に素晴らしい生活を提供することを意味するからです。AGIの最小現金価値は15京ドルになるとのことです。
これが重要だと思う理由は、スタートアップが法外な評価額を付けられているため、AIバブルだと多くの人が言っているからです。しかし、AI分野のスタートアップの大半は過大評価されていないと個人的に考えています。成功する可能性が10~15%あれば、その上振れ幅は非常に大きいため、そのチャンスを取る価値があるのです。
OpenAIがAGIを達成し、それをさまざまな経済分野に組み込むことができれば、NVIDIAに次ぐ世界で最も価値のある企業になるでしょう。そこから生み出される経済的価値は絶対的に信じられないものになるでしょう。AIとこれらの評価を見る際には、考慮に入れるべき点です。
2027年か2037年か2047年に成功するかという問題は置いておいて、なぜ成功が人類史上最大の出来事になるのかについて少し話したいと思います。明らかな理由の1つは、真の汎用AIがあれば、人間ができたことすべてを行うことができるということです。
つまり、少なくとも数億人の人々を客観的に素晴らしい生活水準で支える文明を生み出すことができます。それをより大規模に、より低コストで行うことができ、数億人ではなく地球上のすべての人々にその客観的に素晴らしい生活水準を提供できるということです。
西洋の中流階級の平均的な生活水準を例に取り、今やすべての人がその生活水準を享受できるとすれば、世界のGDPは約10倍になり、その正味現在価値は約15京ドルになります。これがAGIという技術の最小現金価値です。それと比較すると、現在投資されている金額は微々たるものだということがわかります。
今週の悪いニュースは、MetaがAIを搭載したユーザーでプラットフォームを溢れさせる計画を立てているということです。これについて私は動画を作り、なぜこれが最善の方法ではないのか、なぜこれが微妙な問題なのかについて話しました。様々な観点から議論できるからです。
これについて読んでから、その内容に入っていきましょう。MetaはAI製品の展開の一環として、AIで生成されたキャラクターでFacebookを満たし、エンゲージメントを高めることを目指しているとのことです。これらのAIキャラクターはMetaのAIスタジオを通じて作成され、ウェブサイト上で実際の人間とほぼ同じように対話できるというアイデアです。
個人的には、これは50-50だと思います。説明欄にリンクを貼った動画で話したように、AIを搭載したユーザーでウェブサイトを満たすことは最悪です。それはソーシャルメディアの目的を損なうからです。ソーシャルメディアの目的は他の人間と交流することですから、それを行えば、プラットフォームの目的そのものが失われ、意味がありません。
しかし、ソーシャルメディア上で他の人間とほとんど交流のない人々が多くいることも事実です。そういったユーザーにとっては、誰かと話せるようになることで、ソーシャルメディアがより使いやすくなるかもしれません。これは孤独の問題に戻ります。
もしそれらの非常に人間らしいAIが、DMを送り、メッセージを送り、コンテンツに反応し、それが人間なのかAIなのか区別がつきにくい場合、ソーシャルメディアは人間にとってより使いやすくなるのでしょうか?これは興味深いテストになるでしょう。
広告主がどのように対応するのか気になります。コンテンツを発信する際は、実際の人間に見てもらい、実際の購入につながることを望むものです。しかし、AIを搭載したユーザーでプラットフォームが満たされると、Metaにとって奇妙な状況になるでしょう。彼らの収益源は、視聴者を集め、プラットフォーム上で広告を掲載することだからです。
非常に興味深い展開になるでしょう。彼らは一部のプロフィールをキャンセルしたようですが、これは彼らが本気で取り組んでいることだと思います。ただし、あまり心配する必要はないかもしれません。Metaは技術面ではなく、実装面でAIに関して何度も間違いを犯してきました。最近まで、メタバースに何十億ドルも投資していたのです。これも失敗に終わる計画かもしれませんが、成功すれば、AIがインターネットと融合する非常に興味深い変化のきっかけとなるでしょう。
さらにMetaからは、ヤン・ルカンが人間レベルのAIは不可避だと語り、超知能AIアシスタントのビジョンを開発していることが明らかになりました。これは人々と人々をつなぐものです。
どのくらい時間がかかるのかという質問に対して、彼は次のように答えています。「ほとんどの人にとって人間と同等の知能を持っているように感じられるシステムを持つには、私たちが想像しているすべての計画、つまりJepaアーキテクチャやその他のアイデアがうまくいった場合でも、少なくとも5~6年はかかるでしょう。しかし、5~6年で実現するかどうかは別問題です。」
「AIの歴史を見ると、人々はその困難さを過小評価し続けています。私も今、同じ間違いを犯しているかもしれません。5~6年と言いましたが、これは予期せぬ大きな障害に直面せず、試そうとしているすべてのことがうまくいき、スケールアップが可能で、コンピュータが加速するなど、すべての条件が揃った場合の最良のシナリオです。」
「来年には実現しないでしょう。サムや他の人々が言うように、あるいはダリオが2年以内に実現すると言っているように...いいえ、そうはならないでしょう。」
私は彼のアイデアが非常に興味深いと思います。なぜなら、前にも言ったように、みんなが同じことを考えているなら、誰も考えていないことになるからです。みんながASIが2年以内に実現すると考えているなら、誰も考えていないということです。
世界に対する異なる視点を持つ人々がいることは重要です。それによってオープンな議論ができ、前進することができるからです。「彼の指摘には一理あるかもしれない」「そのアーキテクチャは他のものより効果的かもしれない」と考えることができます。そうでなくても、他の用途や応用があるかもしれません。
次に、Clone Roboticsからの非常に興味深いニュースがありました。彼らはヒューマノイドのトルソを披露しました。Clone Roboticsは私にとって注目すべき企業の1つです。なぜなら、ヒューマノイドロボティクスへのアプローチが他の企業とは全く異なるからです。これは、史上最もリアルなヒューマノイドロボティクス企業の1つになる可能性があります。
これは間違いなく「ウエストワールド」から飛び出してきたような存在です。彼らが使用している水圧システムは革新的に見えます。現時点では確かに少し奇妙に見えますが、このような企業が十分な資金を得られれば、ヒューマノイドロボットの分野を開拓できると思います。
個人的には、ヒューマノイドロボットは非常に困難だと思います。正直なところ、このようなシステムをNVIDIAのIsaac Simでどのように扱い、強化学習で訓練するのか、まったく分かりません。このようなハードウェアプラットフォームをどのように訓練するのか、正直なところ分かりません。
もちろん、これらの天才たちがそれを解決するでしょうが、これらのトルソは空気排出時にノイズを発生するバルブを使用した空気圧式アクチュエーションを使用しています。これは驚くべきことです。9,910の筋繁維が164の自由度を動かし、フィードバック制御のために182のセンサーを持っています。
20年後、すべての問題が解決されたときのことを想像してみてください。スムーズで、リラックスして、歩き回ることができ、会話ができ、力強い...確かに未来に生きているような感じです。これが単なる派手なデモでないことを願います。
彼らは将来の姿についていくつかの画像も公開しました。私にとっては、これは何か宇宙人のように見えます。このような種類のロボットが私の台所で料理をしているのを見たくありません。申し訳ありませんが、笑顔の顔が付いているものの方がいいかもしれません。
ヒューマノイドロボティクスについて話すなら、NVIDIAの新しいCosmosについても言及する価値があります。これはヒューマノイドロボットとロボティクス全般の開発において非常に驚くべきものです。AI業界とロボティクス業界は、私たちが想像もできないペースで加速し続けています。
次のAIのフロンティアは物理的AIです。モデルのパフォーマンスはデータの利用可能性に直接関係していますが、物理世界のデータは捕捉、キュレーション、ラベル付けにコストがかかります。NVIDIA Cosmosは物理的AIを進歩させるための世界基盤モデル開発プラットフォームです。
これには自己回帰型世界基盤モデル、拡散ベースの世界基盤モデル、高度なトークナイザー、NVIDIAのCUDAとAI加速データパイプラインが含まれています。Cosmosモデルはテキスト、画像、ビデオプロンプトを入力し、仮想世界の状態をビデオとして生成します。
Cosmosの生成は、実世界の環境、照明、オブジェクトの永続性など、自動運転とロボティクスのユースケースに特有の要件を優先します。開発者はNVIDIA Omniverseを使用して、物理ベースで地理空間的に正確なシナリオを構築し、OmniverseのレンダリングをCosmosに出力します。これは写実的で物理ベースの合成データを生成します。
多様なオブジェクトや環境条件(天候や時刻など)、エッジケースのシナリオを生成できます。開発者はCosmosを使用して、ポリシーモデルを改善するための強化学習AIフィードバック用の世界を生成したり、マルチセンサービューにわたってモデルのパフォーマンスをテストおよび検証したりできます。
Cosmosはリアルタイムでトークンを生成でき、フォライトとマルチバース・シミュレーションの力をAIモデルにもたらし、モデルが正しい道を選択できるようにあらゆる可能な未来を生成します。世界の開発者エコシステムと協力して、NVIDIAは次世代の物理的AIを進歩させることを支援しています。
また、NVIDIAの道路シミュレーションにも注目する必要があります。これは自動運転車に関するもので、多くの人々を驚かせるでしょう。現在、WaymoやCruiseなど、自動運転を行う企業があります。これがどのように進展するか見守る価値があります。予想以上に早く身近な都市にやってくると思います。
多くの人々は「AIが発展していることは知っていたが、自動運転車がここまで進んでいるとは知らなかった」と驚くでしょう。これは急速に拡大しているものです。今日は、道路を走る車の動画をたくさん見せる代わりに、AIを使って自動的にデジタルツインを再構築し、将来のAMモデルの訓練に使用する方法をお見せしましょう。
自律走行車革命が到来しています。自律走行車の構築は、すべてのロボットと同様に、3つのコンピュータを必要とします。AIモデルを訓練するNVIDIA DGX、テスト走行と合成データ生成のためのOmniverse、そして車載スーパーコンピュータのDrive AGXです。
安全な自律走行車を構築するには、エッジケースに対応する必要がありますが、実世界のデータは限られています。そのため、訓練データを何桁も増やすための合成データが不可欠です。NVIDIA Omniverse、AIモデル、Cosmosを搭載した自律走行車データファクトリーが、合成運転シナリオを生成します。
まず、OmniMapがマップと地理空間データを融合して、走行可能な3D環境を構築します。運転シナリオのバリエーションは、リプレイドライブログやAIトラフィックジェネレータから生成できます。次に、ニューラル再構築エンジンは自律走行車のセンサーログを使用して、高精細な4Dシミュレーション環境を作成します。これは以前の運転を3Dで再生し、訓練データを増やすためのシナリオバリエーションを生成します。
最後に、Edify 3DSは既存のアセットライブラリを自動的に検索するか、新しいアセットを生成してシミュレーション対応のシーンを作成します。Omniverseのシナリオは、Cosmosをコンディショニングして大量の写実的なデータを生成し、シミュレーションと現実のギャップを縮めるために使用されます。
テキストプロンプトを使用して、運転シナリオの無限に近いバリエーションを生成します。Cosmos Neotron Videoで検索される大規模な合成データセットは、記録された運転と組み合わせてキュレーションされ、モデルの訓練に使用されます。NVIDIAのAIデータファクトリーは、数百回の運転を数十億マイルの実効走行距離に拡大し、安全で高度な自律走行の基準を確立します。
今週最も興味深かったのは、サムが「我々はシンギュラリティに近づいている」と述べたことです。彼は「6語の物語を書きたかった。ここにそれがある。シンギュラリティに近い。どちら側かは不明」と言いました。
これについては非常に多くの意味が込められています。この話題について25分か28分の動画を作りましたが、本質的に彼が語っているのは、シンギュラリティとは我々が前進するポイントであり、どちら側にいるのか分からないということです。
彼はこれがシミュレーション理論である可能性や、AIが非常に速く発展し、技術が高度な技術を生み出すループに入り、物事がどんどん加速していくポイントに達した可能性について語っていました。もちろん、AI分野にいない人々にとっては狂気じみて聞こえるでしょう。
過去1週間で2つの研究論文を読み、それらを消化するのに多くの時間を費やしました。大衆を教育するための動画を作りたかっただけでなく、システムがどのように機能するのか、アルゴリズムがどのように機能するのかを本当に理解したかったからです。
彼らが開発している技術を根本から本当に理解したとき、これらの企業の人々が人工超知能に非常に近づいていると本当に信じている理由が分かり始めました。これらの動画を見て、数学を理解し、彼らが得た結果を理解し、特定のアルゴリズムを実行すると賢くなり続け、ベンチマークが上昇し続け、鈍化している兆候が見られないことを理解すると...
まだ本当のボトルネックは見られません。我々が人工超知能に非常に近づいていることは明らかです。現在、これを遅らせている最大の要因は、そこに到達する方法が分からないということではなく、単に十分な計算能力とパワーがないということです。これは重要な違いだと思います。
だからこそ、業界の多くの人々が「超知能はすぐそこまで来ている」「AGIはすぐそこまで来ている」と言い始めているのだと思います。この点については非常に興味深い展開になるでしょう。
モデルの実際のサイズについて知りたい人々のために、これはニュースには見えないかもしれませんが、私にとっては大きなニュースです。なぜなら、これらのモデルがどれだけのパラメータを持っているのか、実際に見ることができるからです。
これらのアーキテクチャは非常に機密性の高いものなので、これらのモデルがそれぞれの大きさと比較してどれだけ賢いのかを知ることは非常に重要です。このMicrosoftの論文では、以前GPT-4が1.8兆パラメータの専門家の混合であると述べたことが後に真実であることが明らかになりました。
今回彼らは、Claude 3.5 Sonnetは1,750億パラメータのモデルだと述べています。ただし、最新バージョンについてはそれを信じるかどうか分かりません。なぜなら、第一にそのモデルがどれほど賢いか、そして第二にそのモデルがどれほど制限されているか、つまりClaudeから10~15の応答を得ると、反応が停止するわけではありませんが、アカウントが制限され始めるからです。
もちろんGPT-4は1.76兆パラメータ、GPT-4は2,000億パラメータ、01プレビューは3,000億パラメータ、01ミニは2,000億パラメータとされています。GPT-4からGPT-4へのモデルサイズは非常に興味深いです。GPT-4の方がGPT-4よりもはるかに優れており、2,000億パラメータです。01プレビューは非常に賢く、わずか3,000億パラメータです。
これらは概算だと述べていましたが、Microsoftで働いているなら、かなり正確な推測ができるでしょう。非常に大規模なモデル、専門家の混合が登場したとき、何が起こるのか...非常に興味深い結論に導かれます。
また、かなり前に話すべきだったことですが、GenXについても触れておきましょう。これは異なる世界を探索できるモデルです。非常に興味深いものです。人間は周囲に限定された世界しか認識できませんが、その想像力は遥かに広がります。機械はどうでしょうか?
生成的世界探索者GenXをAIエージェントの想像力として紹介します。入力画像とアクション(前進または方向転換)が与えられると、私たちのビデオ拡散器は、マルチモーダルLLMによるナビゲーションで動きを生成します。この想像的な探索では、エージェントは完全に生成された都市を探索します。
私たちの想像的なSLAMはナビゲーション経路を追跡し、3Dの精神的世界を再構築します。これにより、エージェントは探索しながら信念を適応させ、環境について詳細な理解を形成できます。GenXは、実世界の屋内外のシナリオを含む、見たことのない環境にもうまく適応します。
生成の品質を確保するために、私たちはナビゲーションのサイクル一貫性を導入しました。GenXはランダムにサンプリングされた閉じた経路をナビゲートし、原点に戻ります。最適なケースでは、開始ビューと終了ビューが同一であり、世界のモデリングにおける一貫性の指標を提供します。
GenXは、意思決定を伴う単一エージェントのシナリオに新しいレベルの知性をもたらします。通りを運転しているときに救急車のサイレンは聞こえるが音源が見えないような状況を想像してみてください。GenXは前方を予測し、角を曲がったところに救急車がいることを明らかにします。あなたは通過させるためにスペースを空けて道を譲ります。
複数のエージェントが関わる相互作用のシナリオでは、赤信号で待っているときを想像してください。歩行者と接近する車が見え、すべてが問題なく見えます。しかしGenXは、歩行者が車を見ることができず、同様に車も歩行者を見ることができないことを認識するのを助けます。
あなたの車が彼らの視界を遮っていることに気付き、直ちに行動して彼らに警告し、衝突を防ぎます。GenXにより、機械は世界の中で想像し推論し始め、知的な探索の新しい可能性を解き放ちます。
また、動画作成に関してさらなる進展がありました。Joshua Zooは、彼らがHuanのモデルAvatarをSoraとシームレスに統合し、その結果は本当に次のレベルだと述べています。これは現時点で最も高度な話す動画アバターで、多くのシナリオで実際の俳優を凌駕しています。
実際の俳優を何度も撮り直す手間なしに、動き、表情、アクションを正確に微調整できます。さらに、これらのイントロ動画の長さに制限はありません。これは単なるデジタルクローンではなく、完全にAIで生成された人間のアバターです。
誰かが何かを言っている完全にAIで生成された動画を作りたい場合、これを見てください。「リビングルームは単なる空間以上のものです。私たちの姿を映し出すものです。だからこそ、明るく居心地の良いものであるべきです。シアーカーテンや大きな窓を通して自然光を最大限に取り入れることは、言葉で言い表せないほどの開放感を生み出します。
柔らかいラグやテクスチャのあるスローを加えることは、単に美的な効果を高めるだけでなく、空間全体の雰囲気を変えます。特にフロアランプやテーブルライトと組み合わせた照明は、夜の雰囲気作りに重要な役割を果たします。空気を浄化するだけでなく、自然の活力を加える植物を取り入れることは、空間に生命を吹き込む簡単な方法です。
結局のところ、あなたの個性を反映したインテリアを選ぶことは、単に重要なだけでなく、家を本当の意味での家にするものなのです。」
これは非常にリアルだと思います。これらの動画を見るとき、AIで生成されていることが奇妙なほどリアルです。以前、私は常に「これはAIで生成されたものだとAI業界の誰にでも分かる」と話していました。しかし、これらの例を見ると、もはやこれが完全にAIで生成されたものには見えないことに気付き始めています。
この動画は、AIで生成されたものだと本当に見分けがつきません。正直なところ、このツールの存在を知っている人間としても、見分けることはできません。明白な特徴は何もありません。唇の動き、目の動き...まばたきは自然で、自然に動いています。
もちろん、私のようなコンテンツクリエイターにとっては素晴らしいことです。コミュニティ内の特定のワークフローにこれを組み込むことになるでしょう。しかし、繰り返しになりますが、これは奇妙なことです。AIの特徴を示す明白な点がなく、何も混ざり合ったり、ブレンドしたりしていません。
これは再び、私たちが知らなかった完全なリアリズムのポイントに徐々に近づいているということです。まさにHey Genは動画モデル作成の最前線にいるのです。

いいなと思ったら応援しよう!