
xAIのGrok 3がAIの競争を一変させた(でも本当に必要なの?)
22,283 文字
Grok 3が登場しました。そしてそれは優れた性能を持っており、市場に新たな最先端のLLMが加わりました。そうです、イーロン・マスクはこれが「怖いほど賢い」と主張しています。僕もGrok 3は「怖いほど賢い」と思いますね。実際、彼はこれが最も賢いAIかもしれないと言っています。
いや、ケビン、違います。違います。違います。ケビン、違いますよ。いいえ、これは正解です。ネタバレはなしで。後でこの番組で、これが史上最も賢いAIかどうかをお伝えしますから。ケビン、とても賢いですが、最も賢いわけではありません。それでいいんです。番組を最後まで見てもらいたいですからね。
Grok 3について話しますが、印象的な性能を持っています。でも、究極の存在というわけではありませんよ、ケビン。
また、Microsoftが新しいAIゲームモデルを発表し、開発者がインタラクティブな体験を作り出す方法に革命を起こそうとしています。OpenAIはすべてのコーダーに狙いを定めており、パーマー・ラッキーはAI兵器について3時間にわたり気軽な会話をしています。「AIパワーのミサイルで出来る面白いことの1つは、人がレーザー照準器で操縦しなくても、エリアに送り込んで精密な標的攻撃を協力して行えることです」。AIの殺戮マシンについて、これ以上ワクワクできませんね、ケビン。
また、フリーのAIエージェントがリリースされ大きな話題を呼んでいます。ロボットのダンス動画もあります。そしてHumane AI Pinのために献杯を。彼らはそれを終了することにしました。まあ、購入した人はバッテリー残量を確認することはできますけどね。これが人間のためのAIです、みなさん。
さて、ケビン、今週の大きなニュースは、イーロン・マスク、私が呼ぶところの「マスキー」が、xAIから新しいAIモデルを発表したことです。そう、危険なおじさんのマスキーが新しいAIモデルを出したんです。Grok 3が登場し、知っての通り、かなり良いものです。
Grok 3についての超簡単な要約をすると、訓練には多くのH100チップが必要でした。そしてリリース動画では、さらに多くのH100チップを追加していると話していました。これらはNVIDIAのチップで、AIモデルを本格的に訓練することができます。しかし、ここで重要なのは、ベンチマークの観点から、そして能力の観点から見ても、非常に優れているということです。
最高のモデルかもしれません。でも、とにかくトップクラスにいることは確かです。ケビン、これは本当に考えるべき重要なことだと思います。市場に、最先端に近い新しい重要なLLMがまた1つ加わったのです。これを使ってみましたか?
少し使いました。個人アカウントには昨夜遅くまでロールアウトされませんでした。まだ世界中のユーザーに展開中です。言えることは、イーロンが「史上最も賢いAIモデル」と宣言したのは、おそらく強制的なエラーだったということです。
なぜなら、それがすべてのニュースメディアやブログが取り上げた見出しとなり、そして「またしても、イーロンは約束したのに未達成」という展開になったからです。とは言え、xAIチームがチームを結成し、データセンターを立ち上げ、このモデルを訓練し、私たちが議論しているような最高クラスのモデルの仲間入りを果たしたことは、記念碑的な功績です。
一部の人々は、ベンチマークに過度に最適化されていると言うでしょう。つまり、モデルを特にこれらのベンチマークテスト、コーディング、科学的推論などに特化して優れた成績を出すように訓練したと。また別の人々は、LLM Arenaのベンチマークを見ると、人間が言語モデル同士の応答を比較する場で、Grok 3は圧倒的な成績を収め、OpenAIの製品や、DeepSeekの製品を上回っていたと言います。
一部の人にとってはバイブチェックに合格し、他の人にとってはベンチマークチェックに合格しています。私にとっては、「史上最高」と言ってしまったことが、まったく不要な失敗だったと思います。なぜなら、いくつかの指標では最高ではないからです。でも、それでもとても優れているのです。
あなたが言ったことに付け加えると、Grok 3の初期バージョンで「Chocolate」と呼ばれるものがLLMsのChatbot Arenaにリリースされました。もし知らない人のために説明すると、これは2つのチャットボットに同じ質問をして、どちらが良いかを投票するような場所です。そしてGrok 3は今日、Chatbot Arenaで最高スコアを獲得しました。これはかなり大きな出来事です。
このモデルについて具体的に話すべきことがいくつかあります。まず、Deep Thinking Modeがあります。これは、Deep Researchやその他のものと同様に、リフレクションを可能にするモードです。また、2つの異なるベンチマークセットが公開されました。1つは純粋なベンチマーク、もう1つはリフレクティブベンチマークで、どちらも非常に優れています。
彼らが公開したベンチマークには、OpenAIのpure o3モデルのベンチマークが含まれていないことを何人かが指摘しています。そしてo3はGrokモデルより優れています。しかし、Grok 3はo1や他の既存のモデルを含む、ほとんどのモデルを上回っています。
ケビン、もう1つ話すべきことは、Big Brain Modeです。これは「もちろんBig Brain Modeがある」と思わせるようなボタンで、OpenAIの配信方法におけるo3 highに相当するものだと思います。これらの機能は、より高額な月額料金を支払う場合にのみ利用可能です。
基本的にはXプレミアムに組み込まれる予定で、現在は月額約40ドルでアクセスできるようです。私もあなたもまだ試していませんが、試してみる価値はありそうです。月額40ドルは、OpenAIが提供しているプロサブスクリプションの月額200ドルよりは良心的です。
すべてのLLMとそのコストについて、私が常に考えているのは、現在5〜7個のモデルがあるということです。Gemini、DeepSeek、MetaのLLaMaモデルなど、さまざまなモデルがあります。4月にはLLaMa Festが開催され、そこで新しいLLaMaが発表されるでしょう。
大きな疑問は、これらのモデルがすべて生き残れるのかということです。最近考えていたのは、ストリーミングサービスのようなものだと思います。Netflixが最初に登場して圧倒的な成功を収め、その後、他のストリーミングサービスが「ストリーミングを忘れていた」かのように殺到し、大金を投じました。
そして今、その結果として、DisneyとHuluは比較的うまくいっていますが、残りは少し苦戦しているような世界になっています。長期的に見て、5〜7個のモデルのための十分なスペースが世界にあるとは思えません。
さて、なぜおじさんのマスキーは自分のGrokが欲しいのでしょうか?なぜXまたはTwitterのエコシステムにそれを組み込む必要があるのでしょうか?なぜなら彼は、すべてにおいて最高でなければならないエゴイストだからですか?それが本当の答えなのでしょうか?
分かりません。まあ、そうかもしれません。また、バイブベンチマークに関する興味深いリークもありました。特定のブログについて尋ねると、それが「左翼のプロパガンダ」か「リバタリアンの砦」かを教えてくれるようです。中国のモデルに特定の質問をすると、特定の方向性の回答が返ってくるのと同じように。
これは彼が、他の人々と同様に、これが非常に危険な技術であり、彼こそがそれをコントロールして私たちを安全に保つべきだと信じているからでしょうか?それとも、最初に手に入れた者が数兆ドル長者になれるからでしょうか?あるいは、将来的に競争優位性となり得る独自のデータファイヤーホースを持っているからでしょうか?
すべてのモデルが同じになる中で、このモデルは最もリアルタイムなデータを持つことになります。それとも単なるエゴの表れでしょうか?考えられる理由は多くあります。私は、それらすべてが恐らく本当だと思います。
TwitterまたはXのデータがLLMを改善するためにいかに強力であるかは、過小評価できません。毎日リアルタイムのテキストデータ、ニュース情報、そのすべてを得ているのですから。
興味深いのは、これがますますシリコンバレーの大きなエゴたちが、すべての価値を解き放つものを手に入れようとしているように感じられることです。私は今でもOpenAIが3〜6ヶ月のリードを持っていると信じています。そして明らかに、サムが今より多くのものをより速く推進していることは大きな意味を持ちます。
しかし、最終的には面白いことになると思います。これらの企業の1つか数社が、長期的には実際にはそれほど価値のないものに数十億ドル、あるいは数千億ドルを費やすことになるかもしれません。人々はAIバブルについてよく話しますが、これは私にとってその完璧な例です。
経済的な観点から見ると、これらすべての波及効果は注目に値すると思います。あなたと私は今、秘密のプロジェクトに取り組んでいますが、それは独自のモデルを訓練するのではなく、利用可能な最高クラスのバージョンを、最も安価なものを使用するという考えに基づいています。
これは消費者やビルダーにとって大きな勝利のように感じます。しかし長期的には、大企業は7つのモデルすべてが人々にとって意味のあるものになるように努力する必要があると思います。なぜなら、結局のところ、同じものを得られるからです。つまり、インテリジェンスですよね。
ただし、イーロンの壮大なビジョン、これは20年以上前からのものですが、Xアプリがすべてのアプリになるということです。コミュニケーション、支払い、ロボタクシーのための配車など、独自のインテリジェンスが組み込まれている必要があります。
他のものにプラグインすることもできますが、ギャビン、最近私はGrok 2でさえ、Xアプリで「この記事の本当の情報は何か」や「これを要約して」、「このホワイトペーパーを分析して」といったことをよく使っています。
組み込まれていて、十分に速く、そこにあるので、よく使います。Grokの将来のバージョンについては少し不安になります。きっと良いものになるでしょう。Grok 3は良いです。組み込まれているとき、「この記事を分析して」と言うと、それが政治的なものであれ、財務的なものであれ、純粋な生のインテリジェンスを得られるのか、それとも誰かのスピンやガードレールバージョンを得ることになるのか気になります。
その点で懸念があります。イーロンのリーダーシップの下でのxAIチームについて、私が見た両方の議論にすぐに触れたいと思います。まず、彼らはこのトレーニングクラスターを立ち上げ、このモデルを非常に速く作り上げました。OpenAIが始まってからGrokがオンラインになるまでのチャートを見ると、その壁は巨大です。
一方では、はい、非常に印象的です。一方で、ゲームに後から参入することで、強化学習や推論の進歩における最良の実践の肩の上に立つことができます。だから、最高クラスのモデルに追いつくのは理にかなっています。
私は本当にGrok 3.5か4が他の人々の背筋を凍らせるような存在になることを望んでいます。現時点では、彼らがレースの中にいることは印象的ですが、あなたはどう思いますか?工学とデザインの傑作だと思いますか?それとも、単にタイミングが良くて、他の人々に追いついているだけだと思いますか?
私は、おそらくタイミングが良くて、この地点まで急いで到達したのだと思います。NVIDIAからチップをたくさん購入し、このものを非常に速く立ち上げました。もし詳しくなければ、コロッサスクラスターとはイーロンがすべてのH100チップで立ち上げたものです。
このプレゼンテーションで話された他のことについても触れるべきだと思います。1つは、xAIゲーミングについてです。イーロンは正式にAIゲーミングスタジオを立ち上げると発表し、このデモでは、テトリスとビーズの組み合わせを試みました。
これについて面白いと思うのは、ある程度うまくいったということです。3つの異なるものを作り出し、ある程度機能しました。ケビン、イーロンがこれらのモデルが今、創造性の面で何ができるかについて話している音声があります。聞く価値があると思います。
「これは重要なことかもしれません。明らかに、AIにテトリスのようなゲームを作らせれば、インターネット上には多くのテトリスの例があり、それをコピーすることができます。しかし、ここで興味深いのは、2つのゲームを組み合わせて、実際に機能する創造的な解決策を生み出し、しかもそれが良いゲームになっているということです。これが創造性の始まりを見ているということです」
そうですね。イーロンの指摘は、テトリスやビーズのクローンは何百万とあって、言語モデルがそのコードをクロールすれば、基本的にコピー&ペーストができるということです。しかし、2つのハイブリッドを作れと言われたとき、どの効果を使うか、テトリスの落下ブロックを使うのか、ビーズのタイルマッチングを使うのかという判断をしなければなりませんでした。
言及したように、彼らは複数のバージョンを作りました。なぜなら、これらのLLMは毎回プロンプトされると異なる結果を得ることができるからです。彼らがライブでデモしたものの1つは、ブロックは落下するものの、ブロックには異なる色があり、3つ以上の同じ色が接触するとそれらのブロックが消えるというものでした。
印象的だと思ったのは、ビーズや一部のテトリスバージョンのように、色のブロックが消えると、その周りのブロックに重力が働いて落下するという要素を維持していたことです。それは一発で作られたものでした。単にプロンプトを与えただけで、ゲームが出来上がったのです。
問題もありました。完全なテトリスのラインができたときに下に落ちないなど、小さな問題がありましたが、あなたの言う通り、一発で作れた部分が興味深いですね。その引用で興味深いと思ったのは、久しぶりにこれらのモデルの創造性について話していることです。
なぜなら、私たちはずっと、人間が介在する創造的な作業が本当に重要だと言ってきましたが、彼らはそれをより良くしていくでしょう。今はそれほど面白くありませんが、興味深いものの兆しが見え始めています。これは必ずしもイーロンのxAIだけの話ではありません。
世界に存在する2つのもの、テトリスとビーズを組み合わせて面白いものを作るようにモデルに求め、それが選択を行ったという事実は、創造性の大きな部分が選択することだということを考えると、私にはとても興味深く感じられます。
Andre Karpathyの素晴らしい投稿もありました。私たちはこの番組で彼を大好きです。もし彼のアカウントをフォローしていないなら、ぜひフォローしてください。彼は素晴らしい元OpenAIとTeslaのエンジニアで、Grok 3の早期アクセスを得て、多くのテストを行いました。
その中の1つはケビン、特に興味深かったのですが、何かのSVGグラフィックを作成するというもので、Grokは自転車に乗るというのをかなりうまく描きました。そして、他のモデルがどのように解釈するかの比較があります。SVGは基本的に数学で描くもので、ベクターグラフィックスのフォーマットです。
ペリカンを作らなければならない、そして自転車に乗せなければならないと解釈する方法を見るのは、かなり良い仕事をしていると思います。Karpathyの投稿は、正しいこと、間違っていることの多くを網羅していて、これは良い例だと思います。非常に優れたモデルですが、おそらく現時点で最高のモデルではありません。
また、別の人がPortal 2をその中で作ろうとしたのも興味深いと思いました。このビデオはかなりクールです。明らかに非常に基本的なバージョンのPortalで、ほぼDoomのようなセットアップです。擬似3Dグラフィックスで、一人称視点のキャラクターがWolfensteinレベルの迷路を移動し、色付きのポータルを設置して、それを通り抜けてテレポートできます。
これは、単なるGrokの出力であることを考えると、あまりにも速く進化していると思います。そこに座って行ったり来たりして、生成的なグラフィックス製品を使って実際のアセットを入れることもできます。個人のゲームスタジオは、基本的に視界に入ってきました。
そしてMicrosoftの大きなゲーム発表について後で詳しく話しますが、これはより直接的なAIの考慮事項です。この例は、先週話題にしたバイブコーディングとその全ての考え方、つまりアイデアを思いつき、コードをプラグアンドプレイ的に使って、だんだん良くなっていくということを示しています。
これらのモデルがより有能になり、明らかにGrok 3は別の非常に有能なモデルですが、多くの人々がこのようなことをするようになり、本当にバイブコードで興味深いものを作り出すことができるようになると思います。そしてそのBle-Tetrisのようなものを一発で作れるようになり、それは完璧ではなく問題はありますが、時間とともに改善できます。
すべてのこれらのモデルから生まれる創造的なものの本当に興味深い爆発を見ることになると思います。さて、ケビン、Grok 3のニュースからの結論は何だと思いますか?
結論は、また新しい非常に強力なAIを手に入れたということです。そして、すべてのものと同様に、小さな試食スプーンを取り出して、彼らのバニラのバージョンを試してみて、気に入るかどうかを確かめてください。Xまたは私はまだTwitterと呼ぶのが好きですが、支払いをするかどうかによって、grock.comで使用できます。
上部にGrok 2を使っているのか、Grok 3のベータを使っているのかが表示されます。試してみて、質問をして、あなた自身のバイブチェックに合格するかどうかを確認してください。そうでなければ、他のどのプロバイダーにも行かないでください。私たちが言ったように、今はたくさんありますから。
私は現時点でのGrok 3の最高の使用例、そして実際にはどのAIモデルの最高の使用例も、なぜあなたがAI for humansのYouTubeチャンネルを見て、フォローして、購読すべきなのかをそれらに説明させることだと思います。ケビン、それは今のAIの非常に良い使用例だと感じます。
この番組にも是非いいねとご購読をお願いします。また、オーディオをお聴きの方は、私たちのオーディオポッドキャストをシェアしていただけると嬉しいです。視聴者と聴取者の皆様は、私たちにとって今も、そしていつも最高の人々です。皆様が私たちを好きでいてくださることを本当に嬉しく思います。
その通りです、ケビン。あなたたちは私たちにとって最高の人々です。「今」という部分に私は反応していました。なぜなら、今この瞬間は、誰が未来を知っているでしょうか。でも今のところ、あなたは視聴者として特別な場所を私の心の中に持っています。明日は約束できませんが。
さて、次に進みましょう、ケビン。今週のAIには他の大きなニュースもありました。まず第一に、誰でも無料で使えるGPT4.0の基本レベルがアップデートされました。サム・アルトマンは「ChatGPT(GPT4.0)のアップデートを公開しました。かなり良いものです。すぐにもっと良くなります。チームは調理中です」と述べました。
GPT4.0の歯茎に、禅のパケット、小さな砂糖の枕を詰め込んだんです。そしてそれはもっとスパイシーになりました。アップデートされたいくつかのことについて話しましょう。
全般的に、バイブ的には良くなったと多くの人が考えているようです。より個人的になり、応答がより良くなったと言われています。アップデートは、話し方に関係しているとされていますが、もっとスパイシーになれるようになったと指摘する人もいました。
つまり、スパイシーなことを依頼すると...あなたも分かると思いますが、実際にダイエットコーラとメントスをシミュレートできるようになったということです。そう、それについて話していますよ。いや、「ホットワンズ」のようなものですよ。サム・アルトマンの世界で「ホットワンズ」を再現しようとしているんです。
実際、私はこれを少しテストしてみました。共有アカウントから、そうです、私たちの共有アカウントからです。だから今、それは私たちの共有履歴にあります。基本的に、女性の魔法使いについての物語を書くように依頼しました。これはいろいろな方向に行く可能性があります。スパイシーではない女性の魔法使いはたくさんいます。
そして、私がしたのは、ただそれをよりスパイシーにしてくださいと何度も依頼することでした。ケビン、ここで告白しますが、かなりスパイシーになりました。最もスパイシーなバージョンの非常に単純な選択を共有しましたが、そのスパイシーさには踏み込みませんでした。しかし、実際に見られるものの一種の境界線を押し広げ始めました。
週末に兄弟と話していて面白かったのですが、今、文学の世界には、特にファンタジーロマンスに関する非常にスパイシーな小説の全世界があります。それを見るのは興味深かったですが、これは全体的に良いことだと思います。
私と兄弟が寝る前に互いに読み合うのが好きだと思うのが好きです。私たちはモンスターファンタジーのスパイシーなものを読み合います。それが私たちが互いに読むものです。今夜はフランケンシュタインの足指を探検します。
いいえ、全体的に人々は、より楽しくなり、より会話的なAIだったClaudeのような振る舞いをするようになったと言っているようです。サム・アルトマンは以前、約1年前に、OpenAIのモデルがある意味で制限され、ガードレールされすぎていることを好まないと述べています。
モデルがこれらの能力を持っていることは明らかで、それを少し解放するのは楽しいことです。これはオープンソースモデルが改善され、Claudeのパーソナリティ、さらにはGrokが登場したことへの反応かもしれません。彼は「ちょっと待って、私も楽しもう」と言っているのかもしれません。
しかし、私にとってより興味深いOpenAIの発表は、彼らが内部的にベンチマークを持っているということです。ギャビン、彼らのモデルがコーディングとソフトウェアエンジニアリングにどれだけ capable なのかを見るためのベンチマークです。そしてそのベンチマークは、これらの仕事を実行する人間に支払われるはずだった100万ドルを獲得できるかどうかです。もしできれば、私たちの勝利です。
そうですね、これは大きな出来事です。新しいSWE Lancerベンチマークですね。典型的なOpenAIのブログ投稿とTwitterスレッドの扱いを受けましたが、ここで重要なのは、Upworkのような場所で100万ドル相当のソフトウェアフリーランス仕事があり、彼らのシステムがそれらの仕事をどれだけうまくこなせるかを追跡し始めているということです。
中には他のものより難しい仕事もあります。彼らは1000ドル以上の仕事が最も難しいと言っていましたが、The Informationなどから出ている噂から、OpenAIがソフトウェアコーディング専用のエージェントに取り組んでいることも分かっています。このベンチマークほど、そのエージェントに適したものはありません。
コーダーが行うことに関して、これは番組で話し合ってきた重要な点だと思います。基本的なレベルのコーディング、比較的簡単な作業は、これらのプラットフォームによってすぐに解決されるでしょう。このフリーランスの仕事、初期の基本的な作業は間違いなく簡単なものです。
しかし、より難しく価値のある仕事になると、それができるなら、かなりの数のコーダーが収入を得られなくなります。なぜなら、いつでもその仕事ができる常時稼働のエージェントがいるからです。これは会社やソフトウェア作業を実際に行う人にとって、本当の付加価値になります。
初心者のために説明すると、文字通り「私のアプリにバグがあって、日付フィールドが正しく入力されない」とか「クレジットカード情報を入力するとウェブサイト全体がクラッシュする」といった問題を投稿できるウェブサイトがあります。
賞金を提示すると、コーダーがそれを見て「500ドルで数時間かけてこの作業を行い、修正案を提案します」と言えます。これが自動化されているものです。「コーディングは分かるけど、創造性には及ばない」と言う人もいますが、それは既に何百、何千ものAIラッパーが、マーケティングコピーを書いたり、SEOを手伝ったりするなど、多くの創造的なタスクを自動化していることを無視しています。
その程度の努力、その程度の能力は、おそらく年末までには完全に自動化されるでしょう。これに続いて、ケビン、今週の興味深いストーリーの1つは、Convergence Proxy 1.0という新しいAIエージェントが登場したことです。
人々はこれをOpenAI Operatorのオープンバージョンのようなものだと話しています。Operatorは何かをしてくれるものですが、私たちはこれについてあまり時間を費やしていませんが、深く掘り下げたいと思います。今週、大きな話題を呼びました。
Operatorは良いですね。あなたのためにコンピュータが何かを行う最初の段階だと思います。しかし、これは次世代のバージョン、少なくともOpenAI以外で現在利用可能なバージョンだとされています。
XやThreadsなどで何がハイプビーストグラインドステイなのかを判断するのは不可能ですが、人々はこれをOpenAIにとってのDeepSeekの瞬間のようだと言っています。ああ、彼らはランチを食べられていると。私たちはまだ試していないので、ライブで試してみましょう。
ギャビン、このオンラインリサーチャーにどんなタスクをさせたいと思いますか?製品の調査、ウェブサイトのレビュー、競合分析、人やブランドの調査ができるそうです。
ガイ・フィエリについて調査させてみましょう。しばらくガイ・フィエリのネタをやっていませんでしたが、料理の観点と文化的関連性の観点から、彼についてどう考えているのか知りたいですね。そして、特定の何かのためにガイ・フィエリに連絡を取りたいかもしれないという角度で、私たちがガイ・フィエリの専門家であることを示すのに十分な情報を提供する必要があります。
分かりました。「ガイ・フィエリについて、文化的および料理的な観点から調査してください。私たちは彼に連絡を取りたいと考えていて、私たちが専門家であることを示したいのです」と。例えば、素晴らしい出だしの言葉を5つと、彼を驚かせるような情報を1つ提供してください。
ギャビン、検索を実行しましたが、他のChatGPTやAnthropicの従来のLLMと同様に、左側に会話が保存されているのが見えます。中央では研究を行っていて、背景について調べていると表示されています。「ガイ・フィエリについてのWikipediaページを開いて詳細な情報を収集します」と言っています。
右側にはプロキシビューパネルがあり、ウェブプロキシが何を閲覧しているのかが表示されています。実際にWikipediaページをナビゲートしているのが見えます。今、開始したと言っていますが、どれだけ深く掘り下げるのか、あるいはどれだけ時間がかかるのかは分かりません。これが未来ですね。
まあ、後で戻ってくることもできます。しばらく考えさせておいて、他の興味深いストーリーをさっと見ておきましょう。Mira Moradi、元OpenAI最高技術責任者が、新会社のステルス状態から抜け出しました。
その会社はThinking Machinesと呼ばれ、すべての素晴らしいAI企業がそうするように、彼らは基本的に自分たちのページに非常に長いブログ投稿を公開し、何をしようとしているのかを読むことができます。
大きなニュースは、彼らが本当に人間とAIの相互作用に焦点を当てたいということです。おそらくそれは、より消費者向けの製品を意味するかもしれません。フロンティアモデルではなく、私たちがそれらとどのように相互作用するかについてもう少し焦点を当てるということかもしれません。
しかし、ここで知っておくべき大きなことは、ミーラが多くの本当に賢い人々をAI業界から集めており、その中には彼女と一緒に働くことになった多くの元OpenAI従業員も含まれているということです。
これは、かなりの額のお金を投資された、もう1つの大きなAI企業です。もし見逃していたなら、先週、イリヤ・サツケヴァー、もう1人のOpenAIの人物が、全く公開されていない超安全インテリジェンス企業のために、300億ドルの評価で数十億ドルを調達しているという記事がありました。
OpenAIの同窓生たちは、彼らのすることをしています。それは、何が起こるのか完全には分からないものに多くのお金を集めることです。ねえ、知っていますか?ギャビン、AIの分野で数十億ドルを手に入れている全ての人におめでとうを言いたいと思います。なぜなら、ダンスするロボットの艦隊を手に入れるのに必要になるでしょうから。これが新しいフレックスになるでしょう。
かつては車が止まっているときに回転する22インチのリムでしたが、今は振り付けされたUnrealロボットの軍隊になるでしょう。私はそう予言します。正直なところ、Unrealは本当に印象的なビデオを次々と出していて、私がそれを投稿したり、人々が話しているのを見るたびに、人々はそれが偽物だと思います。
これらのビデオについて明確にしたいと思います。多くの人々が「これは偽物だ、偽物だ」と言いますが、これは偽物ではありません。私たちはこれらのロボットが年々良くなっていくのを何年も見てきました。だから、もしあなたの周りの誰かがこれらのロボットのビデオが偽物だと思っているなら、彼らがどのように良くなってきたのかを振り返って見る必要があります。
いいえ、これは驚くべきことです。Unrealがビデオをリリースしました。彼らのダンスする人型ロボットのビデオです。それは動き回っていて、人々は「これはCGだ」と言います。なぜなら、前回見たものとの飛躍が、単に桁違いに良くなっているからです。
とても流動的で、股関節が動き、信じられないほど見えます。CGに違いない、裏で誰かが操作しているに違いない、何か起こっているに違いないと。そこで彼らは基本的に同じダンスの別のビデオをリリースしましたが、今度はロボットが鏡の前にいて、360度見ることができます。
それでもまだCGかもしれませんが、それだけでなく、ダンス中にものを投げつけたり、棒や板で叩いたりして、これが本物のデモであることを示そうとしています。私は...私は...つまり、あなたは今これが本物だと信じていますよね?
はい、私はしばらくの間、これらが本物だと信じています。ここで興味深いのは、良くなってきているということです。私たちはこれらが良くなっていくのを見てきました。また、もし本当にこれらが偽物だと思うなら、1年前や2年前のBoston Dynamicsのビデオを見直してください。彼らは既に本当に興味深いことをしていました。
現在のUnrealのビデオで異なるのは、以前この番組で話したように、シミュレーション訓練を行い、それをロボットに組み込んでいるということです。だから、流暢にダンスしているように見えるとき、自分でダンスを考え出しているわけではありません。訓練したダンスがあるので、それが上手にできるのです。
ロボティクスの世界で話さなければならないもう1つのことは、Clone Roboticsからのこの狂気的なビデオです。私にとって、これはUnrealのビデオとは正反対です。Unrealのビデオは「ああ、これはクールだ、良い気分になる」と思わせますが、Clone Roboticsのビデオは、私たちが暗い道を進んでいるように感じさせます。
このビデオを説明すると、聞いているみなさん、このビデオについてすべてが間違っています。まず第一に、Clone Roboticsは、あのとても不気味な皮膚のように見えるロボットを作る会社です。
筋骨格系のアンドロイドですね。今回のビデオでは、ロボットの足が床からわずかに浮いた状態で吊るされ、ぴくぴくと痙攣しているような動きをしています。なぜこのような映像を公開しようと思ったのか疑問です。
背景音楽も、この二足歩行の骨格アンドロイドの初お披露目にふさわしくない不気味なものでした。まるでスカイネットの心臓音のような...白い物質に覆われたウエストワールドのような無力なロボットがコンクリートの上で宙吊りにされている様子は本当に不気味です。なぜこんな演出にしたのでしょうか。ハーベイ・ザ・ワンダーハムスターのような楽しい曲を流すべきでしたね。
私たちはユニタリーのソーシャルチームのファンですが、Clone Roboticsのソーシャルチームのファンにはなれません。もっと楽しい使い方を考えるべきです。
その後、convergenceからアップデートがありました。ガイ・フィエリに関する5つの魅力的な書き出しと1つの衝撃的な事実が届きました。彼独特の陽気なエンターテインメントと食への真摯な姿勢は、何百万人もの人々にアメリカ料理の多様性について教えただけでなく、楽しませてきました。まあ、その通りですが、ちょっと平凡な表現ですね。「ドンキーソース」みたいなフレーズを入れるべきでした。
パンデミック中にレストラン従業員のために2000万ドル以上を集めたことは、キッチンの外でも大きな影響力があることを示しています。確かにそれは大きな功績でしたが、書き出しとしては微妙かもしれません。
そして衝撃の事実として、アメリカ料理へのこだわりで知られる彼ですが、実は高校時代のフランス・シャンティイへの留学中にフランス料理への愛着が芽生えたそうです。これは良い情報ですね。本当かどうか確認する必要がありますが。彼が高校時代に作ったフランスのメニューを見せて「これは何?」と聞いてみたいですね。彼は「よく見つけましたね。実はドンキーソースは最初フランスで"リ・ドンク・ソース"として作ったんです」なんて言うかもしれません。
Geminiによると、ウィキペディアから引用して、ガイは高校3年生の時に交換留学生としてフランスに留学したとのことです。検索する必要もなく、Geminiが調べてくれました。他のことを話している間に作業してくれたのがポイントです。
さて、話を宙吊りで踊るロボットに戻しましょう。現時点では宙吊りと踊りの2つのモードしかありませんが、近い将来、破壊モードも解禁されるでしょう。シャ・ライアン・ショーでのパーマー・ラッキーのインタビューは必見です。3時間以上に及ぶ長いものでしたが、とても興味深い内容でした。
パーマーは以前から、人工知能が多くの分野に影響を与えることを予測していました。特に防衛産業は大きな市場であり、多額の資金が動いています。人々は今ではそれをよりよく理解していると思いますが、パーマーは「より良いものを作れる」と考えていました。
彼の言葉を借りると、「私たちの会社が数百億ドルを稼ぐことで、納税者の数千億ドルを節約できる」というのが彼のビジネスの価値提案でした。人工知能やテクノロジー業界では物議を醸す人物かもしれませんが、このインタビューは彼の考えを深く掘り下げた素晴らしいものでした。
例えば、現在パーマーの脚に装着されている外骨格スーツの話題も出てきます。これにより、彼はそれほど体力がないにもかかわらず、8分以内でマイルを走れるようになったそうです。まさに未来的な技術ですが、すでに実用化されているんです。将来的には、数千ポンドの重量を持ち上げたり、疲れずに何マイルも走れたりする装置になるかもしれません。
また、AndrilとMicrosoft、国防総省の共同プロジェクトについても語っています。未来のバイザーを開発中で、私が見ている映像をあなたのヘッドセットにも送ることができ、電波を使って壁の向こう側も見えるようになるそうです。
徘徊型弾薬についても触れています。これは基本的にロケットやミサイルが目標の周りを飛び回り、視覚システムを使って「あれが私が排除すべき人やモノだ」と確認して待機できるものです。
AI搭載ミサイルの優れた点は、人間がレーザー照準器で目標を指し示す必要がないことです。以前は誰かが現場に行ってレーザーを照射し、ミサイルがそのレーザードットを追尾する必要がありました。しかし、このミサイルは現場に到着して「あれは李陽級駆逐艦だ。機関室はあそこで、甲板の最も薄い部分はあそこだ。この角度とスピードでアプローチすれば機関1を破壊できる」というような判断ができます。
これが成功すれば、別のミサイルが反対側から来て機関2を破壊する。もし失敗したり貫通できなかったりした場合は、代わりに機関1を狙うというような連携も可能です。ちなみに彼はこれらすべてを、トレードマークのハワイアンシャツを着て、グミベアを手に持ちながら説明していました。
私たちは以前からパーマーについて番組で話してきましたが、彼が築き上げてきたものは本当に素晴らしい反面、恐ろしい側面もあります。チャットボットなどの技術と比べると、AIを使った軍事技術の怖さは明らかです。大きな懸念の一つは、AIの軍隊を作り上げることです。
これは「ターミネーター」の物語を思い起こさせますが、そこまでは行かないことを願っています。Andrilは基本的に、中国に対抗するためのアメリカの大規模な軍需品を開発する会社です。パーマーは中国の造船能力がアメリカの350倍あり、フェリーでさえ軍事仕様で建造されていると指摘しています。
私たちは中国のモデルやアメリカのモデルについて話しますが、パーマーや他の防衛企業は、これを実際の戦いとして捉えています。このことはアメリカ人にあまり認識されていませんが、彼らは次世代の戦争に向けて準備を進めているのです。怖いけれど、同時に魅力的でもあります。
個人的な意見としては、彼が私たちの側についていることを嬉しく思います。AIを防衛や攻撃に使うことについてどう思うかは別として、彼が味方であることは良いことです。
彼はまた、遠隔操作とAI操作の二足歩行ロボットについても語っています。例えば、前線の砲兵システムでは、通常2〜3人の人間が必要で、彼らは砲弾の装填や照準、発射を行います。しかし、それらの人命は前線にいるため失われやすく、敵の格好の標的となります。そこで、レバーを引いたり重いものを持ち上げたり装填したりするのが得意な1台のロボットで代替できれば、3台のロボットが前線で破壊されても、人命は失われないということです。
将来的には、ロボット同士が大きな開けた場所で戦い、誰も死ななくて済むようになるかもしれません。あるいは、お金を積み上げて、どちらが一番高く積めるか競い、両方のお金を燃やすというのはどうでしょうか。Mr.ビーストのような企画ですね。誰が一番大きなお金のピラミッドを作れるか...
少し明るい話題に移りましょう。Microsoftが新しいミューズゲームAIモデルを発表しました。これはまだ研究段階ですが、とても興興味深いものです。natureに論文が掲載され、サティア・ナデラもこれについて今日言及しています。
これは基本的に、ビデオゲームに特化して訓練された世界モデルのバージョンで、WHAMモデル(World and Human Action Model)と呼ばれています。Ninja Theoryと協力して開発されました。Ninja Theoryはかなり大きなゲーム開発会社で、長い歴史があります。
面白いのは、いくつかの興味深い動画があることです。これは特にNinja Theoryのゲームの一つについてのものですが、以前Minecraftや Google Game Genでも見られたように、AIが生成するビデオゲームのアイデアです。これは事前にプログラムされたものではなく、プレイできるAIモデルを作成するというものです。
特に興味深いのは、これがXbox Studiosによる開発で、Ninja Theoryを含む実際のゲーム開発者が関わっているということです。多くの人々が、自己生成型のサンドボックスゲームの未来について語ってきましたが、MicrosoftがXboxの中でこれを行っているという事実は、一歩前進したように感じます。
このAIは単にプレイヤーを制御して学習するだけでなく、開発者としても使えます。デモの一つでは、生成パネルからアセットをクリック&ドラッグして世界に配置すると、魔法のようにオブジェクトが現れ、AIやプレイヤーがそれと相互作用できます。どこまでが概念実証で、どこまでが装飾的なグラフィックスなのかは分かりませんが、アセット作成から物理演算、ゲームプレイループまで、AIがすべてに影響を与えることは明らかです。
サティア・ナデラ自身がこれについてツイートしており、同日に発表された非常に興味深い量子コンピューティングの進歩についても触れています。時間の関係で詳しく説明できませんが、ぜひ読んでみてください。Microsoftは間違いなく前進しています。
おっと、速報が入ってきました!これは予想外のことで、事前の予定にはなかったものです。「AI for humans」ポッドキャストのホストのために、Amazonで11万ドル分の商品を購入するとしたら、どのような大型購入品が喜ばれるでしょうか?高評価の商品とその理由を教えてください」というのが、convergenceに与えた抜き打ちタスクでした。
私たちの視聴者は「シュガー・スクワッド」と呼んでいます。パトレオンにチップ用の投げ銭箱があり、月額5ドルで支援できます。誰かが1万ドル単位で大きな支援をしてくれることを期待して...
高評価のAmazon商品をいくつか紹介します。まず、Instant Pot Duoプラスで49.95ドル。これは9つの一般的なキッチン家電を置き換えられる多機能調理器で、クイック&イージーな料理が好きなホストに最適です。次に、炭酸バブルクレイマスクで865ドル...なんてことだ!
基本的に、高評価の商品を見つけただけで、私たちのことは全く考慮に入れていませんね。1万ドルの予算制限も考慮されていません。最も高価な商品でも、ポータブルエスプレッソメーカーの54ドルです。基本的なGoogle検索をして、BuzzFeedの「Amazonで絶対に持つべき69のアイテム」のような記事を参照しただけのようです。
これはAIエージェント全般の問題です。まだ情報を改善するためにエージェント同士が対話するレイヤーが必要だと思います。実際のウェブはまだガラクタの山ですから。
話は変わりますが、シャツに付けて着用するAIピン、重すぎてシャツを引っ張り下ろしてしまうあのデバイスですが、2000万ドル以上の投資を集めたにもかかわらず、HPに1600万ドルで売却されました。これは投資額を大きく下回る金額で、主にエンジニアの人材確保が目的だったと言われています。大きな話題を呼んでほぼ即座に失敗に終わったこの製品は、今では影を潜めています。
彼らのウェブサイトでの発表で最も面白かったのは、「2025年2月28日以降もAIピンをオフライン機能で使用できますか?」という質問への回答です。「はい、AIピンはバッテリー残量の確認などのオフライン機能は引き続き利用可能です」とのこと。つまり、700ドルを払ってAIピンを購入した人は、バッテリー残量を確認できるということです。とても素晴らしいですね。
時刻表示さえオフラインモードで動作するかどうか疑問です。おそらく携帯電話のモデムが必要でしょう。この会社は非常に早い段階で登場し、多くのことを約束しました。これはrabbit R1と同時期に発表されましたが、R1は現在も存在し、アップデートが続いています。
全般的に、AIデバイスに関する議論は時期尚早だったと思います。まだ準備が整っていませんでした。多くのAIデバイスが開発中であることは分かっています。サム・アルトマンとジョニー・アイヴがiPhoneに取って代わるAIデバイスやスマートフォンの開発に取り組んでいるという話もありますが、それは後の話です。
ここで、Humaneのために追悼の歌を歌いましょう。今日、私たちはHumaneに別れを告げなければなりません... (音楽) ...Humaneよ、愛をありがとう、涙をありがとう...(拍手)
さて、今週インターネット上でAIを使って作られた素晴らしいものをいくつか紹介しましょう。まずRedditの面白い投稿から。誰かが子供の顔を使って面白い年鑑ページを作り始めました。これはAIがまだ楽しい方法で「壊れている」ことを示す良い例です。
真ん中に巨大な耳と毛深い顔を持つ奇妙な子供がいる画像があります。私も同じことをやってみました。プロンプトは「奇妙な子供の名前が書かれた面白い年鑑ページ」でした。完璧な結果は得られませんでしたが、面白い結果が出ました。これは好きな画像モデルで試してみると楽しいAIプロンプトですね。
もしAIを使った「Guess Who?」ゲームを作る人がいたら、私は大好きになると思います。一見普通だけど少し奇妙な子供たちの中に、恐ろしいモンスターやエイリアンのグレムリン、変な口髭の子供たちが混ざっているのが面白いです。あなたの試みも素晴らしいですね。
Redditの投稿ではありませんが、科学的な飛躍の可能性があるものとして、思考からアクションを起こすモデルがあります。MEGやEEGを使用して脳の活動を読み取り、あなたが次に何を入力しようとしているかを約80%の精度でリアルタイムに予測できるモデルです。
拡張現実やAR技術について話す際、音声入力ができない場所でも、テキスト入力を頭の中で考えるだけで画面に表示できるようになるかもしれません。これはMetaが発表した研究論文で、Metaには多くの優秀な科学者が在籍していますが、このような研究成果が十分に注目されていないこともあります。
イーロン・マスクはNeuraLinkで脳インターフェースの研究を進めていますが、彼らが主張しているのは、脳に埋め込み型デバイスを必要とせず、EEGデバイスで頭を読み取るだけでよいということです。将来的には、電子アフロのような大きなものを頭に着けて脳を読み取るようになるかもしれません。
面白いのは、この論文の中で、まるでプロフェッサーXが使うような巨大な脳読み取り椅子のような装置に人が座っている様子が映っていることです。もしかしたら、これが私たちの未来かもしれません。巨大な脳読み取り装置を使って、お互いの心を読み合えるようになるかもしれません。
次に、Sanimaticというユーザーによる投稿があります。これはAIアートに批判的な人々に対して、アーティストがAIツールを使って短時間で何ができるかを示す良い例です。
使用していたツールは正確には分かりませんが、Kreaのような画像変換モデルのようです。このアーティストは、宇宙船に乗る2人の人物の大まかなアニメーション風のデザインを作り、それほど細かい部分は描き込まず、画像モデルに通し、さらにビデオモデルでアニメーション化しました。
この人が最初に作ったものを見ると、明らかにアーティストであることが分かります。それが映画のワンシーンのように変身しました。「AIはアートではない」とか「AIはアーティストにとって役に立たない」と言う人々に見せるのに最適な例です。これはまさにAIがアーティストにとってどれほど有用で、ハリウッドのパイプラインをどう変えるかを示しています。
同様に、私たちの友人でもある歴史的なゲームデザイナーのクリフ・ブレジンスキー、Jazz Jackrabbitから Unreal Tournament、もちろんGears of War、さらにはFortniteまで手がけた彼は、ゲームデザインから長い休暇を取っていましたが、最近また少しずつ戻ってきています。
彼はTwitterで「Panic Garden」というゲームのDropboxリンクを共有しました。ゲームやゲームデザインに少しでも興味がある人にとって、文書の書き方、世界観やメカニクス、キャラクターの説明方法を見るのはとても興味深いです。また、概念実証を開発するためにAIアートを使用したMidjourneyのフォルダも共有しています。
ゲームコミュニティは特にAIに対して非常に批判的な声を上げてきましたが、このように著名なゲームデザイナーが「これらのツールを使って自分のビジョンを伝えようとしている」と言うことで、パイプラインにAIが関わることをより受け入れやすくなっているように思います。
コンセプトアートはAIの素晴らしい使用例です。AIを完全に嫌う人もいますが、このような生成を素早く行い、美的な部分について議論することができます。先ほどのSanimaticの作品のように、基本的な形や雰囲気を作り、そこからスクリーンショットを作るのにも使えます。
最後に、ロボット工学の実世界での面白い使用例を紹介します。ゴールデンステイト・ウォリアーズのステファン・カリーが、バスケットボールを返すロボットを使用している動画です。このロボットは、AmazonがVQ用に設計したロボットを思い起こさせます。人型ではなく、文字通り床の上を移動してボールがどこに行くかを見つけ、次のボールを投げ出すバスケットのような形をしています。
これは実世界で本当に役立つ機能的なロボットの一例で、今後もっと見られるようになるでしょう。少し変わった見た目のロボットですが、理にかなっています。背景には、ボストン・ダイナミクスのロボット犬が歩き回っているのが見えます。このオラクルブランドのジムにはいろいろなものがありますね。
面白い使用例のロボット工学ですが、トヨタはもっと進んでいます。ギネス世界記録のアカウントが12月にツイートしたように、トヨタはバスケットボールのシュートロボットを作りました。世界最大のフリースローシュートロボットです。私たちにはフィッシャープライスのような、ボールを返すだけの小さなものがありますが、トヨタは完全なジャンプシュートを実現しています。
各々がサイバーボールへの一歩近づいています。何度も言っていますが、ロボットスポーツの始まりが待ち遠しいです。
ロボットスポーツと言えば、私たちのニュースレターをフォローするのも素晴らしいスポーツです。毎週火曜日の朝に配信される私たちのニュースレターでは、その日の最も大きな話題やクリエイティブツールについて深く掘り下げています。ぜひ購読してください。AIforhumans.showのウェブサイトから簡単にリンクを見つけることができます。他のコンテンツと同様に成長を続けており、人々に喜ばれていることを示しています。
今週のAIについて、私はまだお気に入りのAIビデオツールであるV2(GoogleのAIビデオツール)を使用していました。これは現在、YouTube Shortsの生成アプリで一般公開されています。YouTubeアプリ内で利用できます。
YouTubeモバイルアプリで、オリジナルのショート動画を撮影するように+ボタンを押し、スマートフォンにある動画を選択する代わりに空のボタンを押すと、ビデオインターフェースが表示されます。そこでプロンプトを入力すると、V2のターボモデル(完全版ではなくターボ版)を使用して動画が作成されます。
私は、ターミネーターのロボットやマスコットが発見され、映画に出演するまでのストーリーテリング動画を作りました。ただし、モデル自体は問題ありませんが、YouTubeアプリ内での編集は完全な悪夢でした。とても難しかったです。改善されることを願っていますが、現時点ではYouTubeアプリを開いてV2やそのバージョンを試すことができ、かなり高性能です。
何を生成できるかについては制限があり、フラストレーションを感じるでしょう。人間を含むものを生成できないことがあったり、何らかの理由で動画を生成できないこともあります。私の作った動画には、授賞式のステージ上の2人の静止画が含まれていますが、これは静止画は生成できたものの、その場面の動画は生成できなかったためです。このような奇妙な制限がありますが、最先端のAIモデルが一般に公開されているのは素晴らしいことです。
直面している障壁はAIモデル自体の問題ではなく、ユーザーインターフェースの問題です。いずれは改善されるか、有料版が出るでしょう。現在は無料で、YouTubeアカウントがあれば誰でも使えます。
基本的には、YouTube Shortsを強化し、より多くのコンテンツを作ってもらうことが目的だと思われます。5秒程度の出力しか得られず、コントロールもあまりできません。V2と同様に画像から動画を作る必要があり、まず画像を生成してからアニメーション化する必要があります。最高のコントロールとは言えませんが、無料で今すぐ使えます。
今週のキーポイントとして、スプリンガー風の最後の考察として、視聴者やリスナーに何を伝えましょうか。「いいね」、「購読」、「コメント」、「5つ星の評価」以外に...うーん、それは良い質問ですね。
それでは皆さん、さようなら、また次回お会いしましょう。