超知能を解き放つためにGoogleの新しいAIが世界を再創造する
6,623 文字
はい、人工知能の分野では進化が止まることはありません。これがGoogleの人工知能に関する最新の野望です。物理的世界を丸ごとシミュレートするために設計された新しいシステムです。これは現実であり、Google DeepMindで今まさに起こっています。これが何を意味するのか、なぜGoogleがこれを汎用人工知能への重要な道筋だと考えているのか、そして彼らの包括的な戦略にどのように組み込まれているのかについて話していきましょう。
これには、噂の大規模なGemini 2.0アップデートも含まれています。また、WorkspaceでのAIアクセシビリティに関する重要な発表や、特にMicrosoft、Meta、OpenAI、その他に対するAIレースにおいてこれらがどのように位置づけられるのかについても見ていきます。
まずは最初から始めましょう。AIニュースを見逃したくない方はぜひチャンネル登録をお願いします。Tim Brooksは昨年秋にOpenAIを退社し、Google DeepMindに加わりました。彼は現在、世界のシミュレーションに特化した新しいチームを率いています。
簡単に言えば、彼らは私たちの惑星の物理法則を理解し再現できるAIモデルを作ろうとしています。正直なところ、これは途方もない挑戦です。世界のシミュレーションとは何かと疑問に思われるかもしれませんが、本質的にはマルチモーダルなデータストリームで AIシステムを訓練することです。マルチモーダルデータストリームとは、動画、音声、さらにはロボットのセンサーデータなど、異なるタイプのデータのことです。
彼らは、AIが特定の環境で何が起こるかを予測できるようにするために、これらすべてのデータを必要としています。私たち人間が日常的に無意識のうちに物理法則の知識を使用するのと同じように。率直に言って、これはすべてのAI研究者の究極の夢です。これらのシステムが非常に高度になり、AGI(汎用人工知能)、つまりあらゆる面で私たちを超える真の人工知能への道を開くことです。
Brooksによれば、このプロジェクトの規模は本気です。彼は、GoogleのGemini(Googleの大規模言語モデル)、Googleのビデオ生成AIであるPartia、そしてGenieなど、他のGoogleのAIプロジェクトと密接に協力しています。これらの技術については既にチャンネルで取り上げており、Geminiはしばらく注目を集めています。これはGoogleの次世代大規模言語モデルです。前述の通り、PariahはGoogleのビデオジェネレーター、そしてGenieは1枚の画像から3Dオブジェクトや世界を生成できるモデルです。
ここで事態は非常に興味深くなります。これらの技術をすべて組み合わせると、つまり巨大な言語モデル、非常に高度なビデオ生成モデル、そして完全な3D環境を生成する能力を組み合わせると、パズルのピースがどのように組み合わさって、現実世界の物理学の観点で考えることができるAIを作り出すのかが見えてきます。
これはすべて、Googleのスケール仮説への確信に通じています。これは本質的に、AIモデルにより多くのデータとパラメータを供給し続ければ、進歩し続けるという仮説です。このチャンネルでこの仮説についてよく話していますが、私はこれを時々スケールの法則と呼んでいます。これはAI界でよく知られている概念です。最近では、JensenがCES 2025のプレゼンテーションで公に言及しました。
しかし、批評家たちは単なるスケーリングで達成できることの限界に近づいているかもしれないと指摘しています。スケーリングとは、プロジェクトの規模と比率の拡大のことです。これらの批評家たちにとって、データには限りがあり、巨大なモデルのトレーニングによる環境への影響は相当なものです。
両方の視点を共有したいと思います。一部の専門家は、単に大きなモデルを作るのではなく、新しいアーキテクチャが必要だと主張していますが、現時点ではGoogleは既存の手法を倍増させていることは明らかです。一部の批評家は物事を再考する必要があると指摘していますが、今のところスケールの法則は常に実証されています。つまり、モデルにより多くの計算能力を提供すれば、減速の兆候なく進歩し続けているのです。
この法則がどこまで続くのかはわかりませんが、今のところ非常に大きな影響を持っています。興味深いことに、この新しい世界シミュレーションチームの求人広告では、AGIに到達するためにビデオやマルチモーダルデータへの移行が不可欠だと明確に述べています。彼らにとって、これはAGIに到達するための必須のステップなのです。
また、米国マウンテンビューの本社で世界モデリングのリサーチエンジニアも募集しており、現在利用可能な計算能力の限界までシミュレーターを押し進めたいという意欲が伺えます。
しかし、なぜ実際の世界全体をシミュレートする必要があるのでしょうか?非常に簡単に説明させていただきます。すぐに理解できると思います。まず、物理法則を正確にシミュレートできれば、仮想環境でロボットを訓練することができます。これは実世界で失敗するよりも遥かに安全で、はるかに低コストです。
歩行を学習する必要のあるロボットを想像してください。実際に物理的な世界で構築して配置し、物理的につまずかせる代わりに、実際の地面の上を歩けるようになるまで、シミュレートされた環境で訓練することができます。
さらに、ビデオゲームやインタラクティブエンターテインメントの開発者は、これらの超高度な物理シミュレーションを統合して、驚くほどリアルなゲーム世界を作り出すことができます。私の視聴者の中にビデオゲームファンがいれば、物理法則を学習したAIによって駆動される、物体や環境がほぼ完璧なリアリズムで動作するゲームをプレイすることを想像してみてください。
しかし、これはゲームやロボット工学だけにとどまりません。研究者たちは、これらの高度なシミュレーターを科学実験に使用することができます。これは私が最も興味を持っていることで、本当に見てみたいと思っているものです。例えば、気象モデルのシミュレーションや、人口内でのウイルスの伝播のモデル化など、実世界で物理的に実験する必要なく行うことができます。
さらに重要な点として、これらのシステムはリアルタイムのインタラクティブな会話シナリオで役立つ可能性があります。AIが文脈、環境、さらには空間内での身体言語を理解する必要がある場面です。まるでSFの未来映画の中にいるような感覚になってきます。
ところで、近未来の話といえば、GoogleがGeminiモデルの主要なアップデートをリリースするという噂が出回っていましたが、それについて見る前に、現在進行中の新しいプロジェクトについて少しお話ししたいと思います。
ご存知の通り、このチャンネルではAIに関するすべてのリリースとニュースを分析しています。私の目標は、この素晴らしい技術をできるだけ多くの人に知ってもらい、特にAIに関する意識を高めることです。すでにお話ししましたが、私の周りの人々と話をすると、AIが何であるかを本当に理解していない人が多いのです。AIが社会に与える影響、その巨大な影響について理解していません。
既に申し上げた通り、このチャンネルでは商品のプロモーションは行っていません。できるだけ本物の情報を維持したいと考えています。そのため、トレーニングコースを作成しました。生活のあらゆる面でAIの使用方法を学びたい方のためです。
この動画をご覧の方は、ChatGPTなどのAIをすでに使用している可能性が非常に高いと思います。AIツールの使用方法をさらに深く理解し、生活のあらゆる面にどのように適用するかを正確に知りたい場合は、動画のピン留めされたコメントにリンクを残しておきますので、ご興味のある方はぜひご覧ください。
また、Vision AIコミュニティにもアクセスできることを付け加えておきます。このプロジェクトを開始してからまだ間もないですが、すでに100人以上の方がトレーニングを購入してくださっています。素晴らしいことに、皆さん様々な分野から参加されており、学んだツールを特定の分野にどのように適用するかについて、定期的に皆さんと議論するのが大好きです。本当に興味深いです。
申し訳ありません、少し話が逸れてしまいました。これ以上時間を取らずに、すべてのリンクは動画の説明欄またはコメント欄にあることをお伝えしておきます。
さて、2025年1月23日、この動画をご覧になる時期によっては2、3、4日前になりますが、GoogleはGemini 2.0 Flash Thinkingをリリースしました。フランス語では「クリアシンキング」または「ラピッドシンキング」と訳すことができます。この情報は当初、Googleのライブイベントで、Pon Weangという人物が詳細を明らかにした際に漏洩しました。
ご理解の通り、Flash Thinkingという名前は、より速く、よりダイナミックな推論を示唆しています。これは、ここで達成しようとしているリアルタイムシミュレーションのような作業における迅速な意思決定に役立つ可能性があります。そのため、ご理解の通り、これはGoogle DeepMindの新しい世界モデリングミッションに完璧に適合します。
Googleの計画は、おそらくこのFlash Thinking機能をAI Studioプラットフォームに統合することで、開発者に高度なシステムを構築するための使いやすいインターフェースを提供することでしょう。しかし、Googleが公開した求人広告、世界モデリングリサーチエンジニアの職位について簡単に振り返りたいと思います。
この職位では、大規模なスケールに関連する最も複雑な問題の解決、これらのシミュレーターを大規模にトレーニングすること、彼らが「物理的インテリジェンス」と呼ぶものの指標を開発すること、リアルタイムのインタラクティブな生成との取り組み、そしてこれらすべてをマルチモーダル言語モデルとどのように統合するかを理解することに重点が置かれています。
求人広告には必要なスキルの詳細が続いています。これは巨大な課題です。なぜなら、単にテキストや画像を分析するだけでなく、文字通り、今日のAIが理解していない物理法則や自然法則の深い理解を伴う、リアルタイムの3Dダイナミックマップを構築することについて話しているからです。
この広告は、「苦い教訓」として翻訳できる「Bitter Lesson」というAIの概念にも言及しています。これは本質的に、より単純な方法が多くの場合、手動で作成された複雑なソリューションを上回るというAIの概念です。これは、複雑なボトルネックを避けながら、可能な限りアーキテクチャをシンプルで直接的に保ち、このスケーリングアプローチを推進し続けることができることを意味します。
しかし、パズルのもう一つの重要な要素があります。GoogleはWorkspaceのすべての加入者にAI機能を無料で提供することで、企業戦略も変革しています。以前は、Gemini Businessにアクセスするために、ユーザーごとに月額20ドルの追加料金が必要でしたが、現在ではGoogleはこのコストを標準のWorkspaceサブスクリプションに組み込んでいます。
具体的には、企業は以前の支払い壁なしに、スプレッドシートの自動デザイン、会議の要約、AIによるノート取り、ビデオ編集など、これらすべてのAI機能にアクセスできるようになりました。一方、Microsoftもこのレースに参加しており、Microsoft 365用のCopilotのチャットの無料バージョンを、従量制支払いオプション付きでリリースしています。実際、Microsoftは高度な機能をすべて望むユーザー向けに、月額30ユーロのプレミアムソリューションを提供し続けていますが、GoogleとMicrosoftが同じ週にAIをより身近にしたという事実は、現在のAI軍拡競争について多くを物語っています。
お分かりの通り、各企業は可能な限り多くのユーザーを自社のAIエコシステムに引き込もうとしています。戦略は次のようです:もし誰もがAIを使用すれば、ブランドへの忠誠心を生み出し、より多くのユーザーデータを収集でき、それによって自社のモデルを改善し、次世代のAIを提供するレースの先頭に立ち続けることができます。
Googleのクラウドアプリケーション部門の社長であるJerry Dillerは、企業によるAIの採用における主な障壁は常にコストだったと説明しています。追加料金を削除し、基本的なWorkspaceサブスクリションを少し値上げすることで、Googleは本質的に次のように言っているのです:「この大きな金銭的障壁なしに、すぐにAIの価値を見てほしい」。
ご理解の通り、Googleの観点からすると、既存のスイートにAI機能を統合することで、最終的に障壁を減らし、より多くの人々に試してもらうことができるかもしれません。さらに、これらのツールの力、AIがいかにすべてを変えつつあり、これからも変えていくかを人々に理解してもらうのに役立つかもしれません。
しかし、グローバルな観点からすると、これはAIの採用を加速させるための大胆な一手です。より多くのユーザーにAIを開放することが、Googleが目指す世界モデルのような野心的なものにどのように結びつくのか疑問に思われるかもしれませんが、それは非常にシンプルです。より多くのユーザーは、より多くのデータを意味し、したがってより多くのフィードバックループを意味します。
これは一種の歯車のようなもので、メールの作成やデータ分析など、人々が実際にどのように働き、AIを本当にどのように使用しているかについて、AIにより深い洞察(視点)を与えます。これを巨大なビデオライブラリ、高度な3Dモデリング、リアルタイムのロボットデータと組み合わせると、突然、テキストを処理するだけでなく、シミュレートされた環境でオブジェクトがどのように振る舞うべきかを予測するAIが出現するのです。
もちろん、真の世界モデルを構築することには多くの課題があります。物理法則は複雑で、データは膨大で、倫理的な懸念も無視できません。もちろん、Google DeepMindのTim Brooksは、この目的のための学際的なチームワークを強調しています。
その間、最終的に確認されたGoogle Gemini 2.0 Flash Thinkingの噂は、特にMicrosoftとのAIレースが2025年に激化する中で、大きな前進を予感させます。3日前に米国が発表した巨大なStargateプロジェクトを見逃すことはできなかったでしょう。これは本当にAIの世界における新時代を告げるものです。米国はAIに大きな一歩を踏み出しています。
私たちは、AIが物理的世界を真に理解し、他の多くのことも理解する未来に向かって進んでいます。この動画で説明したように、AIの物理的世界の創造について、皆さんはどう思われますか?コメント欄でお聞かせください。皆さんの意見を聞かせていただきたいです。速く実現すると思いますか、それともそうは思いませんか?個人的には、2025年末までには実現すると考えています。
最後にもう一つ、AIがメインストリームになりすぎる前に、AIを学ぶ機会を逃さないでください。すべてのリンクは説明欄またはピン留めされたコメントにあります。また、現在発生している技術やAIのニュースを見逃したくない場合は、科学ニュースについて1日1~2本の動画を作成していることをお伝えしておきます。今年は科学ニュースに関して完全にクレイジーな年になりそうな予感がしています。ぜひチャンネル登録をお願いします。ありがとうございました。次のニュースでまたお会いしましょう。