NVIDIAがついに明かす2025年のAIの未来
4,525 文字
ほなNVIDIAのCEOであるジェンセン・ファンがインドのAIサミットで特別講演をしはったんですわ。この講演がめっちゃ面白かったんは、AIの全体的な方向性についての洞察を与えてくれたからなんです。AIについての講演言うたらようけあるんですけど、この講演は多くの人が注目してへん3つの重要なトピックを扱うてはったんです。
1つ目は、AIが新しいパラダイムに移行する中での推論時間についてです。ご存知の通り、新しい01モデルは実際に話す前に考えるんで、モデルの応答がより賢くなるんです。
それから、エージェントと職場への影響についての話もありましたし、最後には人型ロボットを使った物理的AIが将来世界をどう変えるかについての興味深い展望も得られました。
ほな、この講演の要点を手短にまとめさせていただきますわ。最初のポイントとして、新しい推論時間AIについて話されたんです。これは、システム1とシステム2の思考方法の違いについてです。システム1は誰かが質問したときにすぐに応答できる即座の思考で、システム2は計画的で、推論を重ねて結論に至る思考方式なんです。
これは推論時間のスケーリング則で、考える時間が長くなればなるほど、より質の高い答えが得られるんです。これは全然非論理的じゃなくて、むしろ直感的なもんなんです。例えば、好きなインド料理は何かって聞かれたら、チキンビリヤニやって即答できますやん。そんなに考える必要もないし、理由付けも要らへん。
NVIDIAが何に長けてるかって聞かれても、AIスーパーコンピューターの製造やGPUの製造やって、すぐ答えられますわな。でも、例えばムンバイからカリフォルニアまで4つの都市を楽しみながら行きたいってなったら、もっと複雑な推論が必要になってきます。
今朝の3時にデンマーク経由で到着して、その前はオーランドにおって、その前はカリフォルニアにおったんですけど、まだ今が何日目かも把握できてへんくらいです。でも、ここにおれて嬉しいです。
もし制約条件をいろいろ設定して、3日以内にカリフォルニアからムンバイに行きたいって言うたら、出発可能な時間、ホテルの好み、会う必要のある人などを考慮せなあかんので、その組み合わせは膨大になります。そういう最適な計画を立てるのは非常に複雑で、そこで思考、推論、計画が重要になってくるんです。
計算時間が長くなればなるほど、より質の高い答えが得られる。だから今、私たちの技術開発を導いているのは、トレーニングと推論という2つの基本的なスケーリング則なんです。
次に、エージェントについて話しますわ。エージェントは目前に迫っていて、2025年は自律型AIが支配的になる年になりそうです。職場で見かけることになるやろうし、個人向けにもいろんなことができるようになります。2025年の終わり頃には、有料・無料を問わず、様々な商品やサービスを提供できる自律型AIエージェントシステムが登場すると予想されます。
ほな、もう少し別のアイデアも紹介させていただきます。先ほど、Blackwellや加速ライブラリについて話しましたが、その上に私たちが開発している2つの重要なプラットフォームがあります。1つはNVIDIA AI Enterprise、もう1つはNVIDIA Omniverseです。
NVIDIA AI Enterpriseについて説明させていただきますと、大規模言語モデルと基本的なAI機能が、エージェントと呼ばれるものを作れるレベルまで到達した時期なんです。このエージェントは、ストリーミングデータ、ビデオデータ、言語モデルデータなど、あらゆる種類のデータを理解できます。
最初の段階は知覚で、次に観察に基づいて任務や実行すべきタスクについて推論します。エージェントはそのタスクを複数の手順に分解して、必要なことを推論し、他のAIモデルと接続します。PDFを理解するモデル、画像を生成するモデル、専用データベースからAIセマンティックデータを取得するモデルなど、様々なモデルがあります。
これらの大規模言語モデルは、エージェントと呼ばれる中央推論大規模言語モデルに接続されています。これらのエージェントは、マーケティング、カスタマーサービス、チップ設計など、様々なタスクを実行できます。NVIDIAには社内のチップ設計を支援するエージェントがたくさんおります。
ソフトウェアエンジニアリング、マーケティングキャンペーン、サプライチェーン管理などのエージェントもあります。これらのエージェントは従業員をスーパー従業員に変えるんです。エージェント型AIモデルは、全従業員の能力を強化して生産性を向上させます。
これらのエージェントを会社に導入する方法は、新入社員の受け入れと似ています。トレーニングカリキュラムを提供し、スキルの使い方や会社の用語を理解させるためにファインチューニングし、評価システムで評価します。また、会計エージェントにはマーケティングをさせない、マーケティングエージェントには四半期決算の報告をさせないといったガードレールも設定します。
これらのエージェントのライフサイクル全体を管理するライブラリ群をNemoと呼んでいます。パートナー企業と協力して、これらのライブラリをプラットフォームに統合し、エージェントの作成、導入、展開、改善ができるようにしています。
一方でライブラリがあり、もう一方でその出力はNimsと呼ばれるAPIインファレンスマイクロサービスになります。これはAIを構築する工場で、Nemoはそれらを導入・運用するためのライブラリ群です。最終的な目標は、多くのエージェントを作ることです。
次に、物理的AIについての非常に興味深い話がありました。エージェントとAIがデジタルで超高速に動作するのは素晴らしいんですが、物理的な世界にどう影響を与え、物理的なオブジェクトを操作し、実世界で目標を達成するのか。それが人型ロボットと物理的AIなんです。
ここで、物理的AIが本当にどこに向かっているのかについての興味深い洞察が得られました。エージェントの次に何が来るのか。全ての企業には従業員がいますが、ほとんどの企業の目的は何かを作ること、生産することです。
それは工場や倉庫、車、飛行機、列車、船などかもしれません。NVIDIAが作るサーバーや携帯電話もそうです。最大の産業界のほとんどの企業は何かを生産しています。ITのようなサービス業もありますが、多くの顧客は何かを生産することに関わっています。
次世代のAIは物理的な世界を理解する必要があります。私たちはそれを物理的AIと呼んでいます。物理的AIを作るには3つのコンピューターが必要で、私たちはそのために3つのコンピューターを作りました。
まず、モデルのトレーニング用のDGXコンピューター。BlackwellはDGXコンピューターを作るためのリファレンスデザインとアーキテクチャです。そのモデルは改良され、学習し、物理的能力やロボット能力を適用する場所が必要です。
それを私たちはOmniverseと呼んでいます。物理法則に従う仮想世界で、ロボットがロボットとしての学習をできる場所です。トレーニングが完了したら、そのAIモデルは実際のロボットシステムで動作します。
そのロボットシステムは車や、ロボット、自動運転車、自律移動ロボット、ピッキングアーム、ロボット工場全体や倉庫全体かもしれません。そのコンピューターをAGX Jetsonと呼んでいます。つまり、トレーニング用のDGX、デジタルツイン用のOmniverse、そしてAGX Jetsonです。
インドでは、この基盤とケイパビリティのエコシステムを活用して、世界の物理的AIシステムの構築を支援する素晴らしいエコシステムが構築されています。
最後に講演全体の短いまとめがありました。ソフトウェア1.0からソフトウェア2.0への移行、AIエージェント、そして人型ロボットが爆発的に進化する話です。NVIDIAはこの分野で多くのことを行っているので、AI エコシステム全体をNVIDIAがどのように変えようとしているのかについての新しいビデオを皆さんにお見せできるのが待ちきれません。
60年間、プログラマーが書いたソフトウェア1.0のコードは汎用CPUで動作していました。そしてソフトウェア2.0が登場し、GPUで動作する機械学習とニューラルネットワークが生まれました。これは、学習して何でも生成できる生成AIモデルのビッグバンにつながりました。
今日、生成AIは100兆ドルの産業革命を起こしています。知識企業はエージェント型AIでデジタル作業を自動化します。「こんにちは、私はデジタルヒューマンのジェームスです」。産業企業は物理的AIを使って物理的作業を自動化します。
物理的AIは、実世界を安全に移動する自動運転車、複雑な産業タスクを実行するマニピュレーター、私たちと協力して働く人型ロボットなどに組み込まれています。工場やプラントは物理的AIに組み込まれ、運営を監視・調整したり、私たちと対話したりできます。
NVIDIAは開発者が物理的AIを作成できるよう3つのコンピューターを構築しています。モデルはまずDGXでトレーニングされ、AIはOmniverseで物理フィードバックを使った強化学習で微調整とテストが行われ、トレーニングされたAIはNVIDIA Jetson AGXロボティクスコンピューターで動作します。
NVIDIA Omniverseは、物理的AIシミュレーション用の物理ベースのオペレーティングシステムです。ロボットはOmniverse上に構築されたロボットジム、Isaac Labでスキルを学習し、微調整します。
これは1つのロボットの未来ですが、工場ではロボットチームを統率し、何千ものセンサーを通じて操業全体を監視します。工場のデジタルツインには、Megaと呼ばれるOmniverseのブループリントを使用します。
Megaを使用すると、工場のデジタルツインは仮想ロボットとそのAIモデル(ロボットの脳)で構成されます。ロボットは環境を認識し、次の動作を推論・計画し、最終的にそれを行動に変換することでタスクを実行します。
これらの行動はOmniverseの環境でシミュレートされ、その結果はOmniverseのセンサーシミュレーションを通じてロボットの脳に認識されます。センサーシミュレーションに基づいて、ロボットの脳は次の行動を決定し、このループが続きます。
一方、Megaは工場のデジタルツイン内のすべてのものの状態と位置を正確に追跡します。このソフトウェアインザループテストにより、物理的な空間と実体にソフトウェア定義プロセスがもたらされ、産業企業は物理的な世界に展開する前にOmniverseデジタルツインで変更をシミュレートและ検証でき、大きなリスクとコストを削減できます。
物理的AIの時代が到来し、世界の重工業とロボット工学を変革しています。