ジェンセン・フアンついにAIの2025年の未来を語る... [NVIDIAのマスタープラン]

2024年11月8日 06:33

9,436 文字

ほなみなさん、NVIDIAの創業者兼CEOのジェンセン・フアンがインドのムンバイで開催されたAIサミットでプレゼンテーションを行いましたんや。AIの進歩を牽引している人物として、彼は物事がどの方向に向かっているのかについて、すごくええビジョンを持ってはるんです。
NVIDIAとして、これからのAIの発展に欠かせへんいくつかの興味深い概念と、それに伴うインフラの変化について紹介してくれはったんやけど、まずは1964年まで時をさかのぼってみましょか。
汎用コンピューティング、つまりCPU（中央処理装置）というコンピューターの汎用的なワーホースの考え方からスタートしてます。コンピューティングのニーズが高まるにつれて、ムーアの法則のおかげでCPUの処理能力は急速に向上してきたんです。
でも今、ムーアの法則の限界に達しつつあるんです。もうトランジスタをチップに詰め込んでいくだけでは、同じような指数関数的な成長は期待できへん。せやから、特にAIに関して次の大きな飛躍は何なんでしょう？
ここで登場するのが、アクセラレーテッド・コンピューティングです。私らの多くがビデオゲームに使うNVIDIAのグラフィックスカードのようなGPU（グラフィックス処理装置）のことはご存知やと思います。フアンによると、特定のプロセス向けのアクセラレーテッド・コンピューティングこそが、汎用コンピューティングにおけるムーアの法則のような新しい「フリーライド」になるんやと言うてはります。
CPUのスケーリングが限界に達した今、もはやムーアの法則のフリーライドは終わってしまいました。何か違うことをせなアカン。せんかったら、コンピューティングのインフレーションを経験することになってしまう。実際、世界中でそうなりつつあるんです。
ソフトウェアで何もせんままでは、もうコンピューティング体験の向上は期待できへんし、コストの低減も、より大きな課題を解決することからの恩恵も得られへんようになってきてます。
うちの会社は、ソフトウェアを加速させるために始めたんです。汎用コンピューティングを補強すれば、アプリケーションは加速の恩恵を受けられる、というビジョンがありました。非常に計算集約的なワークロードをオフロードして、私らが発明したCudaというプログラミングモデルを使って加速させる。このCudaによって、アプリケーションを驚異的に加速させることが可能になったんです。
汎用コンピューティングでは不可能か非実用的やった応用分野に対して、アクセラレーテッド・コンピューティングの恩恵を実現できるようになりました。例えば、リアルタイムのコンピューターグラフィックスは、NVIDIAが登場してGPUというこの新しいプロセッサを可能にしたからこそ実現できたんです。
GPUは、Cudaとコンピューターグラフィックスを実行する、最初のアクセラレーテッド・コンピューティングアーキテクチャやったんです。完璧な例やと思います。私らは3Dグラフィックスを民主化しました。今では文字通りどこにでもあって、ほとんどどんなアプリケーションでも使えるメディアになってます。
でも長期的に見ると、アクセラレーテッド・コンピューティングはもっともっとインパクトを与えられると感じてました。そこで過去30年間、次々と異なる応用分野を加速させる旅を続けてきたんです。
これにこんなに時間がかかった理由は単純です。世の中のすべてを加速できる魔法のプロセッサなんてありませんからね。もしそんなものがあったら、それはもうCPUって呼ばれてるでしょう。アルゴリズムから下層のアーキテクチャまで、コンピューティングスタック全体を作り直して、上のアプリケーションと一つの領域ごとに接続していく必要があったんです。
コンピューターグラフィックスは始まりに過ぎませんでした。このCudaアーキテクチャを、次々と異なる産業に適用していきました。今日では、実に多くの重要な産業を加速させています。
一部のソフトウェアは書き直す必要があったため、AIの採用が少し遅れる効果がありましたが、彼はここでソフトウェア2.0という概念を導入します。
この概念は、最初にAndre Karpathyの古いブログ記事で聞いたことがあります。ソフトウェア1.0から2.0への移行について語っていて、以前は人間がアルゴリズムやコードを書いていた、つまりコンピューターに何をすべきか明示的な指示を一つずつ書いていたという考え方です。
対照的に、ソフトウェア2.0は機械学習に基づいています。もはや人間がコードを書くのではありません。フアンがこの現象について話すのを聞きながら、こう考えてみてください。ソフトウェア1.0から2.0への移行が、人間がコンピューター用にコードを書く代わりにAIがコードを書くようになったとすれば、次の論理的なステップは何でしょう？ソフトウェア3.0とは何なのでしょう？
世界は完全に変わってしまいました。何が起こったのか考えてみましょう。まず最初に起こったのは、もちろんソフトウェアの作り方です。私らの業界は、ソフトウェアの作り方によって支えられています。
ソフトウェア1.0と呼ばれる方法では、プログラマーがアルゴリズム、つまり関数をコードに書き込んでコンピューターで実行し、入力情報に適用して出力を予測していました。誰かがPythonやC、FORTRAN、Pascal、C++でコードを書き、コンピューターで実行するアルゴリズムを作成し、それに入力を適用して出力を生成する。私らがよく理解していた非常に古典的なコンピューターモデルです。
もちろん、これは世界最大の産業の一つを生み出しました。ここインドでも、ソフトウェアの製作、コーディング、プログラミングが一つの産業になりました。これは全て私らの世代で起こったことです。
しかし、このソフトウェア開発のアプローチは破壊的な変化を遂げました。今はコーディングではなく機械学習です。コンピューターを使って、大量の観測データのパターンと関係性を研究し、本質的にそこから学習して予測する関数を作るんです。
つまり、私らは基本的に、機械を使って期待される出力を生成するような関数を近似する普遍的な装置を設計しているんです。人間によるコーディングのソフトウェア1.0から、今や機械学習を使うソフトウェア2.0へと戻ってみると、誰がソフトウェアを書いているのかに注目してください。今やソフトウェアはコンピューターが書いているんです。
モデルのトレーニングが終わったら、モデルを推論します。その関数、つまり大規模言語モデルや深層学習モデル、コンピュータービジョンモデル、音声理解モデルを入力として適用し、GPUに入れると、新しい未観測の入力に対して予測を行うことができます。
この方法でのソフトウェア開発は、根本的に機械学習に基づいていることに注目してください。私らはコーディングから機械学習へ、ソフトウェア開発からAI創造へ、そしてCPUで実行することを好むソフトウェアから、GPUで最も効果的に実行できるニューラルネットワークへと移行したんです。
これが、過去10年間に私らの業界で起こったことの核心です。コンピューティングスタック全体、技術スタック全体が再発明されました。ハードウェア、ソフトウェアの開発方法、そしてソフトウェアができることが、今や根本的に異なっています。私らはこの分野を進歩させることに専念してきました。
次に、普遍的関数近似器という概念について話します。ジェンセンはこの考え方について以前も話していて、基本的にAIをトークンイン・トークンアウトと考えてください。深層学習、これらのモデルが事実上あらゆる種類の情報を学習できる能力のことです。
画像、テキスト、音声、化学構造、タンパク質配列など、Alpha FoldやAlpha Proteoで見てきた通りです。実際、そのモデルを開発したGoogle DeepMindチームは最近、化学のノーベル平和賞を受賞し、プロテオミクスに大きなブレークスルーをもたらすことを約束しています。
タンパク質がどのように機能し、どんな機能を持っているのかを学習し、今では設計者タンパク質、カスタムタンパク質さえ作り始めています。これらは生命の構成要素であり、人間は今やついにこれらのAIモデルの助けを借りて、この生命の構成要素を設計し始めているんです。
要するに、画像、テキスト、音声、タンパク質配列など何でも入力できて、これらのモデルは扱うデータが何であれ、その根底にあるパターンと関係性を把握できるということです。
この汎用性は、AIスタートアップのカンブリア爆発とも言える現象を説明しています。地球のカンブリア紀における生命の急速な多様化のように、Deep Learningを活用したAIアプリケーションや企業の新しい波が起きているんです。
今まで、画像、テキスト、音声で見てきました。SumoがAIパワードの音楽を作り出したり、多くのAIビデオスタートアップを見てきました。でも、タンパク質、生命、生物学を扱うスタートアップも見てきました。AIとバイオエンジニアリングの組み合わせです。
これはほんの第一波、第二波に過ぎません。これらのAIモデルが理解できること、生成できること、データの根底にあるパターンと関係性をどこまで理解できるのか、その限界はまだ分かっていません。
巨大なシステムを設計して、膨大な規模でデータを研究し、パターンと関係性を発見して、データの意味を学習する。これが過去数年間の大きなブレークスルーです。
今や私らは、言葉、数字、画像、ピクセル、ビデオ、化学物質、タンパク質、アミノ酸、流体パターン、粒子物理学など、非常に多くの異なる種類のデータの表現、つまり意味を学習してきました。
多くの異なるモダリティで情報を表現する方法を学んできただけでなく、それを別のモダリティに変換することもできます。
もちろん、素晴らしい例の一つは英語からヒンディー語への翻訳です。英語の大量のテキストを他の英語に要約したり、ピクセルから画像への画像認識、言葉からピクセルへの画像生成、画像やビデオから言葉へのキャプション付け、言葉からタンパク質への創薬、言葉から化学物質への新しい化合物の発見、アミノ酸からタンパク質へのタンパク質構造の理解など。
これらの基本的なアイデア、本質的にあらゆるモダリティから別のモダリティへの普遍的な情報翻訳者が、世界中のスタートアップのカンブリア爆発につながったんです。
私が今説明した基本的な方法を適用して、「これとそれができるなら、他に何ができるだろう？」「それとこれができるなら、他に何ができるだろう？」というように。アプリケーションの数は、過去2、3年で明らかに爆発的に増えました。
世界中の生成AIの企業は数万社、この分野には数百億ドルが投資されています。これは全て、巨大な規模でデータを研究することを可能にした、この一つの道具のおかげなんです。
最後に、AIエージェントについて話し始めます。ジェンセンは、AIによって強化された「スーパー従業員」と彼が呼ぶものの可能性にとても興奮しています。
AIエージェントは受動的な情報処理を超えて、Excelスプレッドシート以上のものになれます。タスクに積極的に取り組み、決定を下し、他のAIエージェントとも協力できるんです。
この概念はSFのように聞こえるかもしれませんが、フアンは説得力のある例を示してくれます。データを分析し、ターゲットを絞ったキャンペーンを立案し、広告コピーを書くマーケティングエージェント。顧客の問い合わせに24時間体制で対応し、パーソナライズされたサポートを提供する顧客サービスエージェント。
彼はまた、NVIDIAがチップ設計のために内部で使用している一部のAIエージェントについても言及しています。Dr. Jim Fanがこれについて簡単に話していましたね。次世代のAIハードウェアはAI自身によって設計されるという考え方です。
AIが動作する基盤となるチップやハードウェア、インフラストラクチャの設計にAIを活用することになります。そしてフアンは、これらのエージェントが創造性、戦略的思考、そして確かに技術的な専門知識を必要とする役割を担うことができると考えています。
これは、私ら人間の仕事の未来について興味深い疑問を投げかけます。私らは時代遅れになってしまうのでしょうか？仕事を失ってしまうのでしょうか？
フアンは、AIエージェントは人間に取って代わるのではなく、むしろ私らを強化し、いわば「スーパー従業員」という新しい種を生み出すと考えています。
熟練したAIアシスタントのチームが様々な面倒な作業を処理してくれることを想像してみてください。そうすれば、より高度な思考と創造的な問題解決に集中できるようになります。
AIを活用することで、日々の面倒な作業、それらの小さなタスクの認知的負荷を減らし、より高度な思考のために精神的なエネルギーを解放することができるんです。
これらの「スーパー従業員」を作り出すために、フアンはエージェントのライフサイクルを概説します。必要なスキルを学ぶための大量のデータでAIをトレーニングし、特定のビジネスニーズに合わせてエージェントの行動を微調整します。
例えば、マーケティングエージェントに顧客サービスを担当させたりはしないということです。そして期待に応えているかどうかパフォーマンスを評価し、倫理的で責任ある運用を確保するためのガードレールと安全性プロトコルを確立します。
このプロセスは従来の従業員のトレーニングと導入に似ていますが、デジタルの領域で行われます。ここで彼は、NVIDIAが提供する次の大きなものについて言及します。
しかし、ここでAIエージェントに関するクリップをご覧ください。
大規模言語モデルと基本的なAI機能が一定の能力レベルに達した今、エージェントと呼ばれるものを作れるようになりました。大規模言語モデルは、提示されるデータを理解します。それはストリーミングデータ、ビデオデータ、言語モデルデータ、あらゆる種類のデータかもしれません。
第一段階は知覚です。第二段階は推論で、観察に基づいて、ミッションは何か、そのタスクを実行するために何をする必要があるのかを考えます。
そのタスクを実行するために、エージェントはそのタスクを他のタスクのステップに分解し、何が必要かを推論して、他のAIモデルと接続します。
例えばPDFを理解するのが得意なモデル、画像を生成できるモデル、独自のデータベースからAI情報やAIセマンティックデータを取得できるモデルなどです。
これらの大規模言語モデルはそれぞれ、私らがエージェントと呼ぶ中心的な推論大規模言語モデルに接続されています。そしてこれらのエージェントは、あらゆる種類のタスクを実行できます。
マーケティングエージェント、カスタマーサービスエージェント、チップ設計エージェントなどです。NVIDIAには社内中にチップ設計を手伝うエージェントがいます。
ソフトウェアエンジニアリングエージェント、マーケティングキャンペーン、サプライチェーン管理などもあるかもしれません。そして、私らの従業員を支援するエージェントを持つことになります。
これらのエージェントやエージェント型AIモデルは、私らの全従業員を強化して、より生産的なスーパー従業員にします。
これらのエージェントについて考えるとき、会社に導入する方法は、新入社員を受け入れる方法とそれほど変わりません。
トレーニングカリキュラムを与え、スキルの使い方や会社の語彙を理解するように微調整し、教育する必要があります。そして評価します。
会計エージェントならマーケティングはしない、マーケティングエージェントなら四半期末の収益報告はしないというように、ガードレールを設定することもあります。
これらのエージェントそれぞれにガードレールを設定し、そのプロセス全体を本質的にエージェントライフサイクルのライブラリ群にまとめました。これをNemoと呼んでいます。
私らのパートナーは、これらのライブラリを彼らのプラットフォームに統合するために私らと協力しています。そうすることで、エージェントの作成、導入、デプロイ、改善をエージェントのライフサイクルの中で可能にできます。
これが私らの言うNVIDIA Nemoです。一方にライブラリがあり、もう一方の出力はAPI推論マイクロサービスで、これをNimsと呼んでいます。
本質的にこれはAIを作る工場で、Nemoはエージェントの導入と運用を支援するライブラリ群です。そして最終的な目標は、たくさんのエージェントを作ることです。
もちろん、デジタルの世界、つまりオムニバースを拡張した後の次の大きなことは、物理的な世界です。
AIが物理的な世界とやり取りする際、フアンは物理的AIという概念を導入します。物理的AIとロボットを組み合わせると、デジタルと物理的な世界の橋渡しになります。
NVIDIAにはそのようなAI用に3種類のコンピューターがあります。AIトレーニング用のDGXシステム、シミュレーションとデジタルツイン作成用のオムニバース、そして実世界にAIを展開するためのJetson AGXプラットフォームです。
デジタルツインは物理的なオブジェクトや環境の仮想レプリカで、AIが物理的に実装する前に仮想環境で実験とプロセスの最適化を可能にします。
このアプローチにより、複雑なタスクを実行するロボットのトレーニング、新しい製造レイアウトのテスト、災害シナリオのシミュレーションなどが可能になります。
これは全て、動的で物理法則に従うデジタル環境内で行われます。実際の従業員、怪我、すべての物理法則と実世界の複雑さをシミュレートした実世界なんです。
エージェントの次は何か覚えていますか？すべての会社には従業員がいますが、ほとんどの会社の目標は何かを作ること、生産すること、製造することです。
人々が作るものは、工場かもしれませんし、倉庫、車、飛行機、列車、船など、様々なものかもしれません。コンピューターやサーバー、NVIDIAが作るサーバー、電話かもしれません。
最大の産業の多くの企業は、究極的に何かを生産しています。IT産業のようなサービスの生産もありますが、多くの顧客は何かを生産することに関わっています。
次世代のAIは物理的な世界を理解する必要があります。私らはこれを物理的AIと呼んでいます。物理的AIを作るには3つのコンピューターが必要で、私らはそのために3つのコンピューターを作りました。
例えばBlackwellはDGXコンピューターを作るためのリファレンスデザインとアーキテクチャで、モデルのトレーニングに使用します。
そのモデルは、改良される場所、学習する場所、物理的能力やロボット能力を適用する場所が必要です。私らはそれをオムニバースと呼びます。
物理法則に従う仮想世界で、ロボットがロボットになることを学びます。そしてトレーニングが終わったら、そのAIモデルは実際のロボットシステムで動作させることができます。
そのロボットシステムは、車かもしれませんし、ロボット、自動運転車、自律移動ロボット、ピッキングアーム、ロボット工場全体や倉庫全体かもしれません。
このコンピューターをAGX Jetsonと呼びます。トレーニング用のDGX、デジタルツイン用のオムニバース、そして物理的な世界へのデジタルツインからの飛躍は、Jetsonプラットフォームを通じて実現されます。
これは、AIを直接ロボットや自律機械で実行するように設計された、より小型の組み込みシステムです。
この統合により、自動運転車、工場や倉庫で働くロボット、繊細な作業を処理し、人間の作業者とシームレスに協力するなどのアプリケーションが実現します。
そしてここでも、物理的AIは人間の代替としてではなく、人間の能力を強化する手段として見られています。私らをより効率的で生産的にするんです。
ロボットが重い作業や反復的な作業を処理し、人間は品質管理、問題解決、創意工夫と器用さを必要とする専門的な作業に集中できるようになります。
こんにちは、私はデジタルヒューマンのJamesです。産業企業は物理的な作業を自動化するために物理的AIを使用します。
物理的AIは、実世界を安全にナビゲートする自動運転車のようなロボット、複雑な産業タスクを実行するマニピュレーター、私らと協力して働く人型ロボットを具現化します。
プラントや工場は、その運営を監視し調整できる物理的AIによって具現化されます。NVIDIAは、開発者が物理的AIを作成できるように3つのコンピューターを構築しています。
モデルは最初にDGXでトレーニングされ、次にAIはオムニバースでの強化学習と物理フィードバックを使用して微調整とテストが行われ、トレーニングされたAIはNVIDIA Jetson AGXロボティクスコンピューターで実行されます。
NVIDIA Omniverseは、物理的AIシミュレーション用の物理ベースのオペレーティングシステムです。ロボットは、オムニバースで構築されたロボットジムであるIsaac Labでスキルを学習し、微調整します。
これはたった一つのロボットですが、未来の工場は、ロボットチームを編成し、何千ものセンサーを通じて工場全体の運営を監視することになります。
工場のデジタルツインには、Megaと呼ばれるオムニバースのブループリントを使用します。Megaを使用すると、工場のデジタルツインには仮想ロボットとそのAIモデル、つまりロボットの脳が配置されます。
ロボットは、環境を知覚し、推論し、次の動きを計画し、最後にそれを行動に変換することでタスクを実行します。
これらの行動は、オムニバースの世界シミュレーターによって環境内でシミュレートされ、その結果はオムニバースのセンサーシミュレーションを通じてロボットの脳によって知覚されます。
センサーシミュレーションに基づいて、ロボットの脳は次の行動を決定し、ループが続きます。Megaは工場のデジタルツイン内のすべての状態と位置を正確に追跡します。
このソフトウェアインザループテストにより、ソフトウェア定義のプロセスを物理的な空間と実体化に持ち込み、産業企業は物理的な世界に展開する前に、オムニバースのデジタルツインで変更をシミュレートし検証することができ、巨大なリスクとコストを節約できます。
物理的AIの時代が到来し、世界の重工業とロボット工学を変革しています。
どう思われますか？これが展開されていくのを見守るのは、エキサイティングな時期だと思いませんか？ジェンセンが行っていることすべて、AIに向けた彼のビジョンについて、正しいと思いますか？
ここまで見てくれた皆さん、本当にありがとうございます。私の名前はWes rthです。また次回お会いしましょう。

この記事が気に入ったらサポートをしてみませんか？