見出し画像

Scale Gov Summit 2024:アレクサンダー・ワン 基調講演

8,336 文字

皆さん、こんにちは。本日は第2回年次Gov AIサミットにお集まりいただき、AI界の現状を振り返りたいと思います。昨年ご参加いただいた方々、お帰りなさい。ワシントン、シリコンバレー、北京のいずれにいても、AIとその変革的な可能性に対する集団的な理解は、目新しさから必要不可欠なものへと変化しました。2023年はすでに激動の年でした。AIは周縁的な話題から、主要な議会公聴会や世界のリーダーたちのサミットの議題へと変わりました。
まだ初期段階であることを考えると、米国政府の関与のレベルには感銘を受けています。しかし、AIのリーダーシップを維持するためにはさらに多くのことをしなければなりません。私たちは今、AIをめぐる戦いの中盤にいます。試合開始時は大本命でしたが、今は中盤戦で勢いを失いかけています。一度勢いを失うと、試合に負けるリスクが出てきます。しかし、私は我々が態勢を立て直せると確信しています。
8年以上前からAIエコシステムの構築に携わってきた者として、このテクノロジーが主流になるのを見るのは exciting です。現在の防衛テクノロジーのブームが起こる遥か以前から、スケールは米国軍と協力してきました。それは、米国政府が先進的なAI技術にアクセスできなければならないという私の本質的な信念に基づいています。それは私たちの世界の未来にとって極めて重要です。
戦争の歴史は軍事技術の歴史であり、この部屋にいる全員が、AI技術が人類が今まで見てきた中で最も偉大な軍事資産の一つになる可能性を持っていることを理解しています。米国政府もそれを認識していますし、中国も同様です。AIを安全かつ確実に展開することは私たちの責任です。
これは米国にとって絶対的に重要な時期です。私たちがAIの恩恵を理解し始め、享受し始めている一方で、我々の敵対者たちも同様であり、しかも alarming なことに、より速いペースで進んでいます。
米国と中国のAIの現状と、優位性を維持するために我々がすべきことについて詳しく説明する前に、一歩下がってAIの3つの柱について高いレベルで説明させてください。AIシステムには3つの要素があります。アルゴリズム、コンピュート、そしてデータです。
NVIDIAのような企業はチップの進歩と製造に取り組んでいます。アルゴリズムの進歩は活発なAI研究コミュニティによって推進され、それがトップタレントによってGPT-4o、Claude 3.5、Llama 3などのモデルの開発に応用されています。そしてスケールはデータを扱っています。
私はAIを進歩させるデータを供給するために、そのライフサイクル全体に燃料を供給するためにスケールを設立しました。私たちの役割は、データの柱のNVIDIAとなることです。これらの柱の進歩がAIの進歩を推進し、最終的には国家のAI競争力を決定づけます。
では、現在の状況はどうでしょうか。残念ながら、中国は急速に追い付いてきています。今後の道筋を予測すると、中国には実際にリードを取り、最終的に勝利する明確な道筋があります。2年前、中国はおそらく2年以上遅れていました。2022年秋にGPT-4が研究室で初めて作られた時、中国の能力はそれに近いものではありませんでした。
現在、中国のLLMとコンピュータービジョンの能力はアメリカとほぼ互角です。ここ数ヶ月で、中国企業Z1はYiを生産し、それは現在、世界最高のモデルの1つとなり、GPT-4、Gemini、Claude 3.5のような主要な米国製モデルのすぐ後ろに位置しています。
中国のチップは急速に米国の主要チップと同等になりつつあります。最新の統計によると、SMIC(あるいはSMI)の工場で製造されるHuawei Ascend 910b(SMICの関与なし)は、NVIDIA A100の約80%の性能を持ち、性能あたりのコストは2〜3倍高くなっています。これらは直ちにNVIDIA H100やB200と競争できるわけではありませんが、意味のある競争ができる範囲内にあります。
私たちは、この分野での米中競争を把握するために、HuaweiとそのSMIC生産ラインに注意深く目を光らせなければなりません。電力は事態が本当に懸念される分野です。AIの大規模データセンターの運営には膨大な電力が必要で、米国はこの増大する需要に対応する軌道に乗っていません。
今日建設されている最大のデータセンターは1000億ドル以上のコストがかかり、ロサンゼルス市よりも多くの電力を消費します。このグラフを見ると、米国の総発電量は過去10年間でわずか5%しか増加していないことがわかります。現在の成長率では、AIからの電力需要は米国の生産率を急速に上回っています。
対照的に、過去10年間で中国は米国の電力網全体に相当する発電量を自国の電力網に追加しました。彼らは電力面で米国を圧倒する軌道に乗っています。人口調整後でさえ、中国は増大する電力需要に対応するためにはるかに良い位置にいます。
彼らは米国では政治的に実現可能な量をはるかに上回る原子力発電を非常に容易に追加することができ、明らかにそれを優先しています。先週の報告では、中国は原子力発電で米国より10〜15年先を行っているとされています。現在の割合では、2030年までに米国を抜いて世界最大の原子力発電容量を持つ国になる軌道に乗っています。
これは単に注目に値しない重大な脆弱性です。電力の成長は、AIとそれ以上の分野での継続的な成長とリーダーシップを支えるために絶対に不可欠です。
最後に、中国は世界のどの国よりもはるかに多くの高度なSTEM人材を輩出しています。幸いなことに米国にとって、この人材の流れは一方通行です。大まかに言えば、人材は中国を離れ、アメリカに来て、戻ることはありません。米国は世界の最先端の技術人材を継続的に育成し、引き付けるためにできる限りのことをしなければなりません。そうしないと、私たちの優位性を失うリスクがあります。
データの観点からは、同じ土俵で直接比較することさえ不可能です。注目すべき重要なことは、中国がインターネットや海外からのデータをいかに活用しているかということです。米国では、データの権利とこれらのモデルのトレーニングにデータを使用する能力について多くの訴訟が起こるでしょう。中国ではそれらが訴訟になる可能性は低いでしょう。
すべてのデータにアクセスすることは、彼らが顔認識のコンピュータービジョンに長けるようになった主な理由です。私たちは、ここでデータ使用に関する議論がどのように展開されるかを正確に追跡する必要があります。また、中国共産党はデータファクトリーという概念を構築し、中国の市民たちにAIモデルのデータを生産させています。彼らは顔認識の取り組みと自動運転車の取り組みにこれを利用し、最後のAIの時代に米国を追い抜くために使用しました。
しかし明らかなのは、中国がデータを真剣に受け止め続け、米国がそうしなければ、彼らが勝利するということです。
優位性を維持して勝利するために、米国はAIの圧倒的優位性を達成しなければなりません。そのために3つのステップがあります。

データの優位性を達成する
中国に打ち勝つための投資をする
ドノバンと私たちのデータエンジンのような最高クラスの商用AIテクノロジーで戦士たちを武装し、競争優位性を与える

データの優位性が鍵であり、真に同等のものの中で最も重要です。戦術的に言えば、AIは常にデータに帰着します。ディープラーニングのすべてのインスタンスは、途方もなくデータを必要としてきました。インターネットのほとんどでトレーニングされているLLMでさえ、データに飢えています。
あなたが主要なテクノロジー企業であれ政府であれ、AIの近代化の成功は、データの優位性を構築し維持することにかかっています。Google、Meta、Amazonなどのテック巨人は全て、暴走的なデータの優位性を通じて競合他社に対するアルゴリズムのリードを維持しています。
特に防衛AIアプリケーションにとって、インターネットだけではAIを有用にするには不十分です。私たちは、専門家のデータ、つまりラベル付け、タグ付け、注釈付けされたAI対応のデータと、政府独自のデータで微調整されたモデルを必要としています。
最も進んだ市販のモデルでさえ、トレーニングに使用されたデータと同程度にしか有用ではありません。これは、オープンソースのデータが存在しない最も重要な米国政府のワークフローにとって特に当てはまります。
そこでスケールの出番です。私たちの使命は、米国のデータ優位性の達成を支援することです。2016年の創業以来、AIの分野のほぼすべての主要なブレークスルーを支えてきました。私たちの自律性データエンジンは、サンフランシスコとフェニックスのL4自動運転車のような完全自律運転のブレークスルーを可能にしました。
米国国防総省内の主要なAIプログラムを支援してきました。これについては後ほど詳しく説明します。また、ChatGPTの開発につながる人間のフィードバックによる強化学習の最初の実験でOpenAIと提携しました。
今日、私たちは商業セクターのすべての主要なAIモデルのデータの柱を支えています。スケールは国防総省や国家安全保障の利害関係者と提携し、私たちの最高クラスの商用テクノロジーを国防に直接影響を与えるプログラムに統合しています。これには、政府内の最大規模のコンピュータービジョンプログラムも含まれます。
陸軍とDIUは、陸軍ロボット戦闘車両プログラムを支援するために、私たちの公共セクターデータエンジンを選択しました。このデータエンジンは自律性プログラムを支援し、新世代の地上車両を可能にするためにあらゆる陸軍自律システムを動かすことができます。この重要な取り組みは、地上、空中、海上、宇宙の自律性に関する私たちの軍の将来の作業を定義する可能性を持っています。
昨年、私たちは独自のデータを使用して主要な生成AIテクノロジーを安全に使用できる政府向けAIプラットフォームであるドノバンを導入しました。これは国防総省の機密ネットワークに展開された最初のLLMでした。政府全体の運用ユーザーは、作業の速度を上げ、報告のオーバーヘッド要件を数時間から数分に削減する方法を見出しました。これはドノバンの始まりに過ぎません。後ほどさらに詳しくお話しします。
今年、国防総省のチーフデジタル・人工知能オフィス(CDAO)は、国防総省内でのLLMの責任ある使用のための包括的なAIテスト・評価フレームワークを作成するためにスケールを選択しました。
政府にはデータが不足しているわけではありません。問題は、そのほとんどが無駄になっているということです。公に利用可能な信頼できる数字はありませんが、2017年の空軍のISR PEDsの日々の活動は約22テラバイトのデータを生成しました。これは国防総省内のたった一つの組織に過ぎません。
それを今日まで投影し、国防総省全体を含めて拡大すると、国防総省が毎日生成するデータ量はおそらく1ペタバイト近くになります。そのためには、生のデータをAI対応データに変換するデータエンジンが必要で、それによってミッションクリティカルな洞察を導き出すことができます。AIがなければペースを維持できません。NGA(国家地理空間情報局)の局長は、2027年までにすべての利用可能な画像データを処理するために800万人以上の画像アナリストが必要になると推定しています。
AIは国防総省がこのすべてのデータを日常の戦闘リズムに取り入れるチャンスを得るための唯一の実行可能な解決策です。中国がAI対応データの価値を認識し、米国の商業産業に基づいてデータ投資のベンチマークを設定していることを理解することが重要です。
米国の商業企業はそれぞれ年間10億ドル以上を投資しており、商業投資の総額は2025年までに年間100億ドルを超えると予想されています。対照的に、今年、国防総省はAI全体に約30億ドルを支出する予定で、AIデータには1億ドル以下しか支出を計画していません。一方、同じ時期に中国はAI対応データに少なくとも10億ドルを費やしています。
AIシステムとそれを動かす基盤となるデータへの投資を優先しなければ、中国に後れを取り、手遅れになるリスクがあります。物事を展望すると、米国政府はGPT-4oや他の主要な大規模言語モデルのトレーニングに使用されたデータよりもはるかに多くのデータを持っています。
GPT-4oのトレーニングデータセットは約1ペタバイト(実際にはそれより少し少ない)でしたが、国防総省は毎年約360ペタバイトのデータを生成しており、そのすべてのデータはインターネット上で見つかるものよりも軍事的課題に関連性が高いものです。
この軍事データの宝庫を活用するには、データエンジンが必要です。それは米国で行う必要があるすべてのことの基礎となります。私たちのデータエンジンは、最も進んだコンピュータービジョンと生成AIモデルを動かしています。これは世界クラスのRHF(人間のフィードバックによる強化学習)、人間による生成、モデル評価を通じて行われます。
そのデータファウンドリーは、最も進んだ特別なフロンティアデータを提供します。これをすべて可能にするために、私たちは米国政府のすべてのデータを効果的に取り込み、データエンジンを通じて処理し、最先端の機能を実現するためにこのすべてのデータの上に独自の特別なAIモデルをトレーニングできるようにする必要があります。
将来を見据えると、私たちはAIの能力のパラダイムシフトの境界にいます。昨年は変革的だったチャットと検索モデル(RAGのような)は、今日では当たり前のものとなっています。これは何を意味するのでしょうか。ほとんどのAIモデルは比較的単純なタスクしか実行できません。質問をすると答えを返すだけです。しかし、それでさえ非常に有益でした。
しかし、人間が行う最も有用な認知作業ははるかに複雑で、行動を実行する際の複数のステップを含みます。AIでこれを行うことこそが、AIの最も変革的な影響力の可能性が真にある場所です。
昨年ドノバンを展開して以来、政府機関は記録的なペースでそれを採用しており、私たちのチームは米国の優位性を維持するためのより高度な機能の構築に懸命に取り組んできました。これには、高度な検索、ログ生成、増加するデータソース統合のリスト、そしてサポートされる最先端モデルとインフラストラクチャのリストの拡大が含まれます。
この達成の最高傑作は、ドノバンの increasingly sophisticated な native agent ワークフローです。本日、プラットフォームの次の進化である「エージェント・ドノバン」を紹介できることを嬉しく思います。防衛と国家安全保障に合わせた、increasingly complex な native agent ワークフローを特徴としています。エージェント・ドノバンはあなたのパートナーであり、戦力増強剤となるでしょう。
デモをご覧ください。
過去1年間、ミッションクリティカルAIのためのプラットフォームであるドノバンは、公共セクターの組織にとってゲームチェンジャーでした。本日、ドノバンの次の進化である「エージェント・ドノバン」を紹介できることを嬉しく思います。
エージェント・ドノバンは、推論とツール使用に関する新しい機能をもたらし、要約とチャットを超えています。これによってドノバンは、データサイエンス、サイバーセキュリティ、地理空間分析の専門家のスキルセットを備えたスーパーチャージされたものになります。
4月にイスラエルでウラン弾が撃ち込まれた場所を素早く知る必要がある軍事アナリストを想像してください。ここでは、接続されたAPIとアップロードされた文書のリストからデータセットを選択します。ドノバンにウラン弾攻撃の報告を表示するよう依頼しましょう。
プロンプトを入力すると、ドノバンはチャットを超えて、データソースに接続し、重要な情報を特定し、コードを実行し、コード実行エラーを修正し、ソースを検証するエージェンティックワークフローを開始します。
ドノバンはスケールのデータエンジンでトレーニングされたファインチューンモデルを使用してこれを行います。RAGやその他のツールでこれらのモデルを強化し、ドノバンが仕事に適切なデータを選択できるようにします。
この例では、ドノバンはデータ分析ツールを選択して、データソースを選別し、時間範囲や位置メタデータなどの指定されたパラメータでフィルタリングされた関連イベントを特定します。1分もかからずに、イスラエルに発射されたミサイルの地理的位置情報が確認された報告のリストが得られます。
これらの引用を地図上で位置特定し、衝突地帯のパターンを分析することができます。次に情報源に直接アクセスし、その地域のアクティブなミサイルの証拠を観察し、アイアンドームの作動を見ることができます。最後に、これらの洞察を活用して、さらなるインテル情報のためのISR(情報・監視・偵察)要求を生成することができます。
ドノバンのワークフローで発見された洞察は、重要な情報を結びつけ、従来の何分の一もの時間で、あなたの機関のフォーマットとスタイルに従って、シームレスにレポート生成テンプレートに組み込むことができます。
スケールのデータエンジンと、これらのワークフロー用に特別に調整されたファインチューンモデルがこれを可能にします。オフザシェルフの情報でわずか1分でこれができるなら、あなた自身のデータで何ができるか想像してください。今日、ドノバンはあなたのチームのために、安全な機密環境での展開の準備ができています。可能性は無限大です。
今お見せしたすべてのことは、スケールのデータエンジンによって可能になっています。特別なデータは、最も進んだAI技術的能力の基盤となります。これは、すべての主要な商用フロンティアモデル開発者が、パフォーマンスの大幅な向上、高度な機能、安全性評価のために依存してきたものです。
最も特別な高度な専門家データセット、私たちが「フロンティアデータ」と呼ぶものは、最終的に軍事専門家からの推論と決定チェーンを差し迫った国家安全保障の課題に適用することを可能にします。
スケールのデータ層は、特に政府にとって、私たちの評価能力の中核的な要素でもあります。私たちはAIシステムの強みと限界を理解しなければならず、テストと評価のプロセスは各ユースケースのリスクレベルに応じてテストの厳密さを調整する必要があります。
最後に、スケールの研究所SEALは、私たちの安全性評価と整合性研究所として、すでに信頼できる評価セットの開発のリーダーとなっています。私たちは引き続き基盤モデル開発者を支援し、パフォーマンスが高く責任あるAIを開発する旅を続けていますが、今では同じ技術的専門知識を公共セクターにもたらし、商用パートナーと同じレベルの厳密さでモデルを展開できるようにしています。
CDEAOとのLLMテストおよび評価フレームワーク開発のためのパートナーシップは、安全で確実で信頼できるAIの採用を確保するための素晴らしい一歩前進です。
エージェント・ドノバンのような戦力増強剤の開発は、特にAIにおける変化の急速なペースの中で最も exciting なことです。中国のAI能力は急速に追いついてきており、今後の道筋を予測すると、彼らには明確なリードを取るチャンスがあります。
もし彼らがデータを真剣に受け止め続け、私たちがそうしなければ、中国が勝利するでしょう。しかし、もし私たちが米国政府、米国産業、米国のイノベーションシステムの真の力を活用できれば、この地球上にはそれより強力な力はありません。
これらの問題は私たちの注目と協力的な努力を必要としており、それらは今必要とされています。危機が起きるまでデータの優位性を真剣に受け止めるのを待つことはできません。アメリカのAIリーダーシップはそれにかかっています。自由世界は勝利しなければなりません。
ありがとうございました。

いいなと思ったら応援しよう!