誰がAIモデルを盗もうとしているのか? そして彼らはそれで何ができるのか? | セラ・ネボ

2024年8月25日 15:15

セラ・ネボ: フロンティアラボのCEOだとしましょう。私は、従業員50人のうち少なくとも98%は重みを盗まないと確信できる人はいないと思います。これらは少なくとも数億ドルの価値があることを忘れないでください。そして誰かが彼らに賄賂を贈ったり、脅迫したり、彼らが信じるイデオロギーを利用したりする可能性があります。
もしかしたらあなたは素晴らしい社交家かもしれませんが、私にはそこまで深く知っている50人もいません。98%の確信を持ってそんなことはしないと言える人は。しかし、あなたが98%確信できる50人がいると想像してみましょう。それでも、その50人全員に重みを読み取る許可、完全な読み取りアクセス権を与えたとすると、それは彼らが重みを漏らす可能性を許すことになります。
そして50人の98%の確率を掛け合わせると、約37%になります。つまり、アクセス権を持つ従業員がたった50人でも、漏洩の可能性は3分の2近くあるのです。しかもこれは非常に信頼できる従業員の場合です。
ルイーザ・ロドリゲス: こんにちは、リスナーの皆さん。ルイーザ・ロドリゲスです。80,000時間ポッドキャストのホストの1人です。
今日のエピソードでは、RANDのメセルソンセンター所長であるセラ・ネボと話をしました。彼のチームがAI企業、サイバーセキュリティ企業、国家安全保障関係者など約30人のサイバーセキュリティの専門家にインタビューした結果について話しました。誰がAIモデルの重みを盗もうとするのか、そしてどのようにしてそれを行うのかについてです。
簡単に説明すると、モデルの重みとは、ニューラルネットワークがプロンプトに応じて出力を生成するために使用する具体的な値のことです。大規模言語モデルでは、カタツムリについての詩を書いてくださいというようなプロンプトを与えた後に、モデルが応答を生成できるようにする値のことです。
インタビューでは、セラと私は以下のことについて話しました:

外国のグループや国が主要なAIラボのモデルの重みを盗むことが本当にそれほど悪いことなのか。
悪意のある者がモデルの重みを盗もうとする多くの方法 - その中にはまさに私の心を吹き飛ばすようなものもありました。
これまでに起こった最もクレイジーなセキュリティ侵害と、そこから学べること。
セラが主要なAIラボに実装してほしいと考えているセキュリティ対策。

最後に、セラがマシンラーニングを使って洪水予測を行った非常に面白い仕事について話します。これによってアフリカとアジアの広い地域で洪水による負傷や費用が大幅に削減されました。
それではセラ・ネボとの対話をお聞きください。
ルイーザ・ロドリゲス: 今日はセラ・ネボとお話しします。セラはRANDのメセルソンセンター所長であり、上級情報科学者です。また、気候に焦点を当てたベンチャーキャピタル会社FirstTimeのベンチャーパートナーも務めています。そしてALLFED(災害時に地球に食料を供給する同盟)の諮問委員会メンバーでもあります。
この会話では、RANDでの彼の仕事について話します。そこでは、フロンティアAIモデルのモデルの重みを、それを盗もうとする人々から守る方法についてのレポートをまとめていました。ポッドキャストに出演してくれてありがとうございます、セラ。
セラ・ネボ: はい、ここに来られて光栄です。
ルイーザ・ロドリゲス: 過去数十年で最悪のセキュリティ侵害は何か、そしてモデルの重みを盗もうとする可能性のある人々は誰で、その理由は何かについて話したいと思います。しかしまず、フロンティアAIモデルのモデルの重みを守ることがなぜそれほど重要なのでしょうか?
セラ・ネボ: それは素晴らしい質問です。AIモデルは急速により高性能になってきています。すでに非常に大きな商業的価値を持っていますが、それだけでも重要な動機付けになります。しかし、近い将来、重要な国家安全保障上の意味を持つ可能性が非常に高いと思われます。例えば、現在、AIが生物兵器の開発を支援できるかどうかについて議論が行われています。
これは新しい議論なので深入りはしませんが、少なくとも近い将来、重要な国家安全保障上の行動に非常に役立つ可能性があるように思われます。より高性能になればなるほど、それらを保護することがより重要になります。残念ながら、テロ組織、ならず者国家、アナーキスト的ハッカー集団など、悪用する人々がたくさんいることがわかっています。
感覚をつかむために言えば、GPT-4のリリースから1ヶ月もたたないうちに - 当時これは大きな出来事で、誰もその実際の能力を知らず、「人工知能の火花」などと言われていました - 1ヶ月以内に、誰かがChaosGPTと呼ばれるものを実行し公開しました。これはGPT-4をベースにした自律型エージェントで、人類を破壊することを目標として与えられたものでした。
ただし、念のため言っておきますが、実際にはそれほど進展しませんでした。AI エージェントは現在、複雑な戦略と計画が得意ではありません。ですので、ChaosGPT自体を特に心配しているわけではありませんが、AIモデルが何百万人もの人々を殺すことができるような生物兵器を開発できたり、重要なインフラをハッキングして混乱させたりできるようになり、同時にイデオロギー的暴力を信じる組織がそれらにアクセスできるようになった場合、物事がうまくいくとは想像しがたいですね。
ルイーザ・ロドリゲス: はい、現在起こっていることで、良い具体的な例はありますか?
セラ・ネボ: 私が現在最も懸念していることの1つは、確かにバイオセキュリティの文脈におけるAIの使用です。私は偏見を持っているかもしれません。なぜなら、AI セキュリティに関する仕事以外に、私の仕事の多くがバイオセキュリティに関するものだからです。そのため、非常に露出が多く、馴染みがあります。
しかし、これは興味深い例だと思います。今日、生物学的リスクは本当に大規模な、地球規模の被害をもたらす最も可能性の高い方法の1つです。現在、他のどの技術でも同じ数の人々を殺すことはできません。しかし、生物学に対するAIの影響は信じられないほど可能性があり、具体的で、近いものに思えます。専門化されたAIモデルはすでに生物学の最先端を推進しています。
そして大規模言語モデルのようなより汎用的なモデルは、有用なアドバイスを提供したり、研究プロトコルを理解したり、さらには特定の実験を駆動したりすることができる寸前にあります。ただし、現時点でゲームチェンジャーになれるかどうかはまだ不明です。そのため、これは今日私が特に急性的に懸念しているリスクです。
ルイーザ・ロドリゲス: なぜ特にモデルの重みに焦点を当てるのですか? コードベースや特に強力なアルゴリズムを保護することの方が重要だと思っていました。
セラ・ネボ: それは素晴らしい質問です。まず最初に言っておくべきことは、モデルの重みを保護することだけが重要というわけではないということです。
あなたが指摘したように、保護する価値のある他の多くのコンポーネントがあります。コードベース、特定のアルゴリズムの洞察、トレーニングデータ、悪用される可能性のあるモデルAPIなどです。そして、モデルの整合性を保護するという全く別の世界もあります。つまり、モデルが悪意を持って盗まれるのではなく、悪意を持って変更されないようにすることです。
しかし、私たちが昨年行った作業は、特に重みの機密性に焦点を当てていました。つまり、モデルの重みが盗まれないようにするということです。そして、少なくともそこから始めることにした理由は、モデルの重みが高度なモデルをトレーニングするための多くの異なる高コストの前提条件のユニークな集大成を表しているからです。
これらのモデルの重みを生成するためには、かなりの計算能力が必要です。GPT-4は7800万ドルと数千GPU年かかったと推定されています。Gemini Ultraはほぼ2億ドルです。そしてこれらのコストは急速に上昇し続けています。2つ目に必要なのは、膨大な量のトレーニングデータです。GPT-4では10テラバイト以上のトレーニングデータが使用されたと噂されています。
あなたが言及したトレーニング中に使用されるすべてのアルゴリズムの改良と最適化が必要です。ですので、直接重みにアクセスできれば、少なくとも数億ドル - おそらく実際にはそれ以上のものをバイパスすることができます。人材やインフラなど、直接のトレーニングコストには含まれないものがたくさんあります。
一方で、重みを手に入れれば、大規模言語モデルから推論を計算するのは通常1000トークンあたり0.5セント未満です。まだ計算は必要ですが、それは無視できるほどです。他にも必要なものがあります。おそらく正確なアーキテクチャを知る必要があります。重みだけからは完全に推論できません。
明らかに、これを展開するにはある程度の機械学習の理解が必要です。しかし、これらはすべて、重みを自分で生成できることに比べれば小さな問題です。ですので、それらの重みを手に入れることには大きな価値があります。
重要なのは、それを手に入れてしまえば、ほぼ何でもできるということです。ラボが他に設けているかもしれない多くの防御策はもはや適用されません。APIを監視して、許可されていないことをしていないかを確認する仕組みがあったとしても、独立して実行しているのでそれはもはや関係ありません。モデルに何かをさせないようにトレーニングされたガードレールがあったとしても、それらを微調整して取り除くことができることがわかっています。ですので、本当に、一度重みにアクセスしてしまえば、モデルを悪用するのを止めるものはほとんどありません。
ルイーザ・ロドリゲス: モデルの重みを手に入れた後、すぐに次世代のフロンティアモデルに追い抜かれてしまうという事実によって、その価値は制限されないのでしょうか?
セラ・ネボ: それは本当に攻撃者が何のために使いたいのか、あるいはあなたが防御者として何を心配しているのかによると思います。
グローバルな戦略的競争の考慮事項 - どの国が経済発展などのために最も有能なモデルを持つことになるか - について考えているなら、それは関係あると思います。それでも、モデルを盗むことで、攻撃者は他の方法では得られなかったであろう数年の優位性を得ることができるかもしれません。
私が最も懸念しているのは、これらのモデルを悪用して何か恐ろしいことをする可能性です。ですので、あるモデルを評価して、それを使って何か恐ろしいことができるとわかった場合、会社が数ヶ月後にさらに高性能なモデルを持っているかどうかは本当に気にしません。誰かがそれを悪用して何か恐ろしいことをする可能性があるのです。
ルイーザ・ロドリゲス: なるほど。はい、それは理にかなっています。では、モデルの重みが盗まれる可能性があることを懸念する理由が分かりました。次に、聴衆の皆さんに、なぜそれが可能だと考えられるのかについて直感的な理解を持ってもらいたいと思います。
このエピソードの準備をする前は、非常に安全だと思われる情報に対する深刻な侵害がいかに多くあったかについて、あまり知りませんでした。これにより、たとえ情報を安全に保つための大きなインセンティブがある場合でも、情報セキュリティがいかに困難であるかをはるかによく理解できるようになりました。
最近の年の最も高度なハッキングについては話せませんが、話せるものもあります。そこで、それらについてお聞きしたいと思います。過去数十年で行われた、あなたが話せる中で最も洗練された、または驚くべきセキュリティ侵害は何だと思いますか?
セラ・ネボ: SolarWindsハックと呼ばれることが多い攻撃は、2019年に始まりました。まず結果から説明しましょう。これはバックドアをインストールしました。バックドアとは、攻撃者が後で好きなときに使用できる、システムに侵入するための隠された方法です。
それらのバックドアは18,000の組織にインストールされ、その後、攻撃者が高価値のターゲットとして選んだ200以上の組織にマルウェアをインストールするために使用されました。これにはMicrosoft、Cisco、サイバーセキュリティ企業のFireEyeが含まれていました。米国の商務省、財務省、国務省、国土安全保障省、国防総省などが含まれていました。NATO、英国政府の他の組織、欧州議会なども含まれていました。つまり、1回のハッキングでたくさんのものを手に入れたのです。
これはロシアの外国情報局が後援する、Cozy Bearと呼ばれることもあるロシアのスパイ組織によって行われたと推定されています。サイバーセキュリティ業界には面白い名前がたくさんあります。
これはサプライチェーン攻撃の一例です。サプライチェーン攻撃では、関心のある対象を直接攻撃する代わりに、その対象が使用するソフトウェアやハードウェア、その他のインフラを攻撃します。つまり、サプライチェーンの一部を攻撃するのです。これは非常に強力です。なぜなら、多くの人が同時に使用するソフトウェアを攻撃できるため、このような規模になるからです。
また、私たちが全員で使用しているインフラは単に膨大なので、その奥深くに無限の脆弱性が隠れており、これをより可能で実現可能にしています。
この例は非常に深いサプライチェーン攻撃です。実際、SolarWindsから始まったわけではありません。名前の由来はそこですが、Microsoftから始まりました。Microsoftの製品の動作方法について、2つの興味深いことを特定することから始めました。
1つ目は、Microsoftは多くの製品をいわゆるサードパーティのリセラーを通じて販売しているということです。つまり、例えばWindowsを直接購入する相手はMicrosoft自体ではなく、Microsoftからライセンスを受けたあなたの国の誰かです。これらのリセラーは、少なくともある意味で、クライアントのシステムに継続的にアクセスできることがよくあります。
例えば、より多くの料金を支払えば、新しい製品をインストールしたり新しいユーザーを有効にしたりする権限が与えられます。Cozy Bearがこれらのリセラーを攻撃したことがわかっています。Microsoftを直接攻撃する代わりに、この第三者を攻撃し、そしてMicrosoft製品を使用するユーザーのネットワークにアクセスするために使用しました。
ネットワークに侵入すると、今度はMicrosoftの認証プロトコルの別の脆弱性を利用します。この脆弱性はZerologonと呼ばれています。詳しい人のために言えば、これは基本的に、彼らが侵入しているネットワーク上のすべてのユーザーのユーザー名とパスワードを入手することを可能にしました。便利ですね。
これが起こったことはわかっています。これもSolarWindsのネットワークに最初に侵入した方法だと考えられています。100%確実ではありませんが、現在のところ最も有力な推測です。
ルイーザ・ロドリゲス: SolarWinds自体は情報セキュリティ会社ですか?
セラ・ネボ: 近いですね。SolarWindsは、企業がネットワークシステムとITインフラを管理するのを助けるソフトウェアを開発する会社です。厳密にはサイバーセキュリティ会社ではありませんが、数十万社の企業のネットワークの基盤を制御し、多くのサイバーセキュリティインフラに直接アクセスできます。そのため、確かに非常に便利な場所にいます。
SolarWindsに侵入すると - これはサプライチェーン攻撃の2段階目です - 彼らはビルドシステムを改ざんしました。ビルドシステムは、開発者のための大規模なソフトウェアシステムをまとめる役割を果たすシステムです。開発者は多くの異なるファイルでコードを書きます。それらを1つの大きなアプリケーションにまとめたいのです。彼らはそれを改ざんしました。
つまり、SolarWindsの開発者は自分たちが書いた完全に正当なソースコードを見ていましたが、実際にデプロイしたときには、悪意のあるバージョンがアプリケーションに入れようとしていたファイルを、開発者が思っていたファイルから攻撃者が望むファイルに切り替えたのです。
この段階で、攻撃者はSolarWindsのネットワークにしっかりと根付いています。実際、彼らはそこに留まり、クライアントに触れる前に数ヶ月間SolarWindsのサーバーでマルウェアをテストしました。しかし最終的に、十分に満足したら、この機能を使ってソフトウェアにバックドアを作成しました。
彼らが行ったのは、SolarWindsのアップデートメカニズムを利用することでした。ソフトウェアのアップデートがあるとき、実際にあなたのコンピューターが行っているのは、インターネットからメッセージを受け取り、「ここに新しい実行可能ファイルがあります。今あるものより良いです。アップデートしませんか?」というものです。
通常、これは問題ありません。信頼する会社が送信したことを確認するために、ファイルに署名があります。インターネット上の誰もがファイルを送信できるわけではありません。しかし、彼らはバックドアを仕掛けたので、攻撃者も望む実行可能ファイルを送信できるようになりました。
前述したように、SolarWindsからアップデートをダウンロードした18,000の組織に対してこれを行いました。そして、バックドアを使って実際にマルウェアをインストールしたい組織を選び出しました。
そのマルウェアが行ったのは、まず約2週間静かに潜伏し、その後、すべてが大丈夫だと判断すると、指示を出せるコマンド＆コントロールサーバーに連絡を取りました。例えば、このマルウェアに指示したことの1つは、様々な種類の機密情報をコピーして送信することです。メール、文書、証明書、そしてネットワーク内で最初に侵害されたデバイス以外にも拡散するための指示などです。
要約すると、彼らが発見された後、約14ヶ月間、これらの組織に自由に、そして検出されずにアクセスできたと推定されています。
この特定の攻撃について興味深いと思われる最後の点は、マルウェアが時々自己伝播型であることです。自動的にどこにでも侵入しようとします。これはそのような例ではありません。200の組織で活動していたにもかかわらず、すべての攻撃は向こう側にいる人間によって手動で制御されていました。これは彼らの関心事や、何を探していたのか、そしてこれにどれだけの投資をする意志があったのかを物語っています。
ルイーザ・ロドリゲス: はい、はい。なんてことだ。これは信じられません。結果はわかっていますか? ロシアはこのマルウェアを使って何を学んだり、何ができたのでしょうか?
セラ・ネボ: どのネットワークが侵害されたかはわかっています。先ほど言及したように、非常に興味深いネットワークがたくさんありました。非常に大量の情報をコピーして送信したこともわかっています。その情報の内容は完全にはわかっていません。政府側の場合、しばしば機密または機密指定のままです。民間企業でさえ、影響を過小評価しようとすることがよくあります。正確に何が盗まれたかを知るのは少し難しいですが、非常に多くのものだったと確信しています。
ルイーザ・ロドリゲス: わかりました。最終的にどのように発見され、対抗されたのですか?
セラ・ネボ: 最終的には、FireEyeが一部のクライアントネットワークで不審な活動を特定したと思います。マルウェアは最初、検出されないように多くのことを行いました。例えば、先ほど言及したように、SolarWindsは展開されているネットワークのセキュリティツールの多くを制御していました。
そのため、アンチウイルスやその他のソフトウェアが検出しないように、自分たちの実行可能ファイルをホワイトリストに登録しました。彼らの通信を標準的なSolarWindsの通信のように見せかけました。つまり、アプリケーションが通常動作する方法を模倣したのです。
しかし最終的に誰かが、正確にあるべき姿ではない不審な活動に気付きました。そして調査が始まると、雪だるま式に広がりました。いわゆるシグネチャ、つまりこの種のトラフィックを見たり、この実行可能ファイルを見たりしたときに何かがおかしいという識別ができるようになると、突然至るところで見つかり始めました。
ルイーザ・ロドリゲス: 私の正直な反応は、これは完全に狂っていて受け入れられないということです。ロシア関連の攻撃者が国防総省や財務省、国務省から自分たちに文書を送ることができるなんて、不可能であるべきです。
セラ・ネボ: それはかなりひどいと思います。しかし、それほど珍しいことではありません。まず上限を設定しましょう。国防総省から文書を送ることができたと言っても、国防総省のすべての文書を送ることができたわけではありません。彼らはどこにでもアクセスできたわけではありません。
このがどれほど悪いかを過大評価するつもりはありません。この程度のことは - 明らかにこれは大きな有名な出来事ですが - それほど珍しくも聞いたこともないことではありません。どれくらい一般的かを感じてもらうために、SolarWindsのハックが起こっている間、中国も同時にSolarWindsの脆弱性を利用して複数の政府機関にアクセスしていました。
誰もそれについて話さないのは、それがはるかに標的を絞った攻撃だったからです。現在SolarWindsハックと呼ばれているものの方が有名でした。しかし、これは少し偶然です。複数の国が同じ文字通りのソフトウェアを悪用していると主張するつもりはありません。
ルイーザ・ロドリゲス: そうですね。常に。
セラ・ネボ: 常にです。しかし、これらのことがどれほど頻繁に起こっているかを感じ取ることはできます。
ルイーザ・ロドリゲス: はい。これからどのようなことを学べばいいのでしょうか? おそらく学ぶべきことは、情報セキュリティは極めて、極めて困難だということだと思います。この場合、正直なところ、文書が発見され海外に送られる方法が、別のソフトウェア侵害を通じて数段階下のチェーンでアクセスされたソフトウェアを通じてになるとは思いもよりませんでした。
そして、おそらくここで注目し、気づくべき重要な点は、非常に機密性が高いと考えられる情報と相互作用する技術システムが非常に複雑で、相互に接続され、そして不完全だということです。そして、それらは常に不完全であり続け、より安全にしようと努力することはできますが、これは非常に難しい問題なのです。
セラ・ネボ: はい、私はその意見に概ね同意します。まず、元の点をさらに強調しておきましょう。これらのシステムが非常に複雑で、それらすべてを安全にすることは非常に困難だということに完全に同意します。
別の例を挙げると、HVACシステム - つまりビルの暖房換気システムを使用した他の有名な攻撃がありました。これらは現在Wi-Fiに接続されているので、それらを利用することができます。
本当に、これまで話してきたすべてはソフトウェアでしたが、ファームウェアやハードウェアも攻撃できます。本当に、日々考えないようなものの層があり、それらが目的のために使用される可能性があるのです。
その意味で完全に同意します。また、何も完璧に安全にはならないという点も正しいと思いますが、過度に運命論的にならないよう注意したいと思います。完璧なセキュリティというものは存在しませんが、より良いセキュリティというものは確実に存在します。
セキュリティに投資すればするほど、攻撃者がそれを克服するために必要なリソースは増えます。そのため、あなたを攻撃できる組織の数や、彼らが成功する可能性を大幅に減らすことができます。
ルイーザ・ロドリゲス: はい、それは理にかなっています。そしてある程度安心できます。SolarWindsの場合、間違ったのは、良好なセキュリティがたくさんあったにもかかわらず、侵入経路が非常に多いため、すべての攻撃を防ぐことができなかったということでしょうか? それとも、これはより良いセキュリティで防げたはずで、学ぶべき例の1つなのでしょうか? 運命論的になるべきではなく、これは防げたし、回避する方法があったという例として。
セラ・ネボ: このハックから学ぶべきことは確かにあると思います。情報セキュリティの世界の構造は、特定の攻撃はすべて防ぐことができるようになっています。課題は攻撃対象の大きさです。できることがたくさんあるのです。
攻撃を見たら、少なくとも将来同様の攻撃は防ぐべきです。そこから可能な限り一般化して、特定の脆弱性に依存するのではなく、システムをより堅牢にするために何ができるかを考える必要があります。そして、どのシステムも完璧にはならず、二度と侵害されることはないということを認識する必要があります。
ルイーザ・ロドリゲス: なるほど。それは理にかなっています。他に学ぶべき一般的な教訓はあると思いますか?
セラ・ネボ: 1つの明らかな教訓は、サプライチェーン攻撃が深刻な問題であり、自社組織に適用するセキュリティを、システムにアクセスできるすべての他の組織にも適用する必要があるということです。これはSolarWindsだけでなく、例えばMicrosoftのリセラーの例でも出てきました。これは本当に重要なポイントだと思います。
2つ目は、「深層防御」の重要性かもしれません。すべての防御が潜在的に失敗する可能性があることがわかっているので、それらを積み重ねて「最初の防御線を突破されても、2番目の防御線がある。2番目の防御線を突破されても、3番目がある」というようにするのが本当に効果的です。
そうすることで、それぞれに一定の失敗確率があるとしても、全体的な成功の可能性を指数関数的に減少させることができます。
ここでは、攻撃者がそこに到達するために些細ではないことを行う必要があったように見えましたが、より多くの深層防御があれば非常に非常に有用だったと思います。
ルイーザ・ロドリゲス: なるほど。良いですね。AIに話を戻すと、少なくとも1つの事例で、高性能なモデルが不可逆的に漏洩したことがありますね。その事例について説明していただけますか?
セラ・ネボ: はい、いくつかの事例があります。これらの事例は興味深いですが、興味深くはありません。
ルイーザ・ロドリゲス: なるほど。
セラ・ネボ: 1つ目は、2023年にMetaが開発したオリジナルのLlamaです。これはフロンティア、またはフロンティアに近いモデルでした。それが漏洩し、大きなニュースになりました。
しかし、注目に値するのは、Facebookは基本的に丁寧に頼んだ人にはほぼ全員に配布していたということです。そしてどちらにせよオープンソース化する予定でした。
ルイーザ・ロドリゲス: そうですね。私はその話を聞いて、これはあまり大したことではないように思えました。
セラ・ネボ: はい。それは興味深かったです。興味深い実験でした。多くの興味深いことを学びました。例えば、微調整されたガードレールが機能しないことなどです。
ルイーザ・ロドリゲス: そうですね。ちなみに、微調整されたガードレールとは、ベースモデルが完全にトレーニングされて上手く機能した後に、モデルに追加される一種の「ルール」のことで、モデルが攻撃的なことを言ったり、爆弾の作り方の詳細な説明を与えたりしないようにするものです。
それらが機能しないことを学んだというのは、これらのガードレールがトレーニング済みモデルの上に単に追加されただけの場合、人々が簡単に回避できることがわかったという意味ですね。
しかし、Llamaモデルが漏洩したのは、モデルの重みを持っていた1人の人が、できるから、そしてしたかったから公開したという意味でしょうか?
セラ・ネボ: はい、基本的にそうだと思います。それが私の理解です。
ルイーザ・ロドリゲス: なるほど。他にもありましたか?
セラ・ネボ: はい。2つ目はもっと最近のものです。2024年にMistralのMiquモデルが漏洩しました。Mistralはフランスのスタートアップで、オープンソースの強力な支持者です。彼らが行っているのは、小さなモデルをオープンソース化し、より大きなモデルには大手企業と同様の有料APIを提供することです。
そして彼らのMiquモデルは、Mistral Mediumと呼ばれるものにかなり似ています。つまり、最も高性能なモデルではありませんが、オープンソースモデルよりも高性能なものが漏洩しました。
彼らは必ずしもオープンソース化する意図はありませんでしたが、扱い方もかなり緩やかでした。CEOは少なくとも、クライアントにかなりオープンに配布してきたと主張しています。彼が表現したのは、クライアントの1人の「熱心すぎる従業員」でした。
彼は冗談めかして...その従業員が匿名でHugging Faceにアップロードしました。Hugging Faceは多くのこれらのモデルがアップロードされる場所です。いわばこのオープンソースモデルのウェブサイトです。そして彼は冗談めかしてオープンコードベースへの変更を提案し、「帰属を検討した方がいいかもしれない」と言いました。明らかに彼らにとってこれは壊滅的な出来事とは見なされていませんでした。
はい、今のところこれが私たちが持っている2つのケースです。先ほど言及したように、これらはAIとオープンソースAIコミュニティ全般にとって興味深い影響があると思います。しかし、私が懸念していること、またはレポートが焦点を当てているような種類のものではないと思います。
ルイーザ・ロドリゲス: はい、それらは単にモデルの重みへのアクセスを持っていた人が、あまりよく保護されていなかったケースのようです。そのため、多くの人がモデルの重みにアクセスできて、「これをオンラインに載せたい、そして私に大きな影響はないだろう」と思ったようです。
一方、あなたのレポートが扱っているのは主に、これらのフロンティアモデルを構築している企業の従業員やリーダーシップのすべてが、最も高性能なモデルの重みがオープンソース化されたり公開されたりすることを本当に望んでいないケースですね。
つまり、これは彼らの意思に反して、非常にリソースの豊富な攻撃者がアクセスしようとしているケースでしょうか。
セラ・ネボ: はい、その通りです。ただし、「すべて」という言葉以外は。従業員全員がモデルの保護に完全に同意しているとは決して言えません。そしてそれが問題の大きな部分です。しかし、概念的にはその通りです。
ルイーザ・ロドリゲス: はい、はい。素晴らしい。そしてそのような問題については後でまた触れると思います。
あなたはRANDのフロンティアモデルのモデルの重みを保護する方法に関するレポートの共著者 - 実際には主要な著者だと思います - ですね。そこで38種類の異なる攻撃を概説し、異なる種類の洗練度の攻撃を防ぐために必要なセキュリティ対策のセットを含むセキュリティレベルのセットを開発しました。
文脈として、このレポートを読んでいるときに、動機付けられた攻撃者 - そしてあなたが話している攻撃者はたくさんいます - がフロンティアモデルのモデルの重みを盗もうとするかもしれない異なる方法をすべて基本的に知っていなければならなかったという感覚がありました。
どのようにしてこのレポートの研究と執筆を行ったのですか?
セラ・ネボ: はい、それは非常に興味深いプロセスでした。1年以上かけて取り組みました。ちなみに、素晴らしい共著者チームがいました - その多くはRANDにいますが、これはPattern Labsとの共同作業でもあります。
確かに、私たちのチームにはそのようなレポートを書くのに必要な情報のすべてが遠く及びませんでした。そこで私たちが行ったことの1つは、AIラボ自体、他のサイバーセキュリティの専門家、複数の国の国家安全保障の専門家、攻撃的サイバーと防御的サイバーの両方に取り組んでいる人々など、約30人の専門家とのインタビューやワークショップを複数回行いました。そして彼らの洞察を集約しようとしました。
次に、幅広い情報源のレビューを行いました。学術論文、政府の報告書、オンラインで見つけることができる他のものなど、数百の異なる情報源を引用しています。そのため、このペーパーは約150ページでそのすべてを何とかまとめようとしています。
ルイーザ・ロドリゲス: はい。その多くのページが基本的にこれらの攻撃ベクトルを概説しています。誰かが悪用しようとする可能性のある異なる方法や異なるメカニズムのすべてに本当に驚かされました。
しかし、それらについて話す前に、私たちは誰について話しているのでしょうか? 理論的には、どのような種類の攻撃者がモデルの重みを盗もうとする可能性があるのでしょうか?
セラ・ネボ: はい、あなたが指摘したように、確かに非常に多様な異なる攻撃者がいます。彼らは能力や持っているリソースの量が異なります。
このレポートで私たちが行いたかったのは、議論に少しニュアンスを加えることです。なぜなら、人々はしばしばシステム一般、または特にAIモデルの重みが安全かどうか、そして安全にできるかどうかについて話すからです。そして先ほど言及したように、何も完璧に安全にはなりません。
そこで、異なるレベルのリソースと能力に対して、特定のカテゴリーの攻撃者からシステムを安全にするために何が必要かを理解するのに役立てたいと考えました。それを可能にするために、私たちは5つのカテゴリーを定義しました - これを「運用能力」カテゴリーと呼んでいます - これは大まかに誰について話しているかを説明しようとするものです。
最初のカテゴリーをOC1、つまりアマチュアの試みと呼んでいます。多くの場合1人の人間です。数日間これに投資します。おそらく1,000ドルまでしか費やす余裕がありません。これは趣味のハッカーかもしれませんし、より経験豊富なハッカーかもしれません。ただし、「スプレーアンドプレイ」攻撃と呼ばれるものを使用します。つまり、多くのウェブサイトで試してみて、うまくいくかどうかを見るのです。
これは15歳のスクリプトキディーかもしれません。インターネットでスクリプトをダウンロードして好きなことをする人たちです。
ちなみに、1999年に15歳の子供が実際に国防総省をハッキングしました。
ルイーザ・ロドリゲス: ああ、なんてこと。
セラ・ネボ: しかし、それは1999年のことでした。今日の世界はもっと良くなっています。15歳の子供が自分の自由時間に1人で国防総省をハッキングするのはかなり考えにくいでしょう。
ルイーザ・ロドリゲス: そうですね。OK、それがアマチュアの攻撃者ですね。彼らは基本的にお金を稼ごうとしているのでしょうか? それが彼らの主な目的ですか?
セラ・ネボ: はい、より低いレベルのすべてについて、通常動機は金銭的なものです。または実際に、金銭的な理由か、面白いからです。「lulz」のためというのが意外と一般的な動機です。
ルイーザ・ロドリゲス: 他にはどのような攻撃者がいますか?
セラ・ネボ: 2番目のカテゴリー、OC2は「プロフェッショナルな機会主義的努力」と名付けました。これはまだ1人の人間が考えられますが、より能力が高いです。おそらく数週間と最大1万ドルを投資する意思があります。多くの場合、これはプロのハッカー個人や能力の高いハッカーグループによる攻撃のようなものです。より深刻な組織ですが、無差別な攻撃や優先度の低い攻撃を実行しています。全力を尽くしているわけではなく、多くの人を一度に狙っているだけです。
先に進むと、OC3があります。これを「サイバー犯罪シンジケートとインサイダー脅威」と呼んでいます。ここには実際に2つの脅威モデルがあります。1つは主要なサイバー組織です。Anonymous のような組織や、IP を盗んだりランサムウェアをインストールしたりする大規模なロシアのサイバー犯罪グループを考えてください。これらは多くの場合、数十人の個人が関与し、1回の攻撃に最大100万ドルを投資します。
これは、APT（高度な持続的脅威）と呼ばれるものを見始める最初の時です。彼らはあなたのネットワークに侵入し、発見されないように投資し、時間とともにあなたのシステムをより多く改ざんします。しかし、これらはまだ最も能力の高い攻撃者ではありません。まだかなり先があります。
ここでグループ化したもう1つのグループはインサイダー脅威です。ラボの研究者が決心してモデルを盗もうとするのを想像できるでしょう。彼らは情報セキュリティの観点からはあまり能力が高くないかもしれませんし、リソースも少ないかもしれませんが、最初からより多くのアクセス権を持っています。これは非常に重要です。
ルイーザ・ロドリゲス: それらをグループ化する理由は、同様のレベルの脅威をもたらすからですか?
セラ・ネボ: はい、それは非常に良い質問です。確かに、彼らは非常に異なります。彼らは異なる能力を持っています。私たちが一緒にグループ化することにした理由は、多くの重複する防御策が有用だからです。OC3で期待されることの1つは、彼らがゼロデイを持ち始めることです。
ゼロデイとは何か説明しましょう。ゼロデイとは、攻撃者が発見したが、防御者や世界の他の誰もまだ知らない脆弱性のことです。
これらの両方のケースで、彼らが最初の防御線を乗り越えることができると予想されます。それは、彼らがすでにその内部にいるか、ゼロデイや他の機会を持っているからです。
したがって、多くの防御策が重複しています。例えば、先ほど言及した深層防御などです。そして、彼らに対して防御するコストは、同程度の規模です。そうですね、彼らはまだ異なりますが、ある程度似たようなレベルの投資で防御できます。
OC4に進みましょう。これを「サイバー能力の高い主要機関による標準的な作戦」と呼んでいます。これらは信じられないほど能力の高い機関、主に国家による作戦です。1つの作戦に数百人が取り組むでしょう。彼らの努力はサイバーセキュリティだけに限定されず、人間情報、物理的な作戦なども含まれます。
1つの作戦に最大1000万ドルの予算を持っているかもしれません。他にもユニークな能力を持っているかもしれません。例えば、法的保護を持っているかもしれません - 彼らは罰せられることなく犯罪を犯すことができます - あるいは、インターネットのバックボーンへのアクセスなど、社会全体の通信を傍受するインフラを持っているかもしれません。
ほとんどの国にとって、OC4が彼らができる最高のレベルです。しかし、非常に能力の高い一部の国にとっては、これは日常的なことです。彼らは毎年100回もこのようなことを行うことができます。人々が国家支援の作戦について話すとき、通常これのようなものを意味します - 少なくとも、私たちが通常見るものの上位にあるものです。
例えば、ロシアと中国の両方が、ウクライナの電力網を停止させるなど、特定の目標を達成しようとする多くのグループを持っています。あるいは商業機密を盗もうとしています。彼らにとっては重要ですが、捕まっても大変なことにはなりません。目標は彼らが達成しようとしていることです。
これらのグループは、産業のサイバーセキュリティ基準では非常に能力が高いと考えられていますが、国家の視点から見ると、少なくとも特に能力の高い国家の視点から見ると、これは彼らの作戦の量重視の版です。
ルイーザ・ロドリゲス: なるほど。
セラ・ネボ: 最後に、OC5というグループがあります。これを「サイバー能力の最も高い機関による最優先作戦」と呼んでいます。これらはサイバーセキュリティ世界の頂点です。1つの作戦に数千人が取り組んでいるかもしれません。10億ドルが投資されているかもしれません。
外部、例えば学界で知られていることよりも何年も、あるいは数十年も先を行っているかもしれません。これらは世界で最も能力の高い国家の数少ない最優先作戦です。
古典的な軍事との類比をするなら、前の作戦がその国の軍隊だとすれば、これは特殊作戦部隊のようなものです。
ルイーザ・ロドリゲス: なるほど、これらは本当に洗練度の幅が広いようですね。また、動機もさまざまなようです。一部は金銭的な動機、他は面白さのため、そして国家安全保障や紛争、政治に関連するものもあるようです。
これらの攻撃者が何をできるのか、過去に何をしたのかについて、どの程度確信を持てるのでしょうか?
セラ・ネボ: はい。より低い能力レベルについては非常に確信を持てると思います。OC1とOC2のすべて、つまりよりアマチュアや機会主義的なものについては、毎年何万もの例を目にします。少なくとも能力のある企業はそれらを通常検出して停止できることがわかっています。毎年のトレンドをフォローするレポートがあります。何が増加し、何が減少しているのか。それについてはよく理解しています。
3番目のレベル、APTに触れ始めると、知っていることは少なくなります。検出できる数は少なくなりますが、それでもいくつかの理解を持つのに十分な数があります。
より高いレベルになると、大きな不確実性があります。専門家と話すと、意見にも大きな差があります。極端な例では、標準的な業界のベストプラクティスを使用するだけで、最も能力の高い国家の作戦からも保護されると主張する専門家もいれば、物理的に可能なことは何もこれらの組織を止めることはできないと言う専門家もいます。
私は、標準的な業界のプラクティスだけで十分だという最初の極端な意見は、証拠によって明らかに否定されていると思います。それが真実でないことを示す十分な例がすでにあると思います。そして、もう一方の極端な意見も少し誇張していると思います。歴史的に、国々が手に入れたいと思っていたが手に入れられなかった情報の例があるので、それも誇張だと思います。
しかし、その間には依然として大きな不確実性があります。何が必要で、組織を運営する必要があるが、物理的に可能なすべてを行っているわけではない人にとって、実際にどの程度実現可能なのかについては、まだ大きな不確実性があります。
ルイーザ・ロドリゲス: 潜在的な「攻撃ベクトル」 - 基本的にこれらの攻撃者がモデルの重みにアクセスできる方法 - についていくつか話してみましょう。1つだけ挙げるとしたら、どの攻撃ベクトルがあなたを最も心配させますか?
セラ・ネボ: それは難しい質問です。1つを選ぶのは難しいです。なぜなら、あなたが以前指摘したように、たくさんあるからです。
もしかしたら、具体的な1つに入る前に、セキュリティは大まかに言えば最も弱いリンクのようなゲームだということを指摘する価値があるかもしれません。つまり、多くのことを正しく行っても、ある種の攻撃に対して保護されていない場合、攻撃者はその攻撃を利用できるということです。
「重要」と言うときに、定義するのが少し難しいです。なぜなら、現在最も防御が弱いものが改善すべき最も重要なものだからです。
ルイーザ・ロドリゲス: はい、それは理にかなっています。
セラ・ネボ: しかし、古典的なカテゴリーの1つから始めましょう。それは、脆弱性を利用してネットワーク内で悪意のあるコードを実行し、重みを抽出しようとするものです。
これは大まかにどのようなものでしょうか? もちろん、実際には多くの異なる形を取りますが、攻撃者は、例えば従業員にメッセージを送ったり、あるウェブサイトを訪問させたりして、そのウェブサイトやメッセージがその従業員のコンピューターでコードを実行させ、そこから会社のサーバーに飛び移ります。
彼のコンピューターから他のサーバーに移動し、重みが保存されている場所に到達して、それらをコピーして攻撃者に送信します。
明らかに、彼らはそれをする権限を持っているわけではありません。それを防ぐためのさまざまな防御策があります。例えば、ウェブサイトにアクセスしたりメールを読んだりするとき、それと対話するソフトウェア - 例えばブラウザやメールクライアント - は特定の方法でのみ対話するはずです。望むどんなコードでもコンピューターで実行させることはできないはずです。しかし、その攻撃者が例えばゼロデイにアクセスできる場合 - これらは先ほど言及したように、あなたやブラウザの開発者が知らない脆弱性です - そうすると、許可されていないはずなのに、あなたのコンピューター上でコードを実行できるかもしれません。
感覚をつかむために、先ほど侵害がどれほど一般的かについて話しました。ゼロデイは毎日、何百もの製品で発見されています。個人にとっては、それを発見するのはかなり難しいです。なぜなら、正当な研究者は「責任ある開示」と呼ばれるものを行うからです。彼らはまず開発者に伝え、開発者はそれを修正することになっています。そして開発者が修正した後にのみ、他の人々が悪用できないように、世界の残りの人々に伝えます。
ですので、もしあなたが悪意のある行為者で、それを悪用したいのなら、最初に見つける必要があります。あるいは少なくとも、まだ修正されていない程度に早く見つける必要があります。
そのため、才能のあるハッカーはゼロデイを見つけて悪用することができますが、それは難しいです。誰にでもできることではありませんが、大規模な組織はゼロデイを探す研究者を何十人も抱えることができ、それによって彼らのチャンスが増えます。
私たちはこれを2つのタイプに分けることがよくあります。一般的なソフトウェアの脆弱性を見つけようとすることができます。例えば、私たちが全員使用しているオペレーティングシステム（Windows、Linux、Mac）やアンチウイルス、ブラウザなどの脆弱性です。あるいは、その会社や組織が使用している製品を具体的に調査し、それらの脆弱性を探すこともできます。これはあまり一般化できませんが、その組織に特に関心がある場合は、彼らが使用している可能性のあるニッチな製品の脆弱性を見つける可能性が高くなります。
ルイーザ・ロドリゲス: それはすべて理にかなっています。そして明らかに、あなたが説明しようとしていることには、さらに多くのステップがあります。しかし、私は本当に興味があります。すべてのゼロデイが同じように価値があるのでしょうか? それとも、一部は取るに足らない誤字であり、他は本当に意味を変えてしまうようなものなのでしょうか?
セラ・ネボ: ゼロデイの深刻度を評価するための全スコアリングシステムがあります。あなたの言う通り、それは確かに状況によって異なります。深刻度は、それが何を可能にするかによって異なります。例えば、望むような悪意のあるコードを実行できることは、最悪のことの1つです。特定のファイルを編集することしかできない場合もあるかもしれません。あるいは、知るべきではないことを読むことができるかもしれません。特定の設定を変更することができるかもしれません。
また、それを行うための前提条件によっても異なります。例えば、すでにログインしてネットワーク内にいる必要がある脆弱性は、インターネット上で誰かと対話するだけで使用できる脆弱性よりも深刻度が低いかもしれません。
そのため、全体的な深刻度システムがあります。私が話しているほとんどすべての脆弱性は、10段階中10、またはそれに近い深刻度です。そのようなものでさえ、かなり頻繁に発見されています。
ルイーザ・ロドリゲス: なるほど。ああ、なんてこと。つまり、基本的に洗練された才能のある研究者がこれらを見つけることができるが、責任ある研究者が見つける前に見つけるのは難しいということですね。そこから、無責任または悪意のある人がゼロデイを見つけた場合、「このネットワーク上の別のマシンに入れてください」というようなコードを実行できます。そして、そこから、おそらくモデルの重みが保存されているフォルダーにアクセスでき、何らかの方法で検出されずにそれらを送信できるということですね。
このベクトルを理解しましたか?
セラ・ネボ: はい、大まかには正しいと思います。確かに混乱することがあります。サイバー攻撃にはさまざまなコンポーネントがあります。ネットワークに侵入すること、ネットワーク内での横方向の移動と呼ばれるもの、重みがさまざまな方法で保護されている可能性があります。おそらく暗号化されているかもしれません。デバイス内にあるかもしれません。そのような防御を克服する必要があります。検出されないようにするための他の事項もあります。
これらすべてに脆弱性を使用して、それらの目標のすべてを達成することができます。そして、それらの脆弱性はすべて、あなたが最初に見つけた場合、つまりまだ公に報告されていない場合は、ゼロデイと呼ばれます。
ルイーザ・ロドリゲス: なるほど。なぜこの種の攻撃を特に心配しているのですか?
セラ・ネボ: まず、多くの攻撃を特に心配しています。しかし、ここにはいくつかの興味深い点があります。
1つは、これが非常に一般的だということです。これが常に起こっていることを私たちは知っています。情報セキュリティ攻撃の基本中の基本です。
2つ目は、機械学習インフラが特に驚くほど安全ではないということです。他のタイプのソフトウェアインフラよりもさらに安全ではありません。これを引き起こしている要因は2つあると思います。
1つは、業界が非常に急速に進歩しており、誰もが市場に出るために急いでいるという事実です。これはハードウェアレベルからソフトウェアレベルまで当てはまります。
GPUファームウェアは通常監査されていません。これは他の多くのファームウェアでは当てはまらないことです。人々がトレーニングやトレーニング実行の監視に使用するソフトウェアインフラには、これらの巨大で広がった依存関係があります。以前にサプライチェーン攻撃について言及しました。これらのシステムに脆弱性が導入されたことがすでにあります。
これらのインフラの一部は、ドキュメントに「これは安全な環境で使用することを意図していません」と記載していますが、これらはすべての機械学習システムで使用される重要なインフラです。つまり、機械学習インフラの状況は特に悪く、ソフトウェアシステムの標準的な慣行にさえ達していません。そしてそれ自体がそれほど素晴らしいものではありません。
ルイーザ・ロドリゲス: はい、なるほど。
セラ・ネボ: 私が心配している別のことがあります。より多くの商業企業が心配すべきだと思います。これはサイバー犯罪者だけでなく、国家について心配することに移行するにつれて - 国家であれば、ゼロデイを入手する方法で不正行為ができるということです。
例えば、中国には「ネットワーク製品セキュリティ脆弱性管理規制」と呼ばれる便利な一連の規制があります。大まかに言えば、この規制は、中国に足跡のある研究者や組織は、発見した脆弱性を政府に報告する必要があると述べています。そして、私たちは政府がそれらを攻撃的なサイバー組織に引き渡していることを知っています。
同時に、他のほとんどの組織とその情報を共有した場合、厳しい罰則も設けています。ですので、中国が何十、何百、正確な数はわかりませんが、自分たちのゼロデイを持っていても驚くべきことではありません。
もう1つの方法として、たとえ国家でなくても、十分に能力のある行為者であれば - おそらくOC4レベルかOC5レベル - ゼロデイが報告されるチャネルにハッキングすることができます。他の人々が脆弱性を見つけた場合、何らかの方法で会社に報告する必要があります。そのためのさまざまなインフラが整っています。そのインフラにアクセスできれば、誰かが見つけることができるすべての新しいゼロデイの継続的なストリームを得ることができます。
これは大きな課題です。以前に深層防御について言及しました。深層防御の古典的な概念は、誰かが1つか2つのゼロデイを持っている場合に本当に役立ちます。つまり、3層の防御があるので大丈夫だということです。しかし、誰かが50や100を持っている場合、使用している多くの製品やハードウェアにゼロデイを持っていると予想する場合、それに対して防御するのは非常に大きな課題です。
最後に、ゼロデイをたくさん持っているだけよりもさらに重要で極端なことがあると言及する価値があるかもしれません。歴史的に、情報機関は概念的に新しい攻撃を特定することにおいて、世界よりも何十年も先を行っていました。1つの例を挙げましょう。
ルイーザ・ロドリゲス: はい、素晴らしいです。
セラ・ネボ: 情報セキュリティ、特に暗号学に非常に詳しい人は、これを知っているかもしれません。差分解読と呼ばれる攻撃があります。これは暗号化システムを解読したい場合、または一般的に暗号システムに対する攻撃です。
これは名目上1980年代後半に発見されました。そしてそれは信じられないほど強力です。それ以前に存在した暗号化方法の大多数は、この方法によって破られます。そして、差分解読に耐性のある暗号化を作るには、この特定の攻撃について本当に知っていて、そしてすべてのパラメーターを微調整して、それができないようにする必要があります。
さて、1980年代に発見されてから数年後、IBMの人々は1970年代半ばごろからそれを知っていたと発表しました。彼らがそれを発見したとき、NSAと議論しました。そしてNSAは、IBMによると、すでにそれを知っていて、明らかにIBMに秘密にするよう説得しました。
つまり、1975年 - そしてそれ以前の何年間かは推測しなければなりません - から1989年頃まで、彼らがほぼすべての暗号化を破ることができたことを私たちは知っています。これは複数の例の1つであり、常に何年も後になって初めて発見します。
ですので、国家に対して防御しようとする場合、特定の製品に特定の脆弱性があるかもしれないということだけでなく、防御できる方法の完全なクラスを彼らが基本的に損なっている可能性があることを考慮に入れる必要があります。
ルイーザ・ロドリゲス: そうですね。体系的に。そして彼らはその事実を数十年間秘密にしておくことができるかもしれません。それは本当に衝撃的です。あなたが心配している別の攻撃ベクトルは何ですか?
セラ・ネボ: 悪意のある組織が情報にアクセスできる非常に異なる方法について考えてみましょう。人間情報収集です。大まかに言えば、他の人に何かをしてもらうことです。組織がそれを行う方法は幅広くあります。
1つの古典的な方法は、アメとムチです。アメは賄賂や単なる動機付けです。時々、この分野に馴染みのない組織が考えるのは、誰かが暗い路地で近づいてきて、「あなたの全ての価値観を裏切るために数百万ドル払います」と言うというようなものです。そして、あなたはすべての価値観を裏切るかどうかについて深く考えます。そして、もしあなたの従業員が十分に良い、信頼できる人々であれば、彼らはそうしないでしょう。
ルイーザ・ロドリゲス: そうですね。そしておそらく多くの雇用主は、それについて考えるとき、「いいえ、私の従業員は非常に価値観を共有しています。彼らはこの仕事を大切に思っています。私たちはそれほど脆弱ではないでしょう」と考えると思います。
セラ・ネボ: その通りです。それさえも、時には過度に仮定されていると思います。
しかし実際には、人間情報収集を行う組織はそれよりも賢いと思います。彼らがよく行うのは、その人の既存のイデオロギーに合う物語を作ることです。そうすることで、その人は正しいことをしていると信じるか、少なくとも自分が正しいことをしていると便宜的に納得することができます。同時に、この人が提供する利益も得られます。
例えば、AIの民主化を信じている従業員がいるとします。つまり、それは公共に奉仕し、誰もが自由に使用できるべきだと考えています。彼らは、実際にそれを達成しようとしている組織を助けているという物語を作ることができます。
あるいは、彼らが所属する組織が、彼らが何をしているのか、モデルの能力は何なのかについてもっと透明性を持つべきだと信じているかもしれません。おそらくジャーナリストと話をしているのかもしれません - もちろん、そのジャーナリストはモデルをリリースしたり悪用したりしませんが、モデルの能力について報告し、実際にAIモデルの安全性とセキュリティを向上させるのに役立つでしょう。
あるいは、AIの進歩はもっと遅くあるべきだと信じているかもしれません。なぜならAIは非常に危険だからです。そのため、企業に金銭的なインセンティブがないようにする唯一の方法は...
このようなことを共有する理由について、無限のリストの言い訳を挙げることができます。そして、これは本当に、誰かに何かをさせることがどれほど簡単かのバランスを変えると思います。
ルイーザ・ロドリゲス: その通りです。そして明確にしておきますが、私たちはまだ基本的に、悪意のある行為者がモデルの重みを盗もうとしているケースについて話しています - つまり彼らはその人と価値観を共有しているふりをしているのですね。
セラ・ネボ: その通りです。
ルイーザ・ロドリゲス: それは本当に不安になります。人間情報のケースはすべてそのようなものですか?
セラ・ネボ: 必ずしもそうではありません。時には、組織の目標にすでに同意している人を見つけることもあります。良い例としてアナ・モンテスがいます。これは有名な例です。彼女は米国情報コミュニティで働くキューバ分析官でしたが、実際にはキューバの情報機関自身のために働いていたことが判明しました。
元々、彼女は司法省で事務職をしていました。彼女は中米における米国の政策に対して公然と反対を表明していました。彼女は本当にそこでの米国の政策に同意していませんでした。キューバの情報機関はそれを見て、彼女に連絡を取り、彼女は協力することに同意しました。嘘をつく必要はありませんでした。彼女は本当にその目標に同意していました。
そして彼女は1985年から2001年まで、米国の情報コミュニティからキューバの情報機関に情報を渡し続けました。これには、キューバに配置された潜入諜報員の身元も含まれていました。これはかなり大きな問題でした。
ルイーザ・ロドリゲス: これは映画でしか起こらないような、そして映画以外では起こらない場合は例外で過去のものだと感じるような種類のことのように思えます。これがまだ容易に起こり得ると考える理由はありますか?
セラ・ネボ: はい、これは起こっていると思います - かなり頻繁にさえ。普通は聞かないだけです。しかし、公の例だけを取っても、ここ数ヶ月の間に、2人の海軍将校が中国に秘密情報を渡したとして起訴されました。
ルイーザ・ロドリゲス: 彼らの動機は分かっていますか?
セラ・ネボ: プロセスがまだかなり初期段階なので、確信は低いです。しかし、少なくとも1人は罪を認めており、主にそうするために金銭を支払われたからのようです。
ルイーザ・ロドリゲス: なるほど。つまり、賄賂、価値観の一致。おそらく価値観の一致プラス賄賂ですね。このカテゴリーには他のものはありますか?
セラ・ネボ: はい。ここまで、人間情報のアメの部分について話してきました。さらに暗い版もあります。それは恐喝の方向性です。
一部の国は、協力しない限り家族のメンバーを投獄したり、拷問したりさえします。そして、大多数の従業員は、そのような事態に直面するよりも、単に求められたことをする方を好むと思います。
例えば、ロシアは、家族を殺すと脅して、ウクライナの情報将校に彼らのために諜報活動をさせていたと非難されています。
ルイーザ・ロドリゲス: ああ、神様。それは本当にひどいです。
セラ・ネボ: ここでも、これをより効果的にするために使われるトリックがあります。再び、それが行われる方法は必ずしもこの種の全か無かの、突然のものではありません：あなたの価値観を捨てるかどうかを決めなければならない - むしろ、それはしばしばより肯定的な相互作用から始まります。
これは時々「グルーミング」と呼ばれます。これは他の種類のグルーミングとは異なります。アイデアは、大義を信じることから始め、徐々に境界を侵食し、彼らにしてはいけないことをさせることです。しかし、誰も大したことではないと想像できるようなことです。一度そうすると、段階的に進めていきます。
そして、ある時点で彼らが実際に抵抗し始めると、あなたは彼らがすでに行った正当でないすべてのことを報告することができます。そして、例えば、あなたが外国の情報機関であることを明らかにすることができます。そうすると、これらのことは非常に異なる光の下に置かれます - そして、もしこれらが会社やFBIなどに報告されたら、非常に悪く見える可能性があります。
そのため、彼らは最初にはなかったものでさえ、今では恐喝するものを持っています。
これは、注意深くあり、境界線を柔軟にしすぎないようにする良い理由です。なぜなら、最初は大したことではないように見えても、後の段階で大きな問題に変わる可能性があるからです。
ルイーザ・ロドリゲス: はい、はい、はい。OK、つまりそれがムチですね。このカテゴリーには他のものがあるのでしょうか、それともこれらが主なものでしょうか?
セラ・ネボ: はい。全く異なるルートを取ることもできます：既存の従業員を取り、アメやムチを与える代わりに、自分の候補者を送り込むことができます。
これはより制限されていて、十分にリソースのある組織にのみ可能です。しかし、潜在的に非常に優秀な候補者を訓練し、その後会社に送り込むことができます。そうすることで、初日から完全に攻撃者に忠実な人を持つことができます。
これを行う組織はそれほど多くありません。そして確かに多くのリソースが必要ですが、これらは行うことができます。
ルイーザ・ロドリゲス: このバージョンの人間情報がどれくらい一般的かについて、感覚はありますか?
セラ・ネボ: 本当にはありません。一般的に人間情報の世界では、サイバーセキュリティとは異なり、学術コミュニティがそれほど強くないので、オープンな場で多くのことが起こらず、多くのことが特定され議論されません。
そのため、これらのすべての方法論において、私たちははるかに明確さが少なく、これは極端な例です。そのため、はい、言うのは本当に難しいでしょう。
ルイーザ・ロドリゲス: 実生活でこれが起こった面白い例はありますか? 再び、私は単に「きっとそうではない。これは映画の中だけだ」と思ってしまいます。
セラ・ネボ: これらのケースはまれで、両側とも話したがらないので、私たちが知っているケースは少なく、遠く離れています。
しかし、おそらく1つの興味深い例 - これはかなり古い例ですが - ハロルド・キム・フィルビーは、実際にまだケンブリッジ大学の学生だったときにソビエトによってリクルートされ、その後、英国政府の最も機密性の高い部分に到達するよう指示された英国のMI6の幹部でした。それがおそらくその良い例です。
ルイーザ・ロドリゲス: はい、それは驚くべきことです。そして、これは防御するのが信じられないほど難しいように思えます。人の問題のように思えます。そして人の問題は、「ゼロデイやバックドアに気付いてパッチを当てる」というようなことよりもはるかに難しいように感じます。
セラ・ネボ: はい、それは課題です。一般的な解決策については後で話しますが、ここで簡単に言えば、いくつかのことを行う必要があると思います。
1つは、これは数の問題です。組織は誰にでもアクセスできるわけではありません。そのため、リスクを減らすために、許可される人数を制限する理由かもしれません。
2つ目は文化的なものです。これらの解決策は技術的な解決策ほどクリーンカットではありませんが、文化的な介入、そして人々が何を注意すべきか、何を報告すべきかを知っていることが非常に効果的であるという多くの証拠があります。
ちなみに、実際に妥協されている人が拒否したり報告したりするだけでなく、周りの人々がそれを特定する可能性があるからです。そして、通常は誰かが疑っているという多くの証拠があります。そのため、疑っているときに報告するかどうかが、これらのことが時間内に発見されるかどうかを本当に重要な要因です。
最後に、技術的な解決策もあります。必ずしも人々の選択を変えることはできませんが、彼らがアクセスできるものを変えることはできます。
例えば、重みについて話している場合、重みにアクセスする人を減らすことができますが、潜在的に、1人の人 - あるいは少人数のグループでさえ - が重みを完全にアクセスして抽出できるような方法ではないような状況を作ることができます。それは非常に重要なコンポーネントになる可能性があります。
ルイーザ・ロドリゲス: はい、素晴らしいですね。その1つは特に安心できます。関連する情報をすべて1人の人に与えないようにすれば、本当に役立つように思えます。
OK、これの別の例で、私にはとても驚くべきものに聞こえるのは、サイドチャネル攻撃を通じてです。それらは何か説明できますか?
セラ・ネボ: はい、それはかなり面白い攻撃ベクトルです。舞台を設定しましょう：何世紀もの間、人々が通信システムを理解し、その防御をどのように破るかを考えようとしたとき - 例えば暗号化; 暗号化されたテキストを知りたい - 彼らは入力を見ていました。暗号化したいテキストがあり、ここに出力があります。ここに暗号化されたテキストがあります。
ある時点で、誰かがシステムの他のすべての側面について考えました。システムの温度はどうか? 電気使用量は? 実行中に発する音は? 実際の暗号化を完了するのにかかる時間は?
私たちは計算を抽象的なものと考える傾向があります。それがデジタルシステムが行うことです：抽象化することです。しかし、その計算を実際に実行する物理的なメカニズムが常にあります - そして物理的なメカニズムは世界に物理的な影響を与えます。
これらの物理的な影響はすべて非常に情報豊富であることが判明しました。非常に単純な例を挙げましょう。ここには温度や電気など、多くのものがあります。しかし、非常に単純な例を挙げましょう。
RSAは有名な暗号化の一種です。その操作の一部として、1つの数を別の数のべき乗にします。かなり単純です。ここでは何か特別なことを言おうとしているわけではありません。
これを行うための効率的な方法は、主に乗算と2乗を使用することです。何らかの理由で、これが効率的な方法です。
2つの数を掛け合わせる操作と、数を2乗する操作では、使用する電気量が異なることが判明しました。そのため、時間とともに電気使用量を追跡すると、文字通り正確にどの数を扱っているかを特定でき、数分で暗号化を破ることができます。これはサイドチャネル攻撃の一例です。
これはやや古いものです。正確な時期は覚えていませんが、10年以上前から知られています。しかし、より現代的な例を挙げると、ちょうど1年前に、携帯電話でマルウェアを実行できることを示す新しい論文が発表されました。携帯電話は多くの場合、私たちの仕事用デバイスではありません。個人用デバイスだと考えがちです。
携帯電話を通じて、携帯電話のマイクを使って、誰かがパスワードを入力する音を聞き、そのパスワードが何であるかを特定できます。異なるキーをタップすると、わずかに異なる音がするからです。
ルイーザ・ロドリゲス: 物理的なキーを持つやや古い携帯電話のことを言っているのですか、それともタッチスクリーンにデジタルキーがある私のiPhoneのようなものを言っているのですか?
セラ・ネボ: ああ、申し訳ありません。明確にしておきます：実際には、彼らが携帯電話にパスワードを入力しているということではありません。携帯電話が机の上にあるということです。彼らは仕事用コンピューターにパスワードを入力しています。仕事用コンピューターのパスワードを特定します。
ルイーザ・ロドリゲス: なんてことだ。それは驚くべきことです。
セラ・ネボ: クラウドコンピューティングがより一般的になるにつれて、サイドチャネル攻撃が大きな問題になっていると思います。クラウドで何かを実行する場合、多くの場合、他の人と同じサーバーを共有するため、特定のリソースを共有することになります。
多くの人が直接または間接的に、あなたのアプリケーションがどれだけの処理を使用しているかなどを実際に見ることができます。そして、彼らが賢ければ、あなたのアプリケーションの情報を推測することができます。そのため、これはクラウドコンピューティングにおける潜在的な情報漏洩の大きな領域です。
ルイーザ・ロドリゲス: それは私が予想していたよりもさらにクレイジーです。マシンのハミング音を通じて何かを推測できるという例をいくつか読みました。そして私は「確かにそれほど多くのことを推測することはできないだろう」と思いましたが、絶対にできるのですね。
テンペストは第二次世界大戦からの有名な例[サイドチャネル攻撃の]だと思います。そこで何が起こったのか説明できますか?
セラ・ネボ: はい。人によってこの用語を少し異なって使用します。テンペストと言うとき、通常は電磁放射を通じたサイドチャネル攻撃を考えています。
現在では、実際に電磁放射からのサイドチャネル攻撃から保護するための標準があります。しかし、この段階では攻撃に焦点を当てましょう。
これは、国家安全保障機関が世界の他の部分よりも数十年前に何かを発見したという非常に興味深い例のもう1つです。サイドチャネル攻撃の非機密の議論は1985年が最初でした。これはvan Eckの[研究]で、そのため学術的な議論では時々Van Eck phreakingと呼ばれます。
しかし、先ほど指摘したように、実際には複数の国がこの種のサイドチャネル攻撃を第二次世界大戦の頃から認識していました。つまり、政府がこの情報を自由に収集できた4十年間があったのです。
隣の部屋に録音[デバイス]を置くだけで、窓を通してレーザーを使用して - 実際にそうしていました - さまざまな種類の情報を収集することができました。
テンペストは単に電磁放射の使用だと言いたいと思います。私たちの日常の経験ではあまり直感的ではないかもしれませんが、そこでのロジックは音や他の種類のものと全く同じです。
しかし、これは政府がすでに数十年間収集していた、あなたが考えもしなかった全く異なる次元のものがあり得るという素晴らしい例です。
ルイーザ・ロドリゲス: 数十年間。はい。それは信じられません。OK。私たちが話していないものがたくさんあり、それらはすべて本当に興味深く、私が強く存在しないと賭けていたものです。
スパイ映画で見たら、「ハハ。それは誰かのコンピューターに侵入する面白い作り話の方法だ」と思っていたでしょう。そして実際には、スパイ映画で見たものよりも実際にはもっと驚くべきものです。もっと驚きです。
セラ・ネボ: これらの異なる攻撃ベクトルの結論として、私が考える重要なポイントを述べさせてください。計算システムには文字通り何百万もの物理的および概念的なコンポーネントがあり、その約98%はあなたが聞いたこともないものがインフラに埋め込まれています。そして、それらの途方もない数が、あなたのセキュリティの前提の壊滅的な失敗につながる可能性があります。
これが理由で、イランの秘密核プログラムは侵害を防ぐことができず、ほとんどの米国機関は複数の侵害を防ぐことができず、ほとんどの米国の国家安全保障機関は侵害を防ぐことができませんでした。
そのため、リソースが豊富で専念した攻撃者に対してシステムを本当に安全にすることは、本当に、本当に難しいのです。
ルイーザ・ロドリゲス: はい、完全に納得しました。
もう1つのカテゴリーは、データやネットワークへのアクセスを得ることを含みます。盗聴はその一例です。
もう1つの例は、エアギャップネットワークへのデジタルアクセスを得ることです。エアギャップネットワークとは、他の安全でないネットワーク - たとえば公共のインターネットは安全でないネットワークです - から物理的に隔離されたネットワークです。エアギャップネットワークにアクセスすることはどのように可能なのでしょうか?
セラ・ネボ: それは素晴らしい質問です。実際に、あなたがセキュリティを非常に気にしているとイメージしてみましょう。先ほど議論したように、たくさんのゼロデイがあることを知っています。そこで「コンピューターがインターネットに何らかの形でつながっていれば、信頼できない。何をしても、誰かがそれを克服する可能性がある」と考えます。
あなたが説明したように、エアギャップネットワークをセットアップします。それは何にも接続されていません：エアギャップはエアギャップと呼ばれるのは、文字通りあなたのネットワークと他のすべてのものの間に空気があるからです。
エアギャップネットワークに侵入する方法はいくつかあります。
まず注目に値するのは、ネットワーク接続によって接続されていないからといって、システムが他の方法で世界と相互作用しないわけではないということです。通常、ネットワーク接続、例えばイーサネット接続を介してインターネットに接続されていない場合でも、他の方法で通信する必要があります。
セキュリティアップデートをどのように取得しますか? AIのコンテキストでは、トレーニングデータをどのように取り込みますか? そのような安全なシステムでトレーニングした後、モデルをどのように取り出しますか?
多くの場合、それを行う方法はUSBスティックを通じてです。これがエアギャップネットワークと相互作用する最も一般的な方法です。
攻撃者ができることは、外部のコンピューター - おそらくシステムを扱うエンジニアの1人のコンピューター - にマルウェアを実行することです。そのマルウェアは最初にインターネットに接続されたコンピューターに感染します。そのマルウェアはUSBスティックに自身をコピーし、USBスティックをエアギャップネットワークに接続すると、そのコンピューターに自身をコピーし、そしてエアギャップネットワーク内で望むことを何でも行います。
そして次にUSBスティックを挿入するとき、そのマルウェアは抽出したい情報 - 例えば重み - をUSBスティックを通じて送信します。
ルイーザ・ロドリゲス: それはひどいです! それはエアギャップネットワークの意味を本当に台無しにしているように思えます。なぜ? それは大きな欠陥のように思えます。状況はそれよりも良いのでしょうか?
セラ・ネボ: うーん、私はそれほど厳しい評価はしないでしょう。それは確かに物事をずっと難しくします。このようなマルウェアを書くのは本当に面倒です。
おそらく、コンピューターへの継続的な接続を持つのとは対照的に、これらの時々の相互作用に制限されています。そのため、エアギャップネットワークを持つことは、コンピューターをインターネットに接続するよりも確実に良いと思います。しかし、確かに侵入不可能ではありません。そうですね。
ルイーザ・ロドリゲス: OK。つまり、それでも改善であり、良いことで価値があります。しかし、これは脆弱性です。このタイプのマルウェアがUSBを通じてインストールされた実際の例はありますか?
セラ・ネボ: はい、これは多くの場合に起こっています。1つ小さなことを言っておきますと、USBスティックを使用すること自体は情報セキュリティの脆弱性ではありません。なぜなら、理論的には、USBスティックを使用するからといって、コードを実行できるわけではないからです。
理論的には、USBの内容を見ることはできますが、実行するつもりのないコードは実行できないはずです。しかし、他のすべての場所と同様に、脆弱性があります。
USBスティックは実際に素晴らしい候補です。なぜなら、それはかなり複雑なプロトコルだからです。そしてそれを挿入すると、時々何かがポップアップして、これを挿入したときに何をしたいかを尋ねます。それは常に、何かが自動的に起こっていることを示しています。そのため、それは潜在的に悪用される可能性があります。
繰り返しますが、完璧な世界では、それができないはずです。しかし、私たちは十分に疑り深くなければなりません。なぜなら、それが何度も起こったのを見てきたからです。
では、そのような時について話しましょう。ここまで、完全にデジタルでネットワークに侵入することについて話してきました。これらのすべてのインターネット、エアギャップネットワークへのUSBを通じて行うのです。それを行うのは簡単ではありません。通常、それはAPT - 高度な持続的脅威 - になります。国家さえもそうなる傾向があります。
しかし、いくつかの例があります。いくつか挙げましょう。Retroは1つ、USB Stealer、PlugX、Agent.BTZなどです。おそらく他のものよりも有名なのはStuxnetで、これも同様のことを行いました。はい、かなりの例があります。
ルイーザ・ロドリゲス: Stuxnetについて実際に数言語で説明していただけますか? それは有名な例ですが、私はそれについてあまりよく知りませんでした。
セラ・ネボ: はい、Stuxnetは興味深いものです。多くの人がこれを知っていると思いますが、Stuxnetはイランの核施設に侵入し、その後、彼ら自身の遠心分離機を自己破壊させたマルウェアでした。彼らは遠心分離機が過度に働いて自己破壊するように設定しました。そしてそれはかなり印象的でした。少なくとも4つのゼロデイを使用したことがわかっています。USBスティックを通じて飛び移る能力も持っていました。ネットワーク共有、プリンターの脆弱性、その他の方法を通じて伝播する能力もありました。そうですね、これはかなり高度なマルウェアの有名な例です。
ルイーザ・ロドリゲス: はい。StuxnetがUSBを使用したことを知りませんでした。それは本当に不安になります。なぜなら、Stuxnetをセキュリティ侵害の本当に恐ろしい例だと考えているからです。
では、これらがいくつかの例です。私はこれらを魅力的だと思います。聴衆の皆さんがこれらの事例の略称を以前に聞いたことがあり、興味がある場合は、それらについて読むことを強くお勧めします。それらは驚くべきものです。
セラ・ネボ: USBについてもう1つ言及する価値があると思うのは...非常に安全なエアギャップネットワークを一時的に脇に置いて、ネットワークにUSBを接続することについて話しましょう。これは本当に簡単なことだということを指摘する価値があります。
人々が行うこと - そしてこれは国家や何かだけではなく、楽しみのためにそうしたいと思うランダムなハッカーです - は、組織の駐車場にUSBスティックをたくさん落とすことができます。そして誰かが必然的に素朴で、「ああ、誰かがこれを落としたんだ。誰のものか見てみよう」と言ってそれを挿すでしょう。
そして終わりです。これで内部ネットワークに侵入し、広がることができます。これは常に起こっています。米国の複数の核施設で複数回起こっています。
そうですね、これはかなり大きな問題です。
ルイーザ・ロドリゲス: それは信じられません。
セラ・ネボ: さて、多くの人々、あなたのように、これを驚くべきことだと思うでしょう。セキュリティの人々は「いや、誰もそんなことはしない。セキュリティに関わる人は皆、USBスティックを挿してはいけないことを知っている」と言うでしょう。
しかし、そう考える人々にさえ挑戦させてください。そしてそれによって、私たちが以前に話していたより安全なネットワークに話を戻しましょう。
確かに、深刻なセキュリティを持つ組織はランダムなUSBスティックを挿入しないことを知っています。しかし、USBケーブルはどうでしょうか? ルイーザ、実際にお聞きしますが、USBケーブルが必要で、ただ廊下で1本見つけたとしたら、使いますか?
ルイーザ・ロドリゲス: 100%使います。絶対に。実際に、私はきっとすでにそうしたことがあると確信しています。
セラ・ネボ: では、ここに興味深い事実があります。私は多くのセキュリティの人々でさえ知らないと思います。実際に、180ドルで、USBスティックを内部に隠し、ワイヤレスで通信できるUSBケーブル - USBスティックではなく、USBケーブル - を購入できます。
そのケーブルを差し込むと、攻撃者は今、遠隔からあなたのシステムを制御できます - 以前に言及したモードのように、USBスティックが再び挿入されるのを待つ必要さえありません。継続的にあなたのシステムと通信し、制御できます。
テクノロジー組織のケーブル棚にそのケーブルを投げ込めば、必ず挿されると保証します。
ルイーザ・ロドリゲス: 絶対にそうですね。はい。それは本当にクレイジーです。それは実世界で使用されたことがありますか?
セラ・ネボ: わかりません。それを販売している会社があります。使用された報告は見たことがありませんが、おそらく市場に製品があるなら、誰かが買っているのでしょう。
ルイーザ・ロドリゲス: それは本当に、本当に驚くべきことです。
では、これらはあなたが心配しているいくつかの例です。あなたのレポートを読んでいて、私が特に興味を持ったものがいくつかあります。
1つのカテゴリーはAI固有のもので、そのいくつかの例に触れたいと思います。1つは「モデル抽出」と呼ばれるものです。モデル抽出とは何で、どのように機能するのでしょうか?
セラ・ネボ: モデル抽出は、残念ながら、この分野ではまだ誰もが使用する標準的な用語がありません。時々、人々は「モデル反転」という言葉を使用してそれを指しますが、時々「モデル反転」は非常に異なる種類の攻撃を指すこともあります。ですので、今は「モデル抽出」という言葉を使いましょう。
概念的には、それはかなり単純です：モデルと対話する方法 - 多くの場合、それに多数のクエリを行う - そして、その答えから、その重みが何であるかを推測することです。少なくとも近似的に。
ルイーザ・ロドリゲス: それは本当に難しそうです。新しいモデルをトレーニングするようなものに聞こえます。
セラ・ネボ: 新しいモデルをトレーニングするよりもはるかに簡単かもしれないことが判明しました。
ルイーザ・ロドリゲス: どのようにですか?
セラ・ネボ: まず、実際に蒸留について話しましょう。技術的にはこれはモデル抽出ではありませんが、非常に関連していると思います。
蒸留では、元のモデルの特定の重み値を気にしません。単にその性能を模倣することを学びたいだけです。たとえあなたのモデルが内部的に異なって見えたとしても、同様に振る舞い、同じことができれば良いのです。
蒸留は実際に機械学習では非常に標準的です。常に行われています。機械学習の非常に標準的な技術の一部です。あなたが知っているオープンソースモデルの多くは、クローズドモデルから蒸留されています。場合によっては、オンラインで見つけることができる標準的なAPIに基づいています。
ルイーザ・ロドリゲス: 興味深いですね。そして私が理解するために、蒸留はフロンティアモデル自体をトレーニングするよりも計算量が少ないのでしょうか?
セラ・ネボ: はい。蒸留しているモデルのサイズによります。例えば、非常に大きなモデルを効果的に小さなモデルに蒸留することができます。同じ品質にはなりませんが、多くの同じ能力を持つでしょう。
また、計算は制約の1つにすぎないということを強調する価値があります。潜在的に同様の量の計算を使用する可能性がありますが、トレーニングデータなし、アルゴリズムの知識なし - これらの追加要件のすべてなしで行うことができます。
ルイーザ・ロドリゲス: はい。OK、それが蒸留ですね。
セラ・ネボ: 蒸留から離れる前に、多くの人々が蒸留は問題ではないと言うだろうと思います。なぜなら、結果の品質が低くなるからです。そのため心配する必要はないと。
私はそれが大まかに合理的だと思いますが、人々はそれが懸念ではないということについて過度に自信を持ちすぎないよう注意する必要があると思います。
いくつかの文脈ですでに、研究者は蒸留 - または時々「教師-生徒」トレーニングと呼ばれるもの - を実際に結果を改善するために使用しています。時々、正則化、頑健性などを改善します。
そのため、それが常に元のモデルよりも悪くなるのは明らかではないと思います。
さらに重要なのは、これはまだ非常に新しい分野だということです。私たちはまだ、これらのものがどのように機能するかを理解しようと手探りの状態です。そのため、蒸留が主要な懸念になる可能性があると思います。
しかし、はい、蒸留は脇に置いて、適切な抽出に焦点を当てましょう。ここでは文字通り、モデルの元の重みが何であるかを特定し、それを正確に複製しようとしています。
これは行われています。Microsoftは、Counterfitというツールをリリースしました - "fit"はモデルをフィッティングするという意味です - これは、モデル抽出だけでなく、多くの大規模言語モデルで機能する多様な攻撃の複数の実装を含む様々な攻撃を実装しています。ちなみに、彼らはそれを「モデル反転」と呼んでいます。繰り返しますが、非常に混乱します。
しかし、はい、しかし、モデルがあり、それが機能することを示しているという事実は、実世界の展開されたモデルに対する実際の攻撃ではないと言う人もいるかもしれません。
最近の論文、「実際の言語モデルの一部を盗む」というタイトルの論文があり、DeepMindとOpenAIの著者が含まれていましたが、OpenAI APIを使用するだけで、OpenAIモデルから埋め込み投影層を成功裏に盗みました。OpenAI APIを通じて誰かが成功裏に行ったという実際の存在証明があります。
ルイーザ・ロドリゲス: OK、それは特定の1つのレイヤーだけで、モデル全体ではないことを考えると、それほど心配すべきことではないのでしょうか?
セラ・ネボ: はい、それは非常に公平な指摘です。これらの異なるコンポーネントをすべて組み合わせて、1つは実世界で、2つは実際のフロンティアモデルを攻撃し、小さなモデルだけでなく、モデル全体が盗まれたという攻撃を私は知りません。
しかし、それが行えないという、あるいはすでに行われていないという大きな自信を持つべきではないと思います。その理由の1つは、操作のコストとそれを行うことができる価値が高くなればなるほど、そしてそれを行うことがより違法になればなるほど、人々はそれを私たちに教えるインセンティブが少なくなるからです。
私たちが見ているのは、単に論文を発表したい学者たちです。これを実際に運用化し、何かを行おうとしている人々ではありません。それは非常に重要です。
2つ目に本当に注意する価値があると思うのは、はるかに、はるかに、はるかに難しいことで、かなり似たようなことを人々が行った前例があるということです。
繰り返しますが、AIモデルを盗むことの重要性は比較的新しいものです。私たちは歴史から学ぶべきで、AI固有の例だけから学ぶべきではありません。
ルイーザ・ロドリゲス: もちろん。
セラ・ネボ: おそらく1つの例を挙げると：暗号ハッシュ関数は、その出力を見てその入力を推測することが困難であることを唯一の目的として構築された関数です。そしてそれは類似した状況です。
多くのハッシュ関数が、グローバルコミュニティによって非常に強く信頼されてから何年も経った後に、成功裏に反転されました。成功裏に使用されて、鍵 - これらは彼らが隠そうとしている一種の秘密です - を推測することができました。
そして、おそらく非常に具体的で人々に直感的な例を挙げると：1990年代後半と2000年代には、すべての映画が携帯電話を使用すべきでないことを大きく取り上げていました。なぜなら政府が携帯電話を盗聴できるからです。
それが唯一の理由ではありませんが、1990年代と2000年代に人々が携帯電話を心配していた理由の1つは、GSM - 2世代目の携帯電話プロトコル - で使用されていたハッシュ関数が一度は安全だと思われていたが、そうではないことが判明したからです。
十分な研究を行えば、ハッシュ関数への多くのクエリを見ることで、ハッシュ関数が適用された秘密鍵を推測できることが判明しました。
最初は、その鍵を抽出するのに5万から7万回のクエリが必要でした。そこで、携帯電話会社、より具体的にはSIMを作成する会社は、何万回もクエリしようとすると自己破壊するように様々な方法でブロックしました。
しかし、さらに数年の研究の反復後、鍵は8回のクエリだけで抽出できるようになりました。つまり、8つの質問をするだけで鍵を抽出できるのです。
これを話す理由は、完全に同一の状況ではありませんが、ハッシュ関数は、少なくともその一部が、多くの年月をかけて一流の暗号学者たちがこの正確なことを文字通り不可能にしようと試みた結果であり、それでも人々は成功しました。
誰もこれらのニューラルネットワークに対してそのようなことを試みたことはありません。これらのニューラルネットワークは、このような事が起こるのを防ぐために構築されたわけではありません。
そのため、人々は何かが不可能だと推論するのを急ぎすぎるべきではないと思います。
ルイーザ・ロドリゲス: 暗号やハッシュ関数についてほとんど何も知りませんが、まず、誰かがクエリを送信して、それがハッシュ関数がどのように理解されたかの一部である値を返すとき、何が起こっているのか教えていただけますか?
セラ・ネボ: はい。私は詳細に立ち入らないように非常に大まかに話していました。詳細に - あるいは詳細に立ち入るのではなく、興味深く詳細に取り組むことを望みます! - ハッシュ関数には入力と出力があります。
例えば、テキストの文字列を入力すると、それはランダムな256ビットの文字列を生成します。目標は、その出力を見ても、誰かが何を入力したかがわからないようにすることですが、同時に何らかの形でその元の入力を表現することです。
2つの異なる入力を入れても、同じ出力を得ることはありません。それがおおよそハッシュ関数が行うことです。
実際には、多くの異なる設定で使用されます。その1つは、例えばパスワードを保存することです。元のパスワードを保存したくありません。なぜなら、誰かがハッキングした場合に見つけられてしまうからです。
パスワードのハッシュを保存し、誰かがパスワードでログインしようとしたときに、そのパスワードをハッシュし、ハッシュと比較します。パスワードが同じであれば、ハッシュは等しくなるはずです。しかし、誰かがハッシュを持っていても、あなたになりすますためにどのパスワードを与える必要があるかはわかりません。
ルイーザ・ロドリゲス: そうですね。OK。
セラ・ネボ: 私が話していたコンテキストでの使用方法は異なります。多くの場合、パスワードや鍵を持っていることを示す認証の形として、鍵にある種のランダムな文字列 - これは時々「チャレンジ」と呼ばれます - を加えてハッシュ関数に入れます。
そして、「ここにランダムな文字列があります - これは時々「チャレンジ」と呼ばれます - そしてここにハッシュの結果があります。鍵を持っていなければ、このハッシュを生成できないはずです。しかし、ハッシュは出力から入力に戻ることができないので、鍵が何であるかを見つけることはできません」と言います。
これらのハッシュ関数は文字通り、特定の量の計算を投資したハッシュ関数に対して - そして、ニューラルネットワークが効率的で高速であることを望むのと同じように、これを効率的で高速にしたいのです - 入力された内容を理解するのが難しくなるように操作を最適化するために構築されています。
彼らがそれを行う方法は主に、概念的に、数学的に一緒に分析するのが難しい多くの異なる操作を混ぜ合わせることです。加算や乗算のようなものもあれば、ビット演算 - 「and」や「or」のような - もあります。
いくつかは異なる数学的フィールドでのこれらの操作です。いくつかは単にハードコードされたテーブルを使用して、何を持っているかを見て：13を見たら207を返すというようなものです。このような種類のことです。
ニューラルネットワークはハッシュ関数と考えることができます。重みを人々に知られたくない場合、入力をおそらく人々が知っているランダムな文字列と考え、重みは実際に鍵だと考えることができます。
そのため、これらの両方を入力として取り - 入力と重み - 関数を実行します。これはそれほど恐ろしく、分析が難しい関数ではありません。分析するのは簡単ではありません - 線形ではないなど、この観点からは良いのですが - しかし、確実に難しくするために最適化されてはいません。
そして、人々が見る出力を生成します。そのため、出力から元の重みに戻れないことを望みます。
物事を多く混ぜ合わせているから戻れないという人々の直感は、少なくとも暗号を知っている人々に対しては良い直感ではありません。戻るのを難しくするために物事をより多く混ぜ合わせたいのは確かです。しかし、それが不可能になるようにするには、本当に非常に賢明にことを行う必要があります。
そのため、ここでモデル抽出に対する実際の攻撃を主張しているわけではありません。ただ、多くのハッシュ関数は、それを行う方法を見つけるのに何年もの研究がかかったと言いたいだけです。ニューラルネットワークは、ハッシュ関数ほど良い仕事をしていないと推測します - そのため、数年後にはそれが見つかる可能性が非常に高いと思います。
ルイーザ・ロドリゲス: それは魅力的です。つまり、モデル全体の実世界での例はありませんが、それが可能だと考える理由がいくつかあり、私はそれをかなり説得力があると感じました。これを行うのはどれくらい難しいでしょうか? あるいは、どのような種類の行為者がそれを行うことができるでしょうか?
セラ・ネボ: 新しいモデル抽出攻撃の開発は、少なくとも些細なことではないと思います。これらの種類の攻撃を知る必要があります。言うのは本当に難しいです。
本当に、暗号学者が数ヶ月費やすだけで済むのか、それとも本当に大きな課題で、トップクラスの才能が何年もかかるのか、私にはその答えがわかりません。しかし、攻撃が見つかると、誰もが簡単に行える可能性があることも注目に値します。
ルイーザ・ロドリゲス: そうですね、そうですね。
セラ・ネボ: 例えば、携帯電話について、ハッシュ関数に脆弱性があったと言及しました。これが公開されると、誰かの電話を借りるデバイスを購入できました - 「電話をかける必要があります。ちょっとあなたの電話を貸してもらえますか?」 - 彼らは電話を渡し、あなたはSIMを取り出し、そのデバイスに入れます。
デバイスはそれを30秒で行います。彼らに電話を返し、今やあなたは、例えば彼らの電話を複製して彼らに代わって電話をかけることができます。
そのため、私たちは主に、何が可能になり、誰によって可能になるかについて高いレベルの不確実性を維持する必要があると思います。
ルイーザ・ロドリゲス: OK。繰り返しますが、ハッシュコードについて特に詳しくはありませんが、おそらく1つの違いは、大規模言語モデルが非常に大量のモデルの重みを持っているということです。これはこれを不可能な、あるいはほぼ不可能なタスクにする可能性がある要因でしょうか?
セラ・ネボ: はい、それは素晴らしい指摘です。それは確かに違いです。ハッシュ関数の例で私が言っていたすべての例では、最終的に発見したいデータの量は少なかったです。そのため、それは本当の違いであり、良い指摘です。
ちょっと立ち止まって考えてみましょう。専門家たちと話した結果、これが実現可能かどうかについて非常に幅広い見解がありました - これは些細なことだと主張する人もいれば、これは文字通り数学的に不可能だと主張する人もいました。
私は、情報理論的な議論がこれが可能ではないという最も強い議論だと同意する傾向があります。おそらくその議論を言い換えると、10兆ビットの情報を推測しようとしているのに、10億ビットの出力しか見ていないのであれば、これができないことを数学的に示すことができます。
そのため、私はこれがニューラルネットワークを抽出する上で非常に大きな課題だと思います。これは重要な指摘だと思います。
過度に自信を持たないように注意深くなるために、これを数学的に不可能ではなく、むしろ「ここに克服する必要がある課題がある」という形でいくつかの方法で検討してみましょう。
ルイーザ・ロドリゲス: OK、素晴らしいです。
セラ・ネボ: まず：誰がニューラルネットワーク内の完全な情報を必要とすると言っているのでしょうか? それに反対する1つの例は、例えば16ビットごとに4ビットしか使用しない量子化モデルがかなりうまく機能することです - そして、私たちはまだ将来量子化モデルからどれだけ絞り出せるかわかっていません。
それだけでも、必要な情報のサイズをかなり減らしています。
今日のほとんどのフロンティアモデルは「専門家の混合」と呼ばれるものを使用しています - つまり、例えば8つの異なるモデル、独立したモデルを持ち、それらを通してルーティングするので、実際には任意の時点で1つのモデルの答えしか見ていません。しかし、異なる答えが異なるモデルによって与えられる可能性があります。
明らかに、モデル全体の8分の1だけを取ることができ、それが特定のユースケースにとって非常に有用で上手く機能することがわかります。その8分の1は、例えば前に言及した4分の1とは直交しているので、これはさらに実際に必要なサイズを減らし続けます。
ルイーザ・ロドリゲス: はい、はい。
セラ・ネボ: さて、これは専門家の混合の最も簡単な例にすぎません。より専門化されたニーズのために使用可能なモデルを得られないと誰が言えるでしょうか? 例えば、特定の方法で悪用したいとします。それをはるかに少ないもので行えないと誰が言えるでしょうか?
「タスク特化型蒸留」と呼ばれるものにかなりの成功があります。これは先ほど話した蒸留ですが、モデル全体を気にしているわけではなく、モデルを使用したいより狭いタスクを気にしています。
それを使用して成功があったので、それは潜在的にモデルのはるかに小さなコンポーネントを取得し、それでも使用できる可能性があることを示唆しているようです。
これが意味するのは、将来発見するかもしれない新しいことについて話していなくても - そして私の推測では、将来多くのことを発見するかもしれませんが - これだけでも、簡単な計算をしてみましょう。
例えばChatGPTは、1日に1億人以上のユーザーがいます。各応答は通常数千ビットの長さです。つまり、1日に1000億ビット、おそらくそれ以上を生成していることがわかっています。なぜなら、今日それを使用しているほとんどの人は、おそらく1つの質問だけをしているわけではないからです。
これが意味するのは、ChatGPTへのクエリのわずかだが重要な部分を駆動することができ、それを分散して検出されない方法で行う - つまり、何百万人ものユーザーのふりをするなど - ことができれば、この種の「情報が足りない」という障壁を克服するのに十分な情報を、わずか数ヶ月で得られる可能性があるということです。
「...だからそれは簡単だ」と言おうとしているわけではありません。これらのことを行うのは難しいです。ChatGPTのすべてのクエリの10%を占めるほど、検出されずに行うのは簡単ではありません。それは些細なことではありません。
将来、モデルサイズの成長と市場規模の成長がどのように比較されるかについては、大きな不確実性があり、それがこれをどれだけ簡単にするかに影響を与えるでしょう。
しかし、これをさらに一歩進めてみましょう。ChatGPTの公開APIを介して分散攻撃を行う代わりに、会社のネットワークに座ることができたらどうでしょうか? 重みにたどり着くことはできません - おそらく彼らは重みをとてもよく保護しています - しかし、あなたは会社のネットワーク内にいます。
今、あなたはそれにはるかに多く、はるかに速くクエリを行うことができ、おそらくはるかに少ない監視で行えます。なぜなら公開APIを通過していないからです。人々は自社をより信頼する傾向があるので、潜在的にそれをはるかに速く行うことができます。
つまり、これが可能かどうかはわかりません。ただ、それが可能ではないという過度の自信に対して注意を促したいだけです。
ルイーザ・ロドリゲス: はい。問題にならないと判明しても、それに対して自分を守ろうとする方が、「おそらく起こらないだろう」と言って、実際には起こり得ることが判明するよりもずっと良いように思えます。
この種の攻撃から重みを保護するためのアイデアや、おそらくすでに知っている具体的な方法はありますか?
セラ・ネボ: 人々が議論し、さらには使用しているものがたくさんあります。それらはまだ初期段階です。そのため、これらのものがどれほど信頼できるのか、どれほど効果的なのかについては、まだあまりデータがありません。
しかし、1つの古典的なことで理にかなっているのは、結果をファジング化することです - つまり、プロセスにより多くのランダム性を導入することを確実にすることです。これは一般的に物事を難しくします。これが攻撃を防ぐという証明ではありませんが、正しい方向に向かっているように思えます。
ルイーザ・ロドリゲス: OK、いいですね。
OK、そのレポートでは、モデルの重みのセキュリティにとって重要であるが、約1年以内に実現可能だと主張する7つの最優先推奨事項を挙げています。それらのいくつかについて話したいと思います。
AIの会社が今すぐにモデルの重みを保護するために行うべき最も重要なことで、まだ行っていないかもしれないことは何でしょうか?
セラ・ネボ: まず、私の一般的な常套句を述べさせてください。セキュリティは孤立した数個の行動や方針では解決できません。これは一種の最も弱いリンクのようなゲームであり、したがって本当に多くのことを行う必要があります。包括的なセキュリティを達成することが重要です。
それを助けるために、基礎を築くために、私たちは5つのセキュリティレベルのベンチマークを提供しています。各セキュリティレベルは、追加のカテゴリー、私たちが「運用能力」カテゴリーと呼ぶものに対する防御を目的としています。
各ベンチマークは、各セキュリティレベルを達成するために必要なことの推奨事項を提供しています。あなたは7つの強調された対策について言及しましたが、総計で、我々は組織が取るべきだと考えるセキュリティ対策の167の推奨事項を提供しています。
そして明確にしておきますが、期待されているのは、誰もがこれらの対策を正確に実装することではありません。これはベンチマークです。これらの種類の行為者に対して安全であることを望むなら、これに匹敵するものが必要だと言うことを意図しています。
それはさておき、いくつかの具体的なものについて話しましょう。
おそらく、非常に明白なものから始めましょう。それは、許可されたアクセスを減少させ、強化することです。これについて3つのステップで考えるのが好きです。
最初のステップは、重みのすべてのコピーを適切なアクセス制御システムで一元化し、管理することです。人々のラップトップに重みのコピーが散らばっていて、ただハードディスクに保存され、好きなことができる状態であってはいけません。
システムは許可を可能にする必要があります：誰がアクセスを許可され、誰が許可されていないか。監視を可能にする必要があります：誰も私たちが知らずに重みと相互作用することはできません。そして、単純にコピーすることを防ぐ必要があります：Ctrl+C、Ctrl+Vで、今や別の場所に持っているというようなことはできません。
これは、重みが盗まれないことがとても重要な場合、非常に基本的なことのように思えます。
ルイーザ・ロドリゲス: そして実際に、それがとても基本的に思えるので、主要なAI企業がすでにこれを行っているかどうかについて感覚はありますか?
セラ・ネボ: 特定の企業について話すことはできませんが、一般的な感覚を言うと、これはAIラボ全体でまだ包括的に実装されていないと思います。彼らはこれに興味を持っていると思いますし、これに向けて取り組んでいると思いますが、これはまだ包括的に実装されていないと思います。
しかし、それはステップ1にすぎません。ステップ2について話しましょう。2つ目は、許可されたユーザーの数を減らすこと、少なくとも完全な読み取りアクセス権を持つ人の数を減らすことです。
現在、私が思うに最もセキュリティを真剣に考えているラボでさえ、何百人もの人々が重みにアクセスできます。そして私は、それはあまりにも多すぎると主張します。
おそらく単純な推定を示しましょう。これはやや単純すぎますが、それでも有用だと思います。
あなたがフロンティアラボのCEOだとしましょう。私は、従業員50人のうち少なくとも98%は重みを盗まないと確信できる人はいないと主張します。これらは少なくとも数億ドルの価値があることを忘れないでください。そして誰かが彼らに賄賂を贈ったり、脅迫したり、彼らが信じるイデオロギーを利用したりする可能性があります。
もしかしたらあなたは素晴らしい社交家かもしれませんが、私にはそこまで深く知っている50人もいません。98%の確信を持ってそんなことはしないと言える人は。
しかし、あなたが98%確信できる50人がいると想像してみましょう。それでも、その50人全員に重みを読み取る許可、完全な読み取りアクセス権を与えたとすると、それは彼らが重みを漏らす可能性を許すことになります。
そして50人の98%の確率を掛け合わせると、約37%になります。つまり、アクセス権を持つ従業員がたった50人でも、漏洩の可能性は3分の2近くあるのです。しかもこれは非常に信頼できる従業員の場合です。
おそらく明確にしておく必要がありますが、これは明らかに非常に痛みを伴うトレードオフです。ラボは本当にある意味で、何百人もの人々が仕事をするために重みにアクセスする必要があります。
これはモデル開発者、インフラ開発者、解釈可能性研究者です。重みにアクセスする必要のある人々は多くいます。
そのトレードオフを克服する方法は、私がステップ3と呼ぶものを通じてです。それはインターフェースを強化することです。誰かが何らかのアクセスを持っているからといって、懸念すべき種類のアクセスを持っているわけではないことを確認したいのです。
ルイーザ・ロドリゲス: OK。はい。懸念すべき種類のアクセスと、まだOKな何らかのアクセスの違いは何ですか?
セラ・ネボ: 多くの技術的な詳細がありますが、インターフェースのセキュリティを改善し、少なくとも明らかに懸念されるものではないと考えるためにできることがいくつかあります。
それらが何であるかについて話す前に、私たちはすでに外部アクセスに対してこれを行っていることを簡単に言わせてください。ある意味で、私たち全員が重みにアクセスしています。それは非常に限られたインターフェースにすぎません。
私たち全員が、に頼むことができますが、それは特に推論のためだけです。内部アクセスを含むすべてのアクセスに対して同様のことを行う必要があります。
同じ解決策が必ずしも機能するわけではありませんが、レポートでは重みとの異なる種類の相互作用に使用できる3つのアプローチを提案しています。
1つ目は、外部との相互作用について考える方法に最も似ています。それは事前承認された堅牢なインターフェースです。特定のコードがあり、そのコードをテストし、トップのセキュリティ専門家にそれを見てもらい、このコードを実行するようサーバーに依頼することによってのみ、重みを盗むために悪用することはできないと言います。
古典的な例は推論です。これらのモデルを推論に使用したいのは問題ありませんが、他のことには使用したくありません。しかし、内部でもそれを行うことができます。おそらく、研究者や従業員が使用できる他の50種類のインターフェースを望むかもしれませんが、それらは重みに直接アクセスすることはできません。
2つ目のオプションは、出力レート制限を使用することです。私はこれが、事前定義されたコードのみを使用して重みと相互作用することが難しい場合があるという事実によって動機付けられていると思います。多くの従業員がそれについて不満を言うでしょう。このレポートのためにインタビューを行ったとき、彼らの何人かが私たちに不満を言いました。
しかし、代替案を使用することができます。「OK、自分のコードを実行したい、好きなものを。重みに対して柔軟でありたい。実際、それは問題ありません。しかし、この全計算から実際に抽出できる出力量を制限するインターフェースを通じてこれを行う必要があります」と言うことができます。
例えば、安全なサーバーにコードを送信し、そのサーバーがそれを実行します。それは問題ありません。そのコードは柔軟で、望むことを何でも行いますが、それを送り返すときにレート制限されます。おそらく1秒あたり100ビットの出力しか生成できないようにします。
そして注意してください、これは重みの100ビットだけではなく、任意の種類の出力の100ビットです。なぜなら、重みを取得し、いくつかの計算を行い、それが重みではないように見えるような怪しいことをしてほしくないからです。任意の種類の出力です。
それを制限するのは簡単ではありませんが、これを行うための良いインフラがあれば、それは非常に効果的でしょう。今のところ、重みに関するある統計の図を作りたい場合、その図は画像で、その画像は多くのビットを消費します。それは面倒です。
しかし、インフラを適切に設定すれば、人間は意味のある形で1秒あたり100ビット以上を処理できません。そのため、おそらく例えばPNGを送信せずに、データのみを送信し、そしてあなたのコンピューター上で画像を設定すれば、それは機能するでしょう。これにはより多くのインフラが必要です。しかし、これは実際に多くの柔軟性を可能にしつつ、リスクを本当に減らすと思います。
ルイーザ・ロドリゲス: なるほど。
セラ・ネボ: 最後に、3つ目のバージョンは、重みと自由に相互作用する能力をさらにトレードオフし、情報がシステムを離れる方法を制御する能力と交換するものです。
実際に隔離されたネットワーク - 例えば、先ほど言及したエアギャップネットワーク - で作業することができますが、おそらくエアギャップだけでなく、もう少し良いものが欲しいでしょう。人々がUSBを出し入れすることも望まないでしょうし、他にも制限したい長いリストのものがあります。
しかし、これは本当に重みとの重い入出力が必要な稀な相互作用に役立つでしょう。例えば、これは議論の余地がありますが、一部の人々は解釈可能性研究の一部の種類が本当に重みの多くを読み取り、自由な方法で重みと相互作用する必要があると主張しています。
それは問題ありません。重みと完全に自由に相互作用したいですか? この部屋に入ってください。この部屋は安全です。好きなことができますが、そのデータを持って出ることはできません。
これらは、重みとの多くの異なる種類の相互作用に対応する3つの異なる方法です。
ルイーザ・ロドリゲス: なるほど。OK。それについてもっと質問したいところですが、あなたが重要だと考える別の推奨事項について話すべきだと思います。次に最も重要な、または最大の違いをもたらすものは何でしょうか?
セラ・ネボ: 「機密計算」と呼ばれる別のものについて話しましょう。
これには少し背景が必要です。何十年もの間、ある意味では何千年もの間、人々は信頼できない接続を介して機密データを送信する場合、それを暗号化する必要があることを知っていました。
だからこそ、私たち全員が有名な安全でないインターネットを介して通信するときにSSL、または今日ではTLSを使用すべきだと知っています。また、それが何千年も前にジュリアス・シーザーが伝書鳩や使者少年と一緒にメッセージを送る前に暗号化した理由でもあります。
これは今日では「転送中の暗号化」と呼ばれています。移動中は暗号化します。これは良いスタートでした。
しかし、その後人々は実際のシステム - 例えばあなたの実際のコンピューター - に侵入して、そこから機密データを読み取る方法を見つけました。そこで人々は、安全であるはずのデバイスに保存されているときでさえデータを暗号化し始めました。
例えば、ハードディスクにあるときでさえ。これは「保存時の暗号化」と呼ばれます：データを保存している間も暗号化されているべきです。
それはより良いですが、攻撃者はまだデータを使用しようとしている瞬間まで待ち - 例えば重みについて話している場合、推論を行おうとしている - あなたに復号化させ、そしてデータを盗むことができます。
これが実際に現在、圧倒的大多数のシステムの状況です。
しかし、私たちはそれが変わる寸前にいます。機密計算は、その問題を解決するための1つのアプローチです。一般的な目標は「使用中のデータの暗号化」と呼ばれるものです。
つまり、データを使用している間でさえ、それは暗号化されているべきです。しかし、それは保存時や転送中の暗号化よりも課題が大きいです。なぜなら、データを使用している間にそれを暗号化されたままにしておくにはどうすればよいでしょうか? 暗号化の全アイデアは、それが一種のスクランブルされているということです。
そしてそれは確かに難しい問題です。最もハードコアなアプローチは準同型暗号と呼ばれます。これは、暗号化されたデータに対して特定の計算を行うことができる特別な種類の暗号化です。それさえ復号化せずに行えます。
それはかなりクールです。数学者はそれを愛していますが、実用性の問題がたくさんあります。非常に大きなオーバーヘッドがあります。システムでできること、できないことを厳しく制限します。そして少なくとも今のところ、大規模なネットワークでは本当に機能しません。それが実際に可能になる前には進歩が必要です。
最も人気のあるアプローチは、機密計算と呼ばれるものです。おおよそ次のように機能します。重みは保存時に暗号化されています。これはすでに明らかです。
別の「信頼された実行環境」があります - これはしばしば別のチップで、好きなことを単に行うことができないようにするためのさまざまな防御策を持っています。復号化キー、重みを復号化できるものは、その信頼された環境にのみ保存されています。
そして、その信頼された環境は、重みを受け取り、信頼された環境内で復号化し、外部ではなく、推論を実行する特定の署名されたコードのみを実行します。他のことを行うコード - 例えば、復号化して復号化された重みを出力するなど - を実行することには同意しません。
つまり、すべてが正しく機能すると仮定すれば、誰も復号化された重みにアクセスすることはできません。それを使用していても。理解できましたか?
ルイーザ・ロドリゲス: はい、はい、はい。
セラ・ネボ: これにはいくつかのインフラが必要で、ハードウェアもまだ本当に準備ができていないことは言及する価値があります。機密計算をサポートする最初のGPUが最近登場しましたが、まだ本番環境で使用できる状態ではありません。しかし、私たちは近づいています。そして、インフラが整えば、これを行うオーバーヘッドはかなり小さいです。
そのため、多くの人々がこれに興奮しています。実際、驚くべきコンセンサスがあります。業界全体で、人々がかなり一様に機密計算に興奮していることに私たちは本当に驚きました。
その結果、Nvidiaのようなハードウェア企業がこれのためのより良いサポートを優先し、AI企業がこれの展開を優先することを強く推奨します。
しかし、すぐに言っておきたいのは、これらには限界があるということです。誰もがこれに非常に興奮しています。私もこれにとても興奮しています。時々人々は少し行き過ぎて、これらを魔法の弾丸のように扱い始め、完全に安全であるかのように扱います。
それらは完全に安全ではありません。また、私たちはセキュリティレベル4でこれらを推奨していますが、一部の行為者に対しては十分ではないと思います。
この解決策に水を差すつもりはありません。それを前進させることに非常に興奮しています。それでも、人々が完全に保護されるわけではないことを認識し、他の多くのことが必要であることを認識してほしいと思います。
簡単に指摘しておきますが、レポートで議論した多くの攻撃ベクトルは、機密計算では単に対処されません：私たちが議論した蒸留やモデル抽出攻撃などです。明らかに、その場でモデルを悪用することは保護されません。なぜなら、推論を行うためのインターフェースを提供しているからです。
これらは洗練された物理的攻撃から保護するようには設計されていません - 長期的なアクセスや侵襲的な技術がある場合、これらのことから保護しません。機密計算をサポートする現在唯一のGPU、H100は、その脅威モデルに物理的な攻撃さえ含んでいません。
これらはハードウェアのサプライチェーン攻撃から保護しません。現在組み込まれていない追加のことを行わなければ、サイドチャネル攻撃から本当に安全ではありません。システム自体を設定する人々、正しいコードに署名する必要がある人々から保護しません。
つまり、これは信じられないほどの前進であることを指摘したいだけです。私は非常に支持しています。これは私たちが行うべき最も重要なことの1つです。しかし、完全に安全になったと自分自身を欺かないでください。
ルイーザ・ロドリゲス: OK、素晴らしい。それは本当に重要な注意点だと思います。もう1つの推奨事項について話しましょう。もし皆に1つのことをさらに行ってもらえるとしたら、それは何でしょうか?
セラ・ネボ: これが最後のものなので、メタな話をしましょう。特定のセキュリティ対策について話すのではなく、レッドチーミングとセキュリティテストについて話したいと思います。これは本当に重要で、適切に行うことが本当に重要だと思います。
これを動機付けるために、システムが安全であることを確認する良い第一原理的な方法はありません。情報セキュリティ分野は主に、人々が新しい脆弱性を特定し、それらに対処するための解決策を見つけることによって進歩します。
同様に、システムが安全であることを保証する事前定義されたテストや質問のセットを定義するのは非常に難しいです。私たちにできる最良のことの1つは、本当に才能のあるチームに重みに到達してそれらを抽出しようとさせ、彼らが成功するかどうかを見ることです。
実際には、これを行うにはさまざまな方法があります。それぞれに長所と短所があります。レッドチーミングは、文字通り誰かに侵入を試みさせるという私が説明したものに最も近いものです。
非常に小さな注意点ですが、最近AIについて考えている人々は「レッドチーミング」という言葉を能力評価のような意味で使っています。ここでは異なる種類のものです。私たちはセキュリティシステムのレッドチーミングについて話しています。
ブルーチーミングもあります。これはセキュリティチーム自体が改善の機会と欠陥を特定しようとし、それらに対処しようとするものです。パープルチーミングもあります。これはレッドチームとブルーチームが協力するときです。色と言葉の世界がたくさんあります。
それはすべて脇に置いて、レッドチーミングについて話しましょう。多くの異なることを行う価値はありますが、レッドチーミングは本当に重要だと思います。なぜなら、トップの専門家に欠陥がどこにあるかを見つけ、それらを指摘してもらうための非常に効率的な方法だからです。
行う必要があるすべてのことをリストアップし、そして間違って書かれた1行のコードでさえシステム全体のセキュリティを損なう可能性があるという代わりに、「あなたはこの専門家です。その1行のコードを見つけてください」と言うことができます。
ルイーザ・ロドリゲス: やってみてください。
セラ・ネボ: しかし、このレッドチーミングの取り組みが効果的であり、単に偽りの安全感を提供するだけではないことを確認することが本当に重要です。見つける必要があるものを見つけるのに適していないレッドチーミングの取り組みを行うのは非常に簡単で、その結果、気分が良くなるだけで本当に信頼できるものではありません。
ルイーザ・ロドリゲス: それはどのように間違うのでしょうか? 彼らが試みようとしているものがいくつかの合理的なことのリストで、実際には非常にクリエイティブになり、以前に推測していなかった問題に対する新しい解決策を考え出そうとしていないだけなのでしょうか?
セラ・ネボ: はい、それは素晴らしい例だと思います。そこから一般化して、あなたが使用するチームは、少なくとも合理的にテストしたい攻撃者をシミュレートする必要があります。
おそらく最も明らかなことは、誰かに「30分間私のシステムをハッキングしようとしてください」と言って、そして今、今後5年間、例えば...
ルイーザ・ロドリゲス: ロシアに対して安全だと知っています。
セラ・ネボ: その通りです。そのためには多くの異なることが必要です。1つは、チームが十分に才能があること、能力があることです。2つ目は、非常に重要なリソース：時間と金銭、ツールの量です。
また、これは多分あなたが今言ったことに触れていますが、多様なスキルセットも必要です。私たちの攻撃ベクトルは、サイバーセキュリティが関与し、物理的セキュリティが関与し、人間情報が関与していることを示そうとしています。チームが行う必要のある多くの異なることがあります。
さて、最高のセキュリティレベルに向かうにつれて、これらの組織が持つリソースの量を文字通りシミュレートすることは不可能になります。しかし、これをより費用対効果の高い方法でシミュレートするのを助ける他の方法があります。
それを行う1つの方法は、レッドチームにさまざまな「特権」を与えることです。おそらく、能力のある行為者が取得できると思われるさまざまな資格情報から始めます。セキュリティシステムがどのように機能するかについての情報を与えるかもしれません。そうすることで、それをリバースエンジニアリングしようとして数ヶ月を費やす代わりに、彼らはヘッドスタートを得ることができます。
「難しいシステムに到達しました。このシステムを克服する」と言える3枚のカードがあるような、一種のゼロデイ特権を与えるかもしれません。
ルイーザ・ロドリゲス: 「ゼロデイを使用します」と。
セラ・ネボ: そして、これらの特権を持って彼らが成功した場合、「しかし、特権のない行為者は成功しないだろう」と言って戻ることはできないことを覚えておく必要があります。なぜなら、より能力のある行為者ならそれを行うことができると考えているからこそ、彼らにこれらを与えたのです。
ルイーザ・ロドリゲス: そうですね。彼らは実際のものを表しています。
セラ・ネボ: その通りです。単により費用対効果の高い方法です。それは本当に大きなコンポーネントです。
彼らが必要なことを行うことを許可し、幅広い攻撃に従事する許可を与えることについては、たくさんあります。物理的に侵入しようとすることを許可することは些細なことではありません。従業員と関わることを許可することです。
もちろん、これらすべてを合理的な範囲内で行う必要があります。単に不道徳なことがありますが、できる限り多くのことを許可することが重要です。
また、セキュリティチームがアクティビティに関するレポートを受け取らないようにして、これを行います。セキュリティチームが彼らが何かを通過してくることを知っていれば、彼らを捕まえるのは驚くべきことではありません。私たちは、彼らが検出されずに行けるかどうかをチェックしたいのです。
そして最後に - これもあなたの創造性に関するポイントに触れていますが - インセンティブを整合させることを確認することです。多くのレッドチームは、私たちが望むすべてのことを行うのに十分なインセンティブを持っていません。
彼らはしばしばある程度のことを行う強い動機を持っていますが、私は彼らの報酬が成功するかどうかによって影響を受けるべきだと主張します。これは一般的にはそうではありません。
時々、彼らが整合されているものは、実際の懸念と正確に同等ではありません。組織が「確かに、彼らは常に脆弱性を見つけて侵入しますが、私たちも常に彼らを検出します」と言うのを聞いたことがあります。
しかし、検出されないようにするインセンティブを与えていない場合 - 多くの場合、彼らはどれだけ侵入したかで判断されます - そうすると、正しいことをテストしていないと思います。
最後に言っておきますが、レッドチームの結果を会社自体にとって有用なツールとしてだけでなく、会社がセキュリティ目標を達成しているかどうかについて外部的に信頼できる信号としたい場合 - 例えば政府がこれに興味を持っている場合や、公衆が安心したい場合 - そうすると、第三者のチームを使用する必要もあります。
会社の従業員だけが「私たちは安全です」と言うことはできません。その声明が会社の信頼性や、彼らが何をすることを許可されているかについて外部的な意味を持つ場合は。
ルイーザ・ロドリゲス: はい。それはとても理にかなっています。また、そのような仕事はとても面白そうですね。これは素晴らしい導入です。これについてあまり詳しく話すつもりはありませんが、この分野と人々が興味を持つかもしれないキャリアの種類について少し聞きたいと思います。
これに取り組む人々がもっと必要とされているのはどの程度でしょうか? そして、そのような人々はどのようなことをするのでしょうか?
セラ・ネボ: ああ、はい、サイバーセキュリティと物理的セキュリティをよく理解し、特に明日のモデルに備えるために働く意欲のある人々がもっと必要です。単に既に多くのサイバーセキュリティ専門家が取り組んでいるような日常的なセキュリティだけでなく。
行うべき役割はたくさんあります。2つのカテゴリーを強調しましょう。1つは技術面での多くの仕事があります - 実際に安全なシステムを開発したり、サイバー評価を行ったりします。
この仕事はラボ自体に存在します。ラボ自体ではない他の組織でも、重要な研究開発を行っています。そして政府にもあります：サイバー評価を行おうとする政府機関があり、それらのシステムを構築するための多くの仕事があります。
また、政策面でも多くの仕事があります：課題と潜在的な解決策の両方を深く理解した上で、実際に意味のある政策を開発すること。これは現在、多くの異なる組織にとって本当に重要なボトルネックです。これは政府にも当てはまり、RANDのようなシンクタンクにも当てはまり、AIラボ自体にも当てはまります。
RANDでは、これらの両方のタイプの仕事 - この技術的な仕事と政策ソリューションを開発したい人々 - のために採用していることを指摘しておきます。
しかし、はい、AIセキュリティに携わる人々から、彼らのウィッシュリストの第一位は、情報セキュリティを理解し、これらの問題に取り組む意欲のある人々をもっと持つことだと聞くのはかなり一般的です。
ルイーザ・ロドリゲス: OK、はい。エピソードのこの時点まで来て、このことを面白いと感じた人がいれば、ここには影響を与える多くの機会があるように聞こえます。
最後の質問をする時間があります。これは大きなトピックの変更ですが、あなたは80か国以上の4億5000万人以上をカバーする洪水予測システムの開発を主導しました。そのシステムは正確に何をするのですか、そしてどのように機能するのですか?
セラ・ネボ: はい、それは本当に素晴らしく楽しいプロジェクトでした。これはGoogle Research の約30人の素晴らしい人々の共同の取り組みです。
それは複雑なシステムですが、高いレベルでは以下のことを行います。まず、世界中から多くのデータを収集します。これには衛星データが含まれます。光学画像、ハイパースペクトル衛星、マイクロ波などが含まれます。地形図、天気モデル - 降水量や気温などの情報を含むもの - 世界中の川からの地上測定、過去の洪水記録などが含まれます。
次に、1週間先の川の水量を予測する機械学習モデルをトレーニングしました。LSTMと呼ばれるモデルを使用しました - これはトランスフォーマーの前に登場した時系列予測のためのニューラルネットワークの一種です。
私たちの5日先の予測は、以前の最先端の0日先の予測と同程度に正確です。これは川で何が起こるかを予測する能力において大きな飛躍でした。
ルイーザ・ロドリゲス: それは信じられないです。
セラ・ネボ: はい。私が最も興奮していることの1つは、世界中、特に現在そのようなものが存在しない地域で、高品質の警告へのアクセスを増やすことです。また、アフリカとアジアにおける私たちの平均的な精度が、ヨーロッパにおける以前の最先端と同様であることを示すことができました。
それはとても興奮させるものでした。そして、それによって川が氾濫するかどうかを知ることができますが、水量によっては、正確にどこが影響を受けるかはわかりません。
そこで、別の物理学/機械学習ハイブリッドモデルをトレーニングして、氾濫原全体で水がどのように流れるかを正確に予測します。これにより、警告の空間的精度を約1キロメートルの解像度から約50メートル×50メートルの解像度に改善することができました。
最後に、この情報を使用して、Androidの通知を通じて個人に直接通知します - 影響を受ける人々にAndroidの通知を送信します - また、赤十字やその他の人道組織と協力して、より広範な警告と準備をサポートし、関連する政府当局にも警告して、避難など、政府の支援を必要とするより深刻な取り組みを行います。
はい、これは本当に興奮するプロジェクトでした。数年かかりましたが、これが洪水による負傷や費用を大幅に削減したことを示すランダム化比較試験が現在あります - ただし、これらの結果のほとんどはまだ公開されていません[しかしプレプリントが利用可能です!]。はい、それは非常に興奮するプロジェクトでした。
ルイーザ・ロドリゲス: それは信じられないようなプロジェクトに聞こえます。それに取り組んでくださってありがとうございます。そして、ポッドキャストに出演してくださって本当にありがとうございます。今日のゲストはセラ・ネボでした。ありがとうございました。
セラ・ネボ: ありがとうございました。
ルイーザ・ロドリゲス: セラとの会話を本当に楽しんでいただけたと思います。もしそうだったなら、あなたにとって次の正しいステップは、私たちの1対1のアドバイジングチームと話をすることかもしれません。
以前の番組で彼らについて言及し、計画を立てるのを手伝うことから、分野の専門家を紹介すること、あなたが持っている計画についてフィードバックを与えることまで、彼らができるすべてのことについて説明しました。
以前にあまり話していなかったのは、私たちのアドバイザーが誰なのかということです。そして、今年 - 2024年 - の4月と5月に、チームの視点の範囲を本当に広げた2人の新しいアドバイザーを迎えたことをお知らせできてうれしく思います。
1人はLaura González Salmerónで、彼女はどんなチームでも幅を広げるでしょう。80kに入る直前の役割はインパクト投資でしたが、その前は様々なことをしていました。ジャーナリスト、文学の博士号取得者、スペイン語圏のコミュニティビルダー、さらには子供向け本の著者でもありました。
もう1人の新しい採用はDaniel Deweyで、Googleでソフトウェアエンジニアとして短期間働いた後、変革的AIを正しく行うことの緊急性を認識し、私たちがここでよく取り上げる問題について技術的および政策的な才能を調整するために働いた最初期の人物の1人となりました。また、技術的AIアライメントとガバナンスの両方で自身の研究も行いました。
これらの問題全体にわたって、彼は助成金提供者として、独立した助成金支援の研究者として、そしてアカデミアで働いてきました。そのため、あなたがどのように貢献できるかを理解するのに役立つ彼自身の多くの経験について話すことができます。
DanielやLaura - あるいは法律、コンサルティング、金融、機械学習、数学、哲学、神経科学に渡る経歴を持つ私たちの長年のアドバイザーのいずれかと話をすることに興味がある場合 - 80000hours.org/speakにアクセスするか、ホームページからアドバイジングアプリケーションに移動することを強くお勧めします。
このサービスは無料で、アプリケーションには10分かかり、今や非常に興味深いアドバイザーを選ぶことができます - だからこれ以上通話の申し込みを先延ばしにしないでください。
最後に、リマインダーとして、私たちは2つの新しい上級職を募集しています。ビデオ責任者とマーケティング責任者です。80000hours.org/latestで両方について詳しく知ることができます。
これらの最初のものは、80,000 Hoursのための新しいビデオ製品の設定を担当する人物になります。人々はオンラインで過ごす時間の大きな割合をビデオ専用プラットフォームでビデオを見ることに費やしており、私たちはそこで私たちのアイデアを魅力的な方法で説明し、関心のある人々に届けたいと考えています。
また、規模で目標とする視聴者にリーチするための取り組みを主導する新しいマーケティング責任者も探しています。戦略を設定し実行し、チームを管理・構築し、年間300万ドルの予算を展開します。
応募は8月下旬に締め切られるので、適任だと思われる方はお早めにご応募ください！
さて、80,000 時間ポッドキャストは、Keiran Harrisによって制作・編集されています。
音声エンジニアリングチームは、Ben Cordellが主導し、Milo McGuire、Simon Monsour、Dominic Armstrongがマスタリングとテクニカル編集を行っています。
完全な書き起こしと、さらに学ぶための広範なリンク集は、いつものようにKaty Mooreによって作成され、私たちのサイトで利用可能です。
ご参加いただきありがとうございます。また近いうちにお話しします。

誰がAIモデルを盗もうとしているのか? そして彼らはそれで何ができるのか? | セラ・ネボ

いいなと思ったら応援しよう！