Last Week in AI #188 - ChatGPT+検索、OpenAI+AMD、SimpleQA、π0
43,383 文字
AIシンガー: テクノロジーが進化する世界で、最新の動きに目を向けましょう。賢いChatGPTの検索から、空を飛ぶAppleのA オティック・タッチまで、これが先週のAIニュースです。
アンドレイ: はい、Last Week in AIポッドキャストへようこそ。このポッドキャストではAIに関する最新の動向について語り合います。
今回のエピソードでも、先週の最も興味深いAIニュースをまとめて議論していきます。また、テキストニュースレターのLast Week in AIでは、このポッドキャストでは取り上げないAIニュースもご覧いただけます。私はホストの一人、ジェームス・アンドレイ・クロニコフです。スタンフォードでAIを学び、現在は生成AIのスタートアップで働いています。
ジェレミー: みなさん、こんにちは。ジェレミー・ハリスです。私の近況としては、最近赤ちゃんが生まれました。もちろんそれだけが私のバックグラウンドではありませんが、今は特に関係のある出来事ですね。普段は金曜日に収録するんですが、今回は火曜日になりました。アンドレイが親切にも日程を調整してくれたんです。
というのも、新生児と24時間ほど病院で過ごすことになったんです。大丈夫です。全く問題ありません。新生児にありがちな心配事だったんですが。そういうわけで、少し追いつくのに必死です。今回は私の意見がいつもより荒削りで、スパイシーで、あまり練られていないかもしれません。まあ、これらは矛盾した言い方かもしれませんが。
アンドレイ: コンパイル前というより実行時に近いですね。
ジェレミー: そうそう。推論時の計算というか、学習時というか、どんな例えでもいいですよ。そんな感じになりそうです。アンドレイは病院滞在中から今までの間にたくさんの記事を丁寧に追加してくれました。だから私はある意味臨機応変にやることになりますね。申し訳ありませんが、私のひどい思考プロセスをリアルタイムでご覧いただけると思います。今回も楽しみですし、本当にたくさんのことが起きているので、カバーすることがたくさんありますね。
アンドレイ: その通りです。まずは今回のエピソードの概要を手短に説明させてください。今週は様々なトピックが混在しています。統一されたテーマはありません。ツールとアプリケーションでは、大きなニュースとしてChatGPTの検索機能があります。それからAppleのインテリジェンス・アプリケーションとビジネスの話題もあります。OpenAIとハードウェア、自動運転、そしてMetaとメディア提供者との契約など、よく見るテーマもいくつかあります。研究と進歩の面では、私が特に楽しみにしているロボティクスの話題と、評価に関する内容もあります。政策と安全性については、いつものように様々な内容と意見、そして興味深い研究についても触れていきます。
ではニュースに入る前に、いつものように、フィードバックやコメントをくださったリスナーの皆さんに感謝を申し上げたいと思います。YouTubeのコメントにも目を通すようにしていますし、Apple Podcastのレビューも定期的にチェックしています。最近新しいレビューがいくつか追加されて、とても嬉しく思います。実際、そのうちの1つでは、ジェレミーの赤ちゃんの誕生を祝福してくれていました。
とても素敵ですね。それは永遠にApple Podcastのレビューの一部として残ることになります。また、これらのレビューで興味深いのは、リスナーの皆さんのバックグラウンドを知ることができる点です。例えば、法務分野向けのAI製品を作る会社を立ち上げた移民弁護士の方がいらっしゃったり、シニアテクノロジー/ファイナンス・エグゼクティブの方がいらっしゃったりします。
このポッドキャストに興味を持ち、恩恵を受けている人々のタイプを知るのは本当に興味深いですね。
ジェレミー: そうですね、実際かなり面白いです。私の仕事でもよく出会うんですが、誰かが「ああ、これについて聞いたよ」と言って、私が「ああ、面白いですね。実はポッドキャストで取り上げたんですよ」と言うと、「うん、そこで聞いたんだ」という会話になることがあります。いつも楽しい驚きですね。
本当にリーチアウトしてくださる方々に感謝しています。前回も言いましたが、まるでコミュニティのような感じがします。赤ちゃんのことで「頑張ってね」というメッセージをたくさんいただいて、本当に優しくて思いやりのある方々だなと感じました。
各エピソードの準備に5時間くらいかかりますが、そういった反応があるとずっと努力しやすくなります。本当に感謝していますし、誰かの役に立っているなら嬉しいことです。
アンドレイ: そうですね。もしかしたらDiscordを立ち上げて、Last Week in AIのコミュニティを作って、AIニュースについて議論する場を作るのもいいかもしれません。今思いついただけの案ですが、もしそういうのが欲しいと思われる方は、ぜひ教えてください。
ニュースに入る前に最後にもう1つ。前回のエピソードと同様、スポンサーの紹介をさせていただきます。今回のスポンサーは、バブソン大学の学際的AIラボ「The Generator」です。バブソン大学は、ご存じない方もいるかもしれませんが、米国でNo.1の起業家教育機関です。
これは新しいイニシアチブで、様々な学部の教授陣が集まって、この新しい学際的なラボを組織しています。AIの起業家精神とビジネスイノベーション、AIの倫理と社会、仕事と人材の未来といった、様々なグループに焦点を当てています。
また、バブソン大学の教職員全体にわたるピアトレーニングなども行っています。彼らは実はこのポッドキャストのファンなんです。前回のエピソードでも言いましたが、これは面白いスポンサーです。というのも、皆さんに買っていただく製品があるわけではないんです。ただこの新しいイニシアチブについて認知を広めたいだけなんです。
今週は面白い取り組みを紹介したいと思います。学生たちがマイクロソフトと共同でビルドアソンというイベントを主催します。起業家精神とAIについて取り組むそうです。こういった素晴しい取り組みを紹介して、皆さんにお知らせしていきたいと思います。
さて、それではニュースに入っていきましょう。いつものようにツールとアプリケーションから始めます。最初の話題は、先ほど予告した通り、ChatGPTの検索機能です。OpenAIはSearch GPTをベータ版としてプレビューで提供していましたが、今回ChatGPTの機能として正式にリリースしました。
この機能は以下のように動作します。ChatGPTは質問に答えるために自分で情報をウェブ検索することができます。また、チャットの返信の際に手動でウェブ検索を指示することもできます。これは通常のChatGPTの体験に直接組み込まれています。Search GPTのような別のものを使う必要はありません。
これはPerplexityやGoogleのAIオーバービューなど、他の類似サービスとよく似ています。これらのサービスでは、クエリを入力すると、アルゴリズムがウェブ上の様々なソースから関連するニュース記事を見つけ出します。その情報がLLMに送られ、それらの様々な情報を認識した上で応答を生成できるようになっています。
他のサービスと同様、もちろんソースを引用し、元の記事へのリンクを提供して読むことができます。これは重要な機能です。ChatGPTの知識は過去、たしか2023年までに限られていました。これでは現在起きていることについて話すことができます。
ジェレミー: ここで興味深い点がいくつかあります。この技術の背景にあるモデルについて尋ねられた時、ある代表者は「MicrosoftのBingを含む様々な技術の組み合わせです」と答えています。これはOpenAIとMicrosoftの統合がより深まっていることを示す興味深いポイントです。
というのも、MicrosoftのBingは実際にはOpenAIのGPT-4の何らかのバージョンで、おそらく調整されているんですよね。ここで興味深いのは、これが血液脳関門を越えているかどうかということです。つまり、OpenAIは実際にMicrosoftの独自製品を使用しているのでしょうか?もしそうだとすれば、それはOpenAIのMicrosoftへの依存度を深めることになります。
もしSearchGPTがブレイクスルー製品になり、OpenAIが何兆ドルもの検索収益市場の一部を獲得できるようになれば、それはMicrosoftと結びつくことの重要な意味を持つことになります。また、基盤となる検索モデルはGPT-4のファインチューニングバージョンだということもわかっています。
つまり、少なくともスタックの一部にそれが含まれているということです。彼らは初期のテストロールアウトをユーザーに対して行い、うまくいったようなので、今回より広いリリースを行うことにしたようです。興味深いのは、GPT-4を選んでいるという点です。
これは、マルチモーダル機能も時間とともにより深く統合されていくということを示唆しているのかもしれません。現時点では、既存の技術を使用し、おそらくMicrosoftとのパートナーシップでBingにアクセスすることで、これらすべてを補完しているようです。Microsoftにはそういった経験がたくさんありますからね。
もちろん、いつものように疑問点もあります。生成型検索の場合、常に価格設定が問題になります。OpenAIにとって、これらのモデルを提供するコストはどのくらいになるのでしょうか?生成型検索は非常に高価です。実際にテキストを生成する必要がありますからね。
これは今後明らかになっていくでしょう。現時点では、ChatGPTでは広告を表示する予定はないと言っています。これはすべてChatGPTのインターフェースを通じて行われるからです。つまり、chatGPT.comで検索するわけではなく、ChatGPTの中で検索が適切に読み込まれるということです。
ただし、無料版での検索ツールの使用頻度には制限があると言っています。つまり、これがGoogleなのかPerplexityなのかという疑問が出てきます。一定レベルの検索に対して料金を支払うことになるのか、広告はどのように表示されるのかなど、そういったことがすべて明らかになっていくでしょう。
また興味深いのは、記事でも指摘されているように、これが米国の大統領選挙の数日前にリリースされたという点です。生成型検索で何か問題が起きた場合、それは大きなニュースになる可能性があります。そういう意味では、リスクの高いタイミングでのリリースですね。1週間待ってからリリースすることもできたはずです。
でも、まあ、OpenAIはいつものように「とにかくリリースしよう」というスタンスを取ったようですね。
アンドレイ: そうですね。もしかしたら、米国の他のニュースに埋もれないように先週リリースすることにしたのかもしれません。
ジェレミー: その通りですね。でもOpenAIがマーケティングを基準にこういった決定を下すはずがないですよね。
アンドレイ: そうですよね。私たちはもうPRを気にするビジネスではありませんからね。
面白いことに、私は実際にこれを少し試してみました。パロアルトの地方選挙で投票する必要のある地方候補者について情報を得るために、PerplexityとChatGPTの検索を比較してみました。市議会議員候補が12人もいて、概要を把握するのが大変だったんです。
実際、これらのツールはどちらも結構役に立ちました。ただ、Perplexityの方が現時点では、多くの情報をまとめて要約するような、より複雑な調査タスクに関してはより優れていると言えます。ChatGPTも悪くはありませんでしたが、情報の提示の仕方がそれほど良くありませんでした。
ただ、すでにChatGPTを使っていて料金を支払っているなら、Perplexityに料金を支払う必要がなくなる理由になるかもしれません。これはPerplexityにとって本当に問題になる可能性がありますね。まあ、様子を見ましょう。検索の競争は激化していますね。
次は、Appleのインテリジェンス機能です。これらの機能が現在ベータ版でリリースされています。これはiOS 18.2の開発者ベータ版で、Appleのインテリジェンス機能は来週、というか今週には一般公開される予定です。
プレビューで見てきたように、統合された文章作成ツール、画像のクリーンアップ、記事の要約、タイピング入力に対応した新しいSiriエクスペリエンスなどが含まれています。ただし、これはLLM統合による賢くなったSiriではありません。
開発者ベータユーザーは、Genmoji、Image Playground、Visual Intelligence、ImageWand、ChatGPT統合など、追加機能にアクセスできます。これらは後でユーザーにロールアウトされる予定です。これについては発表時にすでにカバーしましたが、AppleのAIへのアプローチは、iOSエコシステムに1つの大きなものを入れるのではなく、OSの様々な場所でAIを機能として組み込んでいく方法を取っています。
今、それらの機能の一部がリリースされ始めているところです。
ジェレミー: そうですね。また、彼らはよりプラットフォームとしてのプレイを目指しているようです。これは非常にAppleらしいやり方です。統合者としての立場を取り、価値を生み出す要因としてハードウェアを重視しています。
ある意味で、これはMicrosoftの問題とも言えます。テクノロジーの補完物をコモディティ化したいという考え方がありますよね。有名な例として、Microsoftはパソコン向けのオペレーティングシステムとソフトウェアを作っています。その補完物は、少し直感に反するかもしれませんが、それを実行するハードウェアです。
つまり、非常に安価なハードウェアを作り、利益率の高いところはソフトウェアで稼ぐというわけです。そしてAppleは、ある意味でこれまでのハイエンドハードウェアと同様、逆のプレイを目指しているのかもしれません。
これによって、単にApple製品だけではなく、様々な異なるテクノロジーにとってより自然な統合ポイントとなります。そのため、OpenAIのような企業とのパートナーシップを多く持っているわけです。いずれにせよ、Appleの戦略的な方向性としては興味深い一歩ですね。
アンドレイ: では次にライトニングラウンドに移りましょう。OpenAIとMicrosoftの関係について話が出ましたが、次のニュースはGitHub Copilotが現在、Anthropic、Google、OpenAIのモデルをサポートするようになったというものです。
開発者向けのGitHub Copilotはコーディング支援ツールで、コードを書く際にAIによる提案を提供します。開発者は現在、Claude 3.5、Gemini 1.5 Pro、OpenAIのGPT-4-0-01 Preview、0-01 APIミニなど、好きなモデルを選択できます。
これは興味深いです。なぜなら、GitHub Copilotはこれまで1つのモデルしかなく、選択の余地がありませんでした。そのモデルは明らかにOpenAIの技術を基に、GitHub全体のデータで学習されたものでした。これにより、Microsoftは他の企業ともより良い関係を築けるようになったわけですね。
ジェレミー: そうですね。これは私の偏見かもしれませんが、LLMクラスがますますコモディティ化されているという考えの証拠だと思います。フロンティア企業からアグリゲーターへとレバレッジがシフトし始めているのが見えます。
OpenAI、Anthropic、Google製品など、1つのプラットフォーム上で競争していて、それらの間を切り替えるコストがどんどん下がっているのが感じられます。これは何をもたらすでしょうか?これらの企業の利益率をゼロまで押し下げます。
競争が利益率を侵食し、次世代の製品をリリースして必死に競合を上回ろうとする圧力がかかります。おそらく、これはAnthropicが以前の約束(あるいは半約束、曖昧な約束、確かにそう解釈されていました)にもかかわらず、より強力なシステムをリリースするようになった大きな要因の1つでしょう。
その約束とは、この分野のフロンティアに遅れをとる、あるいは近づくというものでした。これはOpenAIにとっても大きなプレッシャーです。彼らは0-1ミニをリリースし、これは現在Claude 3.5 Sonnet(最近リリースされたばかり)やGoogleのGemini 1.5 Proと並んで製品スイートで利用できます。
これはすべてますます...エンドユーザーにとっては、少なくとも今のところ素晴らしいことです。この分野の競争力学に関して言えば、利益率は圧縮されます。もし独自のLLMを構築しようとしている小さな企業があれば、これは警告になるでしょう。
私はしばらくこのことを言い続けてきましたが、Cohereのような企業は本当に苦戦するでしょう。規模の経済の恩恵を受けられず、巨大なクラウドプロバイダーのサポートも得られない中規模プレイヤーの余地はないと思います。今、その考えが実証されているのを見ているだけです。
もう1つ注目すべき点があります。AnthropicはSonnet(我々はClaude 3.5 Sonnetと呼んでいます)がこのスイートに含まれることについて、全体的な投稿を行いました。以前にも触れましたが、本当に素晴らしいモデルです。
ソフトウェアスイートベンチで最高性能を達成しています。これは基本的にOpenAIが調整したバージョンのスイートベンチで、ソフトウェアエンジニアリングのベンチマークです。Claude 3.5 Sonnetはそこで素晴らしい成績を収めています。
Anthropicにとって大きな疑問は、少なくとも過去1年ほど、競争力のあるモデルを構築できるかどうかではありませんでした。それができることは明らかでした。問題は配信です。世界最高のモデルを作れても、世界最高の製品を作れても、競合他社に配信で圧倒されてしまえば意味がありません。
誰もがOpenAIを知っていますが、Anthropicを知っている人は非常に少ないです。少なくとも一般の人々を見ると。まあ、一般の人々はOpenAIのこともあまり知らないかもしれませんが、分かりますよね?
これは、SlackとMicrosoft Teamsで起きたことと似ています。Slackは素晴らしい成長を遂げ、素晴らしい成績を上げていました。そしてMicrosoft Teamsが登場しました。当初は平凡な製品でしたが、Microsoftですから。すべてのオペレーティングシステムに存在していたので、大規模な配信力がありました。
ある意味で、これはAnthropicがGitHubの素晴らしい配信力を利用することで、少なくともソフトウェア開発に関してはOpenAIとの競争条件を平準化しているのです。
これは非常に興味深い展開です。GitHubはもちろんMicrosoftが所有しているので、通常はOpenAIに好意的なパートナーになると予想されます。しかし、ここではAnthropicとGoogleをOpenAIと並んでプラットフォーム化し、非常に直接的な競争を作り出し、Anthropicに本当に必要な配信力を提供しています。
これは実質的に競争条件を非常に大きく平準化します。
アンドレイ: コーディングの話が出ましたが、次の話題もそれに関連していて、これもAnthropicについてです。AnthropicのチャットボットClaudeに新機能が追加され、JavaScriptコードを書いて実行できる分析ツールが導入されました。
これは重要です。なぜなら、例えばCSVファイルをアップロードすると、Claudeがコードを書いて実行し、その論理処理の結果を出力できるからです。これはChatGPTではしばらく前から利用可能だった機能で、今回Claudeに追加されました。
これは非常に便利な機能です。なぜなら、LLMの弱点を補うからです。LLMはデータを処理したりアルゴリズムを実行したりすることはできませんが、コードを書かせることができます。これはある意味でLLMの弱点を克服する方法になります。
ジェレミー: そうですね、これはモデルを地に足をつけさせる方法として考えることができます。LLMの推論プロセスの各段階で、失敗の可能性があります。そして、モデルにコードを書かせて実行させるという推論の段階がある場合、そのコードの実行は幻覚の影響を受けません。
つまり、より信頼性の高い出力を得るために、プロセスに真実を注入することができるわけです。彼らもそれを示唆していますが、バックエンドでこれがどのように機能しているかは明確には説明していません。
「抽象的な分析だけに頼るのではなく、データを体系的に処理し、クリーニング、探索、分析を一歩一歩進めて、正しい結果に到達できる」と言っています。これは明らかに推論時の計算のように聞こえます。
具体的にどのようなものなのかはわかりません。どのようなプロンプト戦略なのか、エージェントのスキャフォールドなのか、モデルなのか、バックグラウンドでどのようなトレーニングルーチンが行われているのかはわかりません。
しかし、明らかに推論時の計算にますます傾倒しているようです。この場合は、非常に具体的なデータ分析の問題を解決することを目的としています。彼らがこれを機能のカテゴリとして区分けしたのは興味深いですね。
データ分析の幅広い適用可能性を考えると、すべて理にかなっています。まあ、普及するかどうかはこれからですね。投稿には多くのユースケースも紹介されているので、興味のある方はチェックしてみてください。
アンドレイ: そうですね。配信と認知度の向上について話が出ましたが、彼らは明確に「マーケター、営業チーム、プロダクトマネージャーの皆さん、これは有用ですよ」と呼びかけています。
データの処理を示すだけでなく、データに基づくチャートも表示する小さなビデオも公開しています。データを扱う仕事をしている人には間違いなく便利ですね。
チャットボットから離れて、次は11labsに関する話題です。11labsは音声生成、つまりAI音声を提供する会社です。彼らは新機能としてボイスデザインを導入し、テキストプロンプトだけから独自の音声を生成できるようになりました。
11labsは音声合成機能を提供する業界のリーディングカンパニーで、テキストを入力すると非常にリアルな音声を出力することができます。これまでは、彼らが提供する一連の音声に限られていたか、大量のデータを与えて独自の音声を学習させる必要がありました。
今回は音声を説明するだけで作成できるようになりました。例えば、「真面目なニュースキャスターのような本当にプロフェッショナルな声」というように指定すると、その音声を生成します。望む音声を作るための別の方法が追加されたわけです。
ジェレミー: そうですね。トレーニングデータセットがどうなっているのか見てみたいですね。また、このようなマルチモーダルな製品を見ていると、プロンプトの未来がどうなるのかとよく考えることがあります。欲しい音声の種類を言葉で説明するのは、テキストデータではそもそも設計されていないし、声というものを適切に表現したり理解したりするのは非常に難しいですからね。
そのため、私たちは普通、声を表現する時は物まねをしますよね。例えば、カマラ・ハリスやドナルド・トランプの声を言葉で説明するのはとても難しいです。だから、これらのツールでは今後、より反復的なサイクルが必要になるのかなと思います。
最初の音声を生成して、それをテンプレートとして使い、そこからフィードバックを与えたり、物まねをしたりして、入力をマルチモーダルにしていく。画像の場合と同じように、最初の画像をアップロードして、それを修正していくようなイメージですね。11labsの製品でもそういったことができるようになるかもしれません。いずれにせよ、生成音声モデルのプロンプトの新しい形態として興味深いですね。
アンドレイ: そうですね。良いポイントです。おそらく話し方そのものよりも、誰が話しているかを説明する方が意図されているんでしょう。そこから話し方は暗示されるということですね。「邪悪なオーグル」といった例もあります。
ちなみに、これが悪用できないか試してみました。オバマの説明を、名前を含めずにWikipediaから最初の段落をコピーしてみたんですが、11labsはちゃんと検知してオバマの声は生成しませんでした。これは良いことですね。
次はMidjourneyの新しいウェブエディタについてです。PCから画像をアップロードして編集することができます。これまでMidjourneyは純粋な画像生成に特化していました。他の競合製品では画像をアップロードして編集することができましたが、今回Midjourneyでもそれが可能になりました。
このエディタではサイズ変更、消去などの編集が可能で、リテクスチャ機能によってプロンプトで画像の内容を修正することもできます。これはまだベータ版で、少なくとも10,000枚の画像を生成し、年間メンバーシップを持ち、過去12ヶ月間月額課金を続けているユーザーに限定されています。かなり熱心なMidjourneyユーザーですね。
ジェレミー: そうですね。実は、このような形でクローズドベータやベータを区切るのを見たのは初めてです。まるでロイヤルティテストのようですね。「狂おしいほど使い込んでいますか?」みたいな。
私はY Combinatorにいた時、これは推奨されていたアプローチの一つでした。1万人が「まあまあ良い」と思う製品を作るより、100人が心から愛する製品を作る方が重要だと。そしてそういった人々を見つけたら、なぜ彼らが製品を愛しているのかを理解して、そこを掘り下げていく。
おそらくここでもそういった考え方があるのでしょう。もちろん、過去にもこういった例はあったと思います。AIではまだ見たことがありませんでしたが。彼らは有名なビートルズのゼブラクロッシング写真の興味深いスクリーンショットを共有しています。
背景を新しくするなど、かなり効果的に編集できています。つまり、彼らは本当に興味深い新機能を持っており、それを導入する興味深い方法を見つけたということですね。
アンドレイ: 最後の話題も実はMidjourneyに関連しています。記事の見出しは「Midjourneyに注意、WeCraftが新しいAI画像生成モデルを発表」というものです。
WeCraftはデザインに焦点を当てている企業で、WeCraft V3というモデルを持っています。これはかなり優れたモデルで、しばらくの間、Hugging Faceのテキストから画像へのモデルリーダーボードで高いランキングを獲得していました。
実は少し謎めいていて、人々は何なのか気になっていました。今回わかったのは、これがWeCraft V3というモデルで、印象的なほど優れています。もちろん、見てみると、少なくとも私にとっては、現時点で異なる画像生成器を区別するのは難しいですね。
ジェレミー: それは画像生成の定量的な側面での長年の問題ですね。生成された画像の品質を実際にどうやって測定するのか。テキストも同じような段階を経てきました。BLUEスコアだけでは、もはやその先に進むには不十分になってきています。
モデルがある種の人間の能力、あるいはある定量的な閾値を超えると、測定が本当に難しくなり始めます。個人的にはこれを感じています。これは私がグラフィックデザイナーではなく、これらのモデルを特定のグラフィックデザインやアニメーション作業に実際に使用していないことの表れかもしれません。
もしその分野にいれば、「ああ、このモデルが他よりもずっと優れている」とわかるでしょう。素人目には完全に互角に見えるものでも。6ヶ月後、1年後には、ドメイン固有のアプリケーションでそういったことがより多く見られるようになると思います。
このスペースへの大規模なVC投資には常に興味を持ち、混乱もしています。コモディティ化に向かって急速に進んでいるように見えるのに。まあ、ピーター・ティールの言うように「競争は敗者のためのもの」なのか、それとも誰かが実際に勝利を収めるのか、見守っていきましょう。
アンドレイ: その通りです。そういう意味で、WeCraftの創設者はモデルのデザイン中心のアプローチを強調しています。デザイナーに出力のコントロールを与えることを目指しているんです。つまり、差別化要因はプロのユーザーにとって重要な、最後の1%、あるいは5%の品質になるということですね。
これは興味深いです。もはや単なる品質の問題ではなく、本当に細かい部分まで入り込む必要があるということです。
ジェレミー: そして実際に、産業界全体のAIの現状を示す素晴らしい指標でもありますね。多くの人々が「このスペースは過大評価されているのか、そうでないのか」という混乱を感じている源でもあります。
印象的なデモがあり、ChatGPTの瞬間のように、人々は「ああ、こんなに手付かずの果実がある」と気づきます。実際にそうなのですが、最も価値のあるアプリケーションでは、多くの場合それは最後の1マイル、最後の1%なんです。
アプリ構築モデルで1%のミスを作るのは...まあ、これは悪い例かもしれません。でも、重要なユーザー経験を提供するモデルの場合、1%でも高すぎる可能性があります。
驚くべきことに、これは多くの場合問題になります。そして一貫した一連のアクションを繋げなければならないエージェントモデルの場合、1%のエラー率は致命的です。20ステップを含むものであれば、約30%の確率で途中で失敗することになります。
つまり、問題がないわけではありませんが、重要なのは、人々が「これは過大評価されている」と考える初期の段階があり、その後、スケーリングによって基本的にそのエラー率を下げていくと、突然魔法のような閾値を超えて、すべてが可能になるということです。
つまり、これらは同時に過大評価され、過小評価されている可能性があるんです。それを見る時間軸の問題ですね。いずれにせよ、これらの画像モデル、そしてますます増えているエージェントシステムについての大きな問題だと思います。
アンドレイ: アプリケーションとビジネスのセクションに移りましょう。今年ずっと追ってきたトレンドから始めます。大企業がメディア出版社と契約を結んでおり、今回はMetaがReutersと複数年契約を結びました。
Reutersはご存じない方もいるかもしれませんが、非常に大きなニュース配信会社です。多くの速報ニュースがReutersから配信されています。この契約により、Metaのチャットボットは、ユーザーがニュースや現在のイベントについて質問した時に、Reutersのリアルタイムニュースや情報にアクセスできるようになります。
これがMetaのトレーニングにもアクセスを提供するのかは不明ですが、いずれにせよ、OpenAIが多くのメディア企業、例えばReutersと結んでいるパートナーシップを思い起こさせますね。
ジェレミー: そうですね。これはより広い文脈の一部でもあります。Metaは歴史的に、プラットフォーム上でハードニュースを避けようとしてきました。現在のイベントに関する内容をより避けるような措置を取り、おそらくそういった内容はXのようなプラットフォームに任せる方向に向かっています。
実際、この件に関して、彼らの幹部は「ハードニュースや政治的なコンテンツを奨励するようなことは一切しない」と明言しています。しかし、もちろんそれは事実です。プラットフォームにニュースを明示的に追加し始めると、そういった方向に誘導されることになります。
コンテンツモデレーションについて、ニュースや現在のイベントに関する返答の生成について、彼らは何をするのでしょうか。まだコメントはありません。現在の技術では、それはおそらく解決不可能な問題であることを考えると、理解できます。
また、この契約の条件も不明です。Reutersに何らかの補償があることはわかっていますが、これが年間ライセンスモデルなのか、収益分配なのか、金額がいくらなのかはわかりません。次のステップとしては興味深いですね。
記事の最後に興味深い注釈があります。Metaは現在ニュースコンテンツに対して支払う意思を示していますが、同時に、ソーシャルメディア上のニュースコンテンツに対してパブリッシャーに補償を要求する法律には反対しているという、興味深い二面性についての指摘です。
個々の出版社とライセンス契約を結ぶ方法を見つけたいが、クリックに対する収益分配のような一律の補償は避けたいということです。カナダでは非常に注目を集めている状況があります。
政府がMetaにお金を出させようとしたため、FacebookとInstagramでニュースにアクセスすることができなくなっています。基本的に、従来のメディアに再循環できる資金です。これも非常に議論の的になっている提案です。
私に言わせれば、最善のアイデアとは言えませんが、結果としてMetaはカナダのエコシステムから完全に撤退することになりました。カリフォルニアでも同様のことが起きています。
これは開始プレイのように見えます。人々は「ニュース出版社とライセンス契約を結べば、少なくとも著作権を無視してニュースを無差別にスクレイピングしているという非難から身を守ることができる」と言い始めています。
まあ、様子を見守り、他の企業も追随するかどうか見ていきましょう。
アンドレイ: 次も、今年ずっと話題にしてきたトレンドに関連する話題です。OpenAIとハードウェアの探求についてです。ニュースによると、OpenAIはAMDチップの使用を開始し、2026年には独自のAIハードウェアを作る可能性があるとのことです。
OpenAIはRODCOMとカスタムシリコンチップで協力しており、Microsoft AzureのインフラストラクチャにAMDチップを統合しています。これにはAMDのMI 300チップなどが含まれます。これまでもちろん、NVIDIAがAIコンピューティングで大きなシェアを持っていましたが、今やAMDがこの分野で本当の競合になり始めているようです。
ジェレミー: そうですね。この背景にある理由の一つは、OpenAIがより多くのフローを求めているということです。より多くのハードウェアのソースが欲しいんです。NVIDIAのハードウェアを拒否するつもりはありませんが、AMDという別のソースがあれば素晴らしい、取り入れようということです。
また、NVIDIAを超えてサプライヤーを多様化することで、価格交渉でより有利な立場に立てます。また、これはOpenAIがGoogleのトップハードウェアエンジニアを恥ずかしげもなく採用し、引き抜いていることの一環でもあります。彼らは約20人のチップチームを編成したようですが、これらはGoogleでTPU(Tensor Processing Unit)、つまりGoogleが構築する特殊なASICの主力製品の開発に携わっていた人々です。
カスタムハードウェアに明らかに興味を持っているわけですが、これは非常に興味深い話です。OpenAI、Anthropic、Googleのようなフロンティアラボの研究がますます非公開になっていく中で、もはやオープンソースではなく、誰もが自社の企業秘密を隠し始めています。
中国を除いてはという話ですが。彼らはこれらを構築し始め、これらのラボのアプローチの違いがますます見え始めています。これは本当に興味深いことです。AIモデルアーキテクチャの相関性が低下し始めるでしょう。
その結果として、ハードウェアレベルでも相関性の低下が見られ始めます。OpenAIは特徴的に、ハードウェアを含むすべての面で積極的に前進しています。
基本的に「独自のカスタムハードウェアの構築に全力を注ごう」という大きな賭けをしているわけです。社内での設計能力がすべて揃っているわけではないので、Broadcomとのパートナーシップが必要です。
これはOpenAIとBroadcomのパートナーシップについて初めて耳にする話ではありません。以前にも取り上げましたが、これによりBroadcomはNVIDIAとの競争において、これらの先進的なASICの設計でより前進することになります。
BroadcomはこれまでもASICを手がけてきましたが、今回はGPUモデルやNVIDIAが生み出すようなモデルと競合する、本格的なAI ASICを目指しています。これは非常に興味深いです。
また、ある意味で最も驚くべきことではありません。なぜなら、OpenAIが特にGoogleからハードウェアエンジニアを引き抜いているというニュースをたくさん目にしてきたからです。興味深いことに、BroadcomはもともとGoogleのTPUパートナーでした。
多くのレポートではこの点が見落とされていますが、GoogleがTPUを最初に設計した際、実際にBroadcomにその取り組みを依頼していたのです。つまり、これは実際にはOpenAIがGoogleの初期戦略を模倣しているわけです。
「Broadcomとパートナーシップを組んでいる、能力が足りない」というのは、OpenAIにとってネガティブなことを示唆していると言う人もいますが、そうではありません。これはその取り組みを立ち上げる方法として一般的なのです。
実際、Hacker Newsにこれについての素晴らしいコメントがありました。これらの元Google従業員がOpenAIに移り、Broadcomとのベンダー関係も一緒に持ち込んでいるということです。そのため、GoogleでTPUと共にうまく機能したものをOpenAI側で再現しようとする強い傾向があるのです。
アンドレイ: その通りです。Broadcomとのパートナーシップは、GoogleのTPU(Tensor Processing Unit)のようなものを構築したいという意思を非常に直接的に示唆しています。TPUは確か2016年にバージョン1が出て、それ以降何度も改良が重ねられています。
実際、BroadcomはそのGoogleとのパートナーシップから数十億ドルの収益を得ています。だから、より多くのそういった取り組みをしたいと考えるのは理にかなっています。
このニュースによると、OpenAIは数ヶ月前からBroadcomと協力して、推論に重点を置いた初のAIチップの構築に取り組んでいるそうです。もう一つの側面として、推論用のカスタムハードウェアを持つことで、より高速で安価な処理が可能になります。
OpenAIは数十億ドルの収益を上げていることは知られていますが、それが利益に転換できるか、Anthropicやその他のプロバイダーとの価格競争を続けながら実際に収益を上げられるかはまだ不明です。
このような競争に対抗する一つの方法は、良好な利益率を可能にするハードウェアを持つことだと思います。GPUだけでは非常に困難なことです。
ジェレミー: 特に推論時の計算についてはそうですね。なぜなら、これが分野全体の方向性のパラダイムになりつつあるからです。学習時の計算から推論時の計算へのシフトが見られます。
自画自賛になりますが、この変化が来ることについては約2年前から話してきました。推論時の計算のスケーリング則の最も初期の兆候が見られた時から、学習時の計算と推論時の計算の間の交換率、特定の文脈で一方を他方と交換できることについて。
そして私はそれが今後の方向性だと思います。OpenAIは「Oh oneのようなモデルを使って、これは明らかに私たちの大きなAGIへの賭けです。私たちはますます推論時の計算を使うことになるでしょう」と言っています。
これらのシステムは問題を考え、熟考するのにより多くの時間を費やすようになります。そして、なぜバックプロパゲーション、つまりモデルのトレーニングができるようにハードウェアを最適化する必要があるのでしょうか?
トレーニングにはハードウェアの予算のごく一部しか使用しないのに。推論というより特殊な問題があれば、より特殊なAIハードウェアを作ることができ、あなたが言ったように、より良い利益率を確保できます。
Grokのような企業はこの方向で大きな賭けをしています。「推論の部分だけを切り出して、そこを徹底的に押さえよう」というアプローチです。これまでのところ、彼らにとってはうまくいっているようですね。OpenAIがさらに推論に注力するのを見るのは興味深いでしょう。
アンドレイ: そうですね。また、推論は人々が実際にお金を払う主な部分です。APIを使用する時などの価格設定は、大規模な推論が差別化要因になっています。
今のところ、例えばClaude 3.5の場合、多少の違いはありますが、簡単に行き来できます。多くの場合、結局は価格に帰着します。そのため、継続的な価格低下に対応できることが非常に重要です。
最後に興味深い点として、これは大きな話題です。このニュースでBroadcomの株価は4.5%上昇し、AMDは3.7%上昇しました。これは投資家がこれをどう見ているかを物語っていますね。
ライトニングラウンドに移りましょう。まずはOpenAIの競合であるXAIについてです。彼らは資金調達を探しています。シリーズBで60億ドルを調達し、240億ドルの評価額に達しました。
今は400億ドルの評価額でさらなる資金調達を目指しています。この資金は、データセンターのGPUを10万台から20万台に増やすために必要なようです。少なくとも私が読んだ記事ではそう書かれています。
XAIが大量の資金を必要としているのは、ある意味当然かもしれません。OpenAIやAnthropicに追いつこうとしているわけです。彼らは基本的に同じ種類の製品で同じ顧客をターゲットにしているように見えます。XAIはその面で確かに大きな努力をしていますね。
ジェレミー: そうですね。これは非常に興味深い展開です。これまでXAIを見限っていた人もいたかもしれません。Google、Microsoft/OpenAI、Anthropic、そしてメタくらいしか、これを実現するリソースを持っていないように見えた時期がありました。
XAIは突然現れたように見えますが、昨年XAIが立ち上がる直前に調査を行っていた時、私たちは警告を受けていました。「この人たちに注目してください。GPUのハードウェア面での買収が非常に大規模だから」と。
このスペースでの差別化要因は、スケーリングが正しいとすれば(フロンティアラボのほとんどがそう考えているようです)、AGIまたはそれに近いものへとスケールできるということです。そうなると、2番手では意味がありません。
そのため、資金調達のピッチは「私たちが最初にやります」というものでなければなりません。他の選択肢はないのです。「自己改善するAGIを作りますが、2番手でやります」というような資金調達はありえません。
その時点では無関係です。他の誰かがすでにやっています。暴走効果などが起きてしまいます。もしこれが現実のものとなれば、イーロンはXAIを誰も知らない馬から、このレースの先頭を争う非常に競争力のある馬へと、見事に成長させたことになります。
彼が宣伝したように「世界最大のスーパーコンピュータ」、正確にはH100クラスタ、トレーニングクラスタを持っているだけでなく(当時はおそらく事実でした)、今やその規模を倍にしようとしています。
ギガファクトリーで最初のH100 GPUラックが設置されてからわずか19日でこのクラスタを立ち上げたのは前例のない速さです。これは信じられないことです。NVIDIAのCEOであるジェンセン・ファンのインタビューで、普通このような作業には数ヶ月から数年かかると語っていました。
XAIはわずか122日でこのシステム全体を運用可能にしました。本当に驚くべきことです。イーロンは彼らしく、ハードウェアスタックの設計と構築の実装に深く関わっています。彼らはすべての配線方法や電力供給方法についても、いくつかの変わった選択をしています。
例えば、NVIDIAが作る非常に確立されたInfiniBandという相互接続を使用せず、最近登場したイーサネットファブリックを使用しています。これも非常に競争力がありますが、まさにイーロンの特徴が全面に出ている、非常に独特なクラスタの設計だと言えます。
超興味深いですね。そして資金調達のアピールポイントは「私たちは違うやり方をしているから、最初にできる」というものになるでしょう。
アンドレイ: 確かに彼らは多くのハードウェアを稼働させています。基本的にキャッチアップできたのは非常に印象的です。彼らのモデルはまだそれほど優れているわけではありませんが、基本的にChatGPTやClaudeで使用するような多くのことに使用できます。
そしてイーロン・マスクは、少なくともハードウェア企業の運営は得意ですからね。
ジェレミー: そうですね。それに調達も得意です。彼が設計面でクラスタに関して最も重要視していることの一つは、有名な大物としての影響力を活かして、NVIDIAのジェンセン・ファンのところに行って「ねぇ、みんなGPUを求めて懇願しているのはわかってるけど、僕はクールで有名だから」と言えることです。
「GPUをください。そしてパートナーシップがどれだけ生産的だったか自慢させてください」と。これはNVIDIAにとっても興味深い恩恵となっています。世界で最も成功した起業家の一人であるイーロン・マスクが「これが私たちが使用しているハードウェアスタックです。素晴らしいです。NVIDIAとの仕事は素晴らしかったです」と言うようになったわけです。
NVIDIAもその恩に報いています。つまり、両者にとって無視できないマーケティング上の利点があるわけです。それでもなお、それはイーロンがテーブルに持ち込んでいる価値であり、これらを素早く立ち上げています。
彼は自分が持ち込める価値を正確に理解していて、それをうまく活用しているんです。これは彼がすべきことを実行しているということです。
アンドレイ: そうですね。また有名な話として、TeslaからGPUを借りた、あるいは転用したとも言われています。いつものように、イーロン・マスク・メガコーポレーションがどのように機能しているかを見るのは興味深いですね。
次は資金を調達しているスタートアップについてです。Physical Intelligentという、ロボットAIを専門とする企業です。彼らはジェフ・ベゾスを含む様々なソースから数百万ドルを調達しています。
今年初めの7000万ドルのシード資金調達に続いて、新たに4億ドルの資金調達を行いました。これにより評価額はおよそ20億ドルになります。これは、彼らの進捗に関する最近のニュースと時を同じくしており、その内容については後ほど取り上げます。
Physical Intelligentはまだ製品はありませんが、ロボットが非常に高い能力を発揮できる汎用的なロボット・ブレインを構築することを約束しています。投資家たちはその約束に非常に強気なようです。
ジェレミー: そうですね。彼らは慎重でもあります。最初の製品に関するハイプを抑え気味にしているのがわかります。理解できることです。彼らは「これはGPT-1のようなものです」と言っています。
AIの分野に詳しい人なら、GPT-4の前にGPT-3があり、その前にGPT-2があったことを覚えているでしょう。GPT-1は確か2019年だったと思います。2017年?ああ、そうです。トランスフォーマー論文が2017年でしたね。
とにかく、パンデミック以前のことなので誰も正確には覚えていませんが、彼らは「これはGPT-1のようなものです。ChatGPTのように考えないでください。これは概念実証です」と言っています。
ただし、「ChatGPTのようなブレークスルーは予想よりもずっと早く来るかもしれないし、もしかするとずっと先かもしれない」とも言っています。つまり、多くの不確実性があります。
これはAIの分野では当然のことです。ChatGPTの瞬間がAIで重要なのは、まさにAIの能力のどのレベルで突然重要な閾値を超えて、商業的な観点から製品を実現可能にする重要なタスクの臨界量が可能になるのかわからないからです。
ただ改善を続け、改善を続けて、そのスイッチが入ることを期待するわけです。それはかなり二元的です。少なくとも製品はそういう傾向にあります。ただ、通常は人間が反復しているのであって、何かが突破するまでただコンピューティングパワーを注ぎ込むわけではありません。
アンドレイ: そして、先ほど言ったように、その詳細はこの後すぐです。次はWaymoに関する話題を2つ取り上げます。Waymoも資金調達を行い、特に56億ドルを複数の投資家から調達しました。
注目すべきは、もちろんWaymoの親会社であるAlphabet、つまりGoogleの親会社です。おそらくこの資金の多くは、GoogleからWaymoへと流れているのでしょう。基本的にはGoogleの広告という金のなる木から、この新しいイニシアチブへと。
ただし、Andreessen Horowitz、Fidelity、Silver Lakeも参加しています。これはオースティン、アトランタ、LAなどの新しい都市への展開を試みている時期と重なっています。
Waymoに関連してもう1つの話題があるので、両方カバーしましょう。Waymoは最近、週に150回以上の有料ロボタクシー乗車サービスを提供しているそうです。これは今週だけで50%増加しています。
これが注目に値するのは、主にWaymoがどのようにスケールできるかを見るためです。実際に急速に事業を拡大してTeslaに先んじて市場を獲得できるのでしょうか?これらは良い兆候と言えます。
ジェレミー: そうですね。次のステップとして地理的なカバレッジを拡大しようとしているのは驚きではありません。それが拡大の方法ですから。
新しい都市に参入する際の課題も興味深いと思います。人々が他の人々がWaymoに、つまり運転手のない車に乗っているのを見慣れるようにする必要がありますからね。少し奇妙な感じがしますから。
新しい都市でのローンチのプレイブックがどうなっているのか興味があります。これらの企業はすべてそういったプレイブックを持っているはずです。特にWaymoのものは興味深いでしょうね。
アンドレイ: そうですね。今日のサンフランシスコでは、混雑したエリアにいれば2分以内にWaymoを見かける可能性が高いです。今や至る所で見かけます。
ジェレミー: そうそう、サンフランシスコやマウンテンビューにいると、本当に未来を見ているような感覚を覚えますよね。2017年か2018年くらいだったと思いますが、歩いていて、AirPodsを着けている人々を見かけたのを覚えています。
今となっては馬鹿げて聞こえるかもしれませんが、当時はみんなAirPodsを着けているわけではありませんでした。みんな有線のイヤホンをぶら下げていました。そして私は「ここは世界で最も奇妙な場所か、それとも近い将来、世界中がこうなるのか」と考えたものです。
それはBirdのスクーターでも同じでしたよね。だから、おそらくこれも来るべきものの前触れなのでしょう。
アンドレイ: AI企業の広告が掲載された看板は、おそらく他の場所には来ないでしょうね。
ジェレミー: それはその通りですね。
アンドレイ: 次のセクション、プロジェクトとオープンソースに移りましょう。ここでは面白い話題をいくつか取り上げます。まずはMeta AIが静かにNotebook Llamaというものをリリースしました。これはGoogleのNotebook LLMのオープンバージョンです。
面白い対比ですね。Notebook LLama対Notebook LLM。以前カバーしたように、Notebook LLMはGoogleの人気製品です。PDFなどのファイルをアップロードして、それらのファイルについて会話したり、要約を得たりすることができます。
最近特に人気を集めているのは、それらの文書についてポッドキャストエピソードのような音声ディスカッションを生成できる機能です。
ジェレミー: アンドレイ、私たちにはできないことですね。
アンドレイ: そうですね、私たちのようにはできませんよ。もちろん、私たちの方がずっと上手くできます。
ジェレミー: そうそう。チェックしようと考えている人がいたら、やめておいた方がいいですよ。がっかりするだけです。私たちが説明しますから。私たちほど魅力的でユーモアのあるものにはなりえません。
アンドレイ: 私たちが持っている量のメモを与えたら、2時間は...まあ、とにかく、Notebook Llamaも同様に、テキストや文書を提供すれば、それらの文書についてチャットしたり、要約を得たりすることができます。
ジェレミー: そうですね。最終的には、元のNotebook LMのような本当に信頼できる音声生成ツールを手に入れることになると思います。実際、私はGoogleのNotebook LM、オリジナルの方を使っていますが、すごく良いんです。
10分のポッドキャストは、伝えたいことを大体伝えるのに丁度良いレベルの抽象度と複雑さを持っています。議論のレベルをもっとコントロールできるようになると良いですね。
そしてまさにこういったツールをオープンソース化することで、実際のポッドキャスト生成が本当に良くなった時に、そういったことが可能になると思います。
このような製品でオープンソース化は本当に多くのクールなアイデアを素早く実装することができます。なぜならポッドキャストの設定の仕方は非常に重要で、人々は様々な異なるプロンプトやメタ指示を含めたいと思うでしょうから。
アンドレイ: 今ちょっと聞いてみましたが、Notebook LMほど良くはありません。印象的なのは、非常にリアルな音が出るということです。AIらしい奇妙さはありますが、それは最小限です。
独自のモデルを使用していないため、生成の質はそれほど良くありませんが、それでもかなり良いですね。
ジェレミー: そうですね。Notebook LMの最初のローンチで目指した雰囲気は、Reply Allのようなポッドキャストを聞いたことがあれば分かると思いますが、2人のホストがいて、少しバンターがあって、私の好みには少し多すぎるくらいバンターがあって、時々少し気まぐれすぎる感じがします。
でも、不気味の谷には全く入っていないんです。それが私を驚かせました。少しぎくしゃくした体験を期待していました。OpenAIが最初に出したJukeboxのような感じを。でも、これは真っ直ぐに急所を突いてきました。素晴らしかったです。
だから、このオープンソースバージョンがまだそこまで達していないのは驚きではありません。でもまあ、すぐに追いつくでしょう。
アンドレイ: そうですね。オープンソースコミュニティがこれを取り上げて思い切り発展させるでしょう。次もMetaに関する話題です。Llama 3.2の量子化モデルのリリースについてです。
ポッドキャストで何度も取り上げてきたように、量子化モデルとは、通常float型の重みを持つ完全なモデル(1.2、2.4、5.6、7など)を取り、それらの数値のサイズを減らすものです。
8ビット、4ビットなどに量子化します。つまり、モデルの重みの精度が下がり、サイズが小さくなり、メモリ使用量も減ります。これは携帯電話などには重要です。
ここでは、モデルサイズを56%、メモリ使用量を41%削減した量子化モデルがあると言っています。これらは10億パラメータと30億パラメータのモデルです。
ジェレミー: そうですね。これらの量子化モデルについて認識しておくべき点の1つは、量子化すると品質が大きく低下するということです。通常、BF16、つまり16ビットの精度で学習を行い、それを4ビットや8ビットに減らすわけです。
つまり、多くの情報を捨てることでモデルを圧縮するわけです。モデルは16ビットの表現で学習され、その解像度を使用することを前提に学習されています。もし4ビットでの推論を強制されることを前提に学習されていれば、おそらく少し異なる戦略を取っていたでしょう。
例えば、自分に指示を送る必要があり、2文しか使えないのか2ページ使えるのかで、異なるアプローチを取るのと同じです。同じ考え方です。
そのため、学習後に事後的にその制限を課して量子化すると、量子化を学習プロセスに組み込む「量子化考慮学習」と比べて、大量のパフォーマンスが失われます。量子化を学習プロセスに組み込む方法は多くあります。
これが彼らがここで行っていることです。以前、8月9日のエピソードで「自己圧縮ニューラルネットワーク」について取り上げました。これはその一例で、基本的にモデルパラメータの1つのカテゴリー、単なる重みやバイアスだけでなく、各重みやバイアスの解像度のレベルも、モデルに学習させるというものです。
特に、モデルに自身の重みの精度を段階的に調整させることもできます。「この重みを見てみよう。8ビット表現でいけそうだな。4ビットでもいけるかな。2ビット?1ビット?あ、完全に削除できるな」というように。
このアプローチで重みを完全に削除することまでできます。他にもYoshua Bengioが提案した「ストレートスルー推定器」など、様々な方法があります。これにより、丸め操作を通じて重みに勾配更新を伝播させることができます。
数学的な知識がある人なら、これが量子化プロセスに必要な操作の一部だと認識できるでしょう。要するに、これを行う方法は多くあり、学習ループに量子化の知識を組み込むことでより良い結果が得られます。
LoRA(以前ここで話題にしました)と組み合わせることで、モデルの追加容量や機能についてより細かい制御が可能になります。これは本当にクールですね。
私の知る限り、このような量子化考慮学習プロセスがこのようなフロンティア的なモデルにつながった例は他にありません。間違っているかもしれませんが、私たちは多くのニュースをカバーしてきましたが、これまでこのようなものは見たことがないと思います。
アンドレイ: 私も同意します。これはかなり新しいですね。普通は量子化後にディスティレーション学習をしたり、追加の学習を行ったりする印象でした。これはかなり異なりますね。
このセクションの最後の話題は、ベンチマークに関するものです。OpenAIがSimple QAをリリースしました。これは言語モデルの事実性を測定するためのベンチマークです。
LLMの主な問題の1つは幻覚です。LLMが完全に誤った情報や作り話を、まるで真実であるかのように言ってしまうことです。このベンチマークには様々な分野にわたる4,326の質問が含まれており、GPT-4に対して敵対的に作成されています。
つまり、高度なモデルにとっても挑戦的なものになるように作られています。そのため、GPT-4でさえ正解率は38.4%にとどまります。これは本当に信頼できる回答を提供する能力をテストします。
また、「試行時の正答率」というような指標もあります。LLMは「未回答」という選択もできるんです。その方が良い場合もありますよね。幻覚を起こさずに済みますからね。
ジェレミー: このベンチマークは面白かったですね。正直に言うと、最初SimpleQAを見た時は「これ、すでに飽和してるんちゃうん?くだらんベンチマークやな」って思ったんですが、実際の質問を見てみると...基準が面白いんです。とにかくシンプルな質問に焦点を当てて、絶対に議論の余地のない答えがある質問にしているんです。哲学とか倫理とか政治の質問じゃなくて、純粋な事実に基づく質問なんですが、以前のモデルが苦手とした質問なんです。
だからめちゃくちゃニッチな質問になってるんです。例えば、めっちゃマニアックなトリビアゲームをプレイしたことありますよね。好きなテレビ番組があって、「シーズン3の第4話で、このキャラクターがあのキャラクターに何か言う時に、テーブルの上に何があったか?」みたいな。そんな感じの質問が出てくるんです。このベンチマークでは歴史に関する質問が多いですけど、そこまでマニアックじゃないにしても、そういう具体的でニッチな質問が多いんです。
そしてそれがモデルを躓かせるんですね。まあ、驚くことでもないかもしれません。ここで彼らが発見したことの1つは、GPT-4 0 miniとGPT-4 0.1 miniは、GPT-4 0とGPT-4 0.1プレビューと比べて正答率が低かったということです。これは驚くことではありません。小さいモデルですからね。
一般的に言えば、パラメータが多いモデルの方が知識を吸収する容量が大きいので、一般的な知識は優れているんです。推論能力は必ずしもそうではありませんが、一般知識に関しては確実です。過学習のせいだと言うこともできますが、基本的にそういうことが起きているわけです。
面白い結果として、0.1 miniと0.1プレビューは、GPT-4 0 miniとGPT-4 0と比べて、より頻繁に質問に回答しないことを選択したんです。理由は分からないんですが、推測では、推論能力を使って質問に答えられないことを認識し、幻覚を起こして適当な答えを出すのを避けたんじゃないかということです。
これは本当に興味深いですね。推論時の計算能力の恩恵ですよね。これらのモデルはスクラッチパッドで答えを生成して、それを検証して、「うーん、これ正しいかな?あんまり自信ないな。じゃあ答えるのやめとこう」みたいなことができるわけです。これは推論と幻覚の関係性を示していますよね。
幻覚と推論がどう結びついているかについては、いろんな理論が提唱されていますが、この結果はその仮説を裏付けていますよね。これらの推論モデルで明確な違いが出ているわけですから。
それから別の興味深い問題として、モデルの主張がどれだけキャリブレーション(較正)されているかということがあります。キャリブレーションというのは、例えば今日の選挙で誰が勝つかを聞かれて、「カマラが80%の確率で勝つ」とか「トランプが80%の確率で勝つ」と答えた場合、きちんとキャリブレーションされていれば、80%の確率で正しく、20%の確率で間違っているはずなんです。
つまり、「これについて80%確信がある」と言うなら、80%の確率でその通りになるべきなんです。そこで彼らはモデルでそれをテストしたんです。モデルに「今の答えにどれくらい自信がある?」と聞いて、キャリブレーション曲線を作ったんです。めっちゃ面白い結果が出ましたよ。
驚くことでもないですが、ほとんどのモデルのキャリブレーションはあんまり良くないんです。でも、ある程度の傾向は見られます。モデルが「めっちゃ自信ある」って言う時は、実際に正解率は高くなる傾向にあります。
例えば、モデルが90%確信していると言う時は、少なくとも0.1モデルでは60%くらいの正解率になります。逆に50-50って言う時は、正解率は10%くらいです。これは面白い曲線になってますね。完璧なキャリブレーションなら直線になるはずなんですが、そうはなってません。
他にもキャリブレーションに関する興味深い測定結果がたくさんあります。これは確認する価値がありますよ。キャリブレーションの問題の中に、自己修正に関する非常に重要な洞察が隠されているんです。モデルが自分の出力にどれくらい自信を持つべきか正しく判断できるということは、自己修正にかなり近いんです。
間違った方向に進んでいることを認識したり、「うん、この結果は正しいと思う」という直感を持ったりできるということは、興味深い可能性を示唆しています。だから0.1モデルがキャリブレーションの面でGPT-4 0シリーズを大きく上回っているのは驚くことではないんです。
ここではそういう風に宣伝されていませんでしたが、これが隠された洞察の1つだと思います。キャリブレーションと推論、キャリブレーションと幻覚は、モデルが「何か違うな」と評価できるという複雑なアイデアの中で絡み合っているんです。
この分野の研究は今後数ヶ月でもっと進展すると思います。
アンドレイ: このペーパーには面白い発見がたくさんありますね。ちなみに、このベンチマークの質問の例を紹介しましょうか。例えば「イギリスの言語学者バーナード・コムリーが1985年に結婚した女性のフルネームは?」
え?知らないですか?答えは明日来熊原(アキコ・クマヒラ)です。
発話者5: そう、私もそう言おうと思ってました。
アンドレイ: はい。もう1つ例を挙げると「キャリー・アンダーウッドのアルバム『Cry Pretty』がRIAAからゴールド認定を受けたのは何年何月何日?」。もしキャリー・アンダーウッドの熱狂的なファンなら知ってるかもしれませんが、ほとんどの人は知らないでしょう。2018年10月23日です。
このように、ある意味ではシンプルな質問なんですが、実際に答えを知らない限り、正解できないんです。その意味で、モデルがGPT-4 0で38%、0.1プレビューで42%の正解率を達成しているのは、かなり印象的です。非常にマニアックな知識まで吸収しているわけですから。
最後に面白い点として、CLAUDモデル(HiQからSonnetまで)も評価したんですが、興味深い違いがありました。CLAUDモデルは全体的に、回答を避けることが多かったんです。GPT-4 0はこれらの質問の1%しか回答を避けず、その結果61%間違えました。
対してCLAUD 3.5 Sonnetは35%回答を避け、36%間違えました。つまり、回答を試みる割合を考慮すると、CLAUDモデルの方が実は優れているんです。最小のCLAUDモデルであるCLAUD 3 Haikuでさえ、75%回答を避けます。これは、OpenAIとAnthropicが異なる目標を持って異なるトレーニングをしていることを示唆していますね。
ジェレミー: そうですね。これは製品の差別化を表していますよね。私自身、初めてトピックを理解しようとしていて、得られた情報の真偽を簡単に確認できない場合は、Anthropicのクロードを使う傾向にありますね。リスクを取って適当なことを言う可能性が低いですから。
一方で、アイデア出しとかゼロから考えるようなブレインストーミングの時は、OpenAIのモデルやその他のモデルの方が良いこともあります。つまり、これらのモデルの「個性」というものが重要な要素になってくるわけです。
アンドレイ: では、研究と進展についての話題に移りましょう。約束通り、Physical Intelligence社の話題に戻ります。彼らは最初の研究成果として、汎用的なポリシーを発表しました。これは、この記事で取り上げられているんですが、AIロボットの未来を垣間見せるものです。
この汎用的なポリシーの背後にある考え方は、様々な種類のロボットを制御できる統一モデルを作ることです。ロボットアームとか、車輪と2つの腕を持つロボット、2本腕のロボットとか、そういう異なる「体」を持つロボットを、言語指示だけで制御して、衣類を畳んだり、テーブル間で物を運んだり、片付けをしたり、箱を組み立てて物を詰めたりといった様々なタスクをこなせるようにするというものです。
もちろん、大規模モデルのアプローチを取りました。これが彼らが7000万ドル、そして今はさらに多くの資金を獲得できた理由でもあります。彼らは非常に大規模なモデルを、前例のない量のデータでトレーニングしました。7種類の異なるロボット構成と68の異なるタスクにわたる、1万時間以上のロボットデモンストレーションデータです。
これは、近年のリリースされた研究データセットを組み合わせ、さらに彼ら独自のデータ収集も加えたものです。このモデルは33億のパラメータを持っています。これは彼らが何を目指しているかを物語っていますね。
そして、ロボット工学で重要なもう1つの点は、高周波の制御が必要だということです。ロボットを制御するためには、1秒間に何度も出力を生成できなければなりません。彼らによると、このシステムはロボット制御のために最大50ヘルツの出力が可能だそうです。
ジェレミー: そう、だからこそモデルがこんなに小さいんですよね。これは戦略の一部です。これは2022年に出たDeepMindのGatoモデルを思い出させますね。確か450のタスクをこなせて、人間の専門家の50%くらいの性能だったと思います。実際には600くらいのタスクでトレーニングされていたと思いますが...
とにかく、Gatoは汎用エージェントとして発表されました。それがペーパーのタイトルでもありましたね。今回のアプローチもよく似ています。視覚言語モデル(VLM)とロボット制御のための微調整トレーニングを組み合わせようとしているわけです。出力の次元も限定的です。
アンドレイ、これは前に興味深いと指摘してくれましたよね。まだ完全な汎用ロボットシステムをトレーニングする段階には至っていないということです。まだ16次元の出力、つまりセンサーやアクチュエーターの制御に焦点を当てているわけです。
今後注目すべきなのは、これがどう変化していくかということです。世界モデルをバックエンドに持つようなシステムにどうやって移行していくのか。VLMが実際にやっているのはそういうことですよね。そして、異なるロボット応用のための微調整が徐々に減っていく。
モデル自体が必要な物理法則を十分に把握して、新しいタスクを学ぶために必要なロボット操作データが少なくて済むようになる。そして最終的には、人間が使うような視覚データだけで十分になるかもしれない。それは興味深いですね。もちろん、これはこういった一般的なタスクにはどんなデータが最適かという古くからの議論の一部ですが...
アンドレイ: 彼らはこのペーパーのバリエーションも標準的なアカデミックフォーマットでリリースしています。創業者の多くが教授だったことを考えると驚くことではありません。チェルシー・フィン、セルゲイ・レヴィンなど、ディープラーニングを使ったロボット工学分野に多大な貢献をしてきた人々です。
彼らは特にゼロショット性能の評価も行いました。つまり、特定のタスクのデモンストレーションがない状態での性能です。彼らが示したのは、シャツを畳んだり、食料品を袋に詰めたり、トースターからトーストを取り出したりといったタスクで、このモデルはある程度汎化できるということです。
シャツを畳むのは100%の成功率で、おそらく見たことのないシャツでもできるということですね。食料品を袋に詰めるのは80%くらいの成功率です。これは汎用モデルにとって本当に重要なポイントで、人間が得意とする、事前に見たことや経験がなくてもタスクをこなせるという能力です。新しい服を見ても、畳み方を簡単に理解できるように。
ジェレミー: これは特にロボット制御とマルチモーダルの分野では大きな変化ですよね。2021年、2022年くらいまで...実際、元のGatoリリースの時はそうでした。Gato 2では違ったと思いますが...
当時のモデルは規模が小さかったため、基本的なスキルを学習した後に新しいスキルを追加しようとすると、古いスキルを「忘れて」しまい、性能が低下してしまうんです。理論的には「ポジティブトランスファー」が起きるはずでした。数学や物理を学ぶと化学が学びやすくなるように、新しいスキルを学ぶのが徐々に容易になるはずだったんです。
でも当時見られたのは「ネガティブトランスファー」でした。スキルを追加すると、管理すべき要素が多すぎて、元々学習していたスキルの性能が低下してしまったんです。今はご指摘の通り、ポジティブトランスファーが見られるようになってきました。
これについては長い間議論がありました。AGI(汎用人工知能)の分野では、これが重要な分岐点になるのではないかという議論がありました。今ではその議論はとっくに過ぎ去り、商用製品でもこういった進展が見られるようになっています。本当に興味深い展開ですね。
これがGPT-1で、ChatGPTが...まあ、数年後には登場するかもしれませんね。
アンドレイ: そうですね。彼らはこれをπ0と呼んでいます。GPT-0みたいなものかもしれませんね。本当に...
ジェレミー: ハイプを抑えようとしているんですね。これは...
アンドレイ: そうそう。ロボット工学の場合、いつもながら面白い動画がたくさんありますね。特にブログ記事にはたくさんあります。いつも通り、リンクから確認できますし、ポッドキャストのYouTube版でもいくつか紹介する予定です。
では次の話題に移りましょう。今度はロボット工学ではなく、コーディングの話題です。ペーパーのタイトルは「言語モデルはプログラマーに取って代われるか?RepoCodeは『まだ』と言う」です。
LLMsはHumanEvalやMBPPといったコーディングベンチマークで90%くらいの精度を達成できることが分かっています。でもこれらのベンチマークは、「このアルゴリズムの問題を解け」みたいな小さなチャレンジ問題が多いんです。プログラマーやソフトウェアエンジニアが実際にやっている、より大きな製品やコードベースの中でコードを書くという仕事とは異なります。
このベンチマークでは、11の有名な実世界のプロジェクトから980の問題を集めた新しいデータセットを使っています。その58%以上がファイルレベルやリポジトリレベルのコンテキストを必要とします。これは実際のプログラミングで必要なことです。コードベースを理解する必要があるわけです。プログラミングチャレンジよりもずっと複雑です。
その結果、どのLLMも30%以上の精度を達成できていません。つまり、少なくとも今のところ、多くの作業を追加しない限り、プロフェッショナルのプログラマーをLLMで置き換えることはできないということです。
ジェレミー: これは先ほどのエージェントフローの話に戻りますね。モデルが1%の確率で間違えるとして、コードベースに実質的な変更を加えるには、その1%のエラーが積み重なっていくわけです。そうすると、失敗率はかなり高くなります。
ただ、これは1回目の試行での結果ですよね。基本的に、初めて問題に取り組んで、一発で正解できるかを見ているわけです。これは人間に「コーディングを始めて、止まらずに、全部正しく書け」と言うようなものです。
人間でもそんなことはできないでしょう。そういう条件下でモデルが30%達成できているというのは、かなり驚くべきことだと思います。もちろん、スケーリングで解決できるかもしれません...まあ、スケーリングについては知ってますよね。
でも推論時の計算能力や、途中でチェックを入れる可能性を考えても...今、人間がコード作成のループで重要な理由は、基本的に真実のソースとして機能しているからなんです。関数を書き始めて、オートコンプリートを使って...まあ、何でもいいんですが。そしてそれをチェックして「うん、これで良さそうだ」と判断して先に進むわけです。
プログラマーとしてはそれをあまり意識しませんが、システムに情報を与え、1%、2%、5%のエラーを補正する小さな修正を加えているわけです。これによって、実際に書かなければならないコードの量は大幅に減ります。私もそうです。
でも、システムに完全に自動化させるのは全く別の話で、ハードルはずっと高くなります。それができれば、すぐに全く異なる世界に入れますが、そこに到達するまでには時間がかかります。
アンドレイ: プログラマーの方に興味深い詳細を紹介すると、使用されたリポジトリにはscikit-learn、flask、plotly.py、sphinxなどがあります。Pythonプログラマーである私にとっては、これらは有名なパッケージです。flaskもscikit-learnも、seabornも使ったことがあります。これらは非常に複雑なコードベースを持っていますので、LLMsが最初からこれをマスターできないのも理解できますね。
では、ライトニングラウンドに移って、少し早めに進めていきましょう。最初のペーパーは「大規模言語モデル内の脳のような機能的組織化」です。私たちは脳の仕組みについて少し知っています。視覚、聴覚、言語といった異なる感覚領域に焦点を当てた脳の様々な領域があることを知っています。
これは言語モデルでも同じことを見ようとしているんです。人間の脳が特殊化されたネットワークを持っているように、言語モデル内の個々のニューロンが機能をどのように組織化しているかを見ているんです。fMRIパターンを使って、ニューラルネットワークの活性化パターンとマッピングしようとしています。
彼らが発見したのは、ある程度の類似性があるということです。LLMs内部に組織化が見られ、特により高度なLLMsではより組織化された階層的な機能パターンが見られます。1対1の対応はできませんが、以前の研究でも見られたように、情報と計算を組織化する同様の現象が人間の脳とこれらの大規模LLMsで見られるんです。
ジェレミー: そうですね、面白いですね。先週、AnthropicがAIの意識と知性に関する専門家を雇用したという話をしましたが、これを考えると...これらのパターンの違いが、人間同士の違いと同じくらいになったとき、あるいは...
LLMが人間のニューロンの挙動の間のどこかにパラメータ空間で位置するようになったとき、それについて考え始めるべきなんじゃないでしょうか。もちろん、辺緁系に似た強化学習回路があることを前提としてですが...
しかし、これは興味深い指標ですよね。その段階に達したとき、おそらくそれよりもずっと早い段階で、でもその段階に達したとき...いくつか興味深い疑問が浮かんできます。この分野では多くの面白い研究がありますよね。Metaでもこういった研究をしている人たちがいると知っています。たくさんの面白い成果が出ています。
私は神経科学者ではありませんが...
アンドレイ: 次の話題は、DescarteAIがMinecraftのリアルタイムプレイ可能なバージョンをシミュレーションしたという話です。DescarteはイスラエルのAI企業で、Oasisモデルのローンチで大きな話題を呼びました。
このモデルを使えば、基本的にMinecraftゲームをプレイできます。移動したり採掘したりといった、Minecraftと同じような入力ができるんですが、ゲームのレンダリングとロジックの全てがニューラルネットワークによって処理されます。印象的なのは、リアルタイムのデモがあることです。
実際にゲームとしてプレイできます。かなり高いフレームレートで出力されています。ただし、解像度はそれほど高くありません。これは2100万ドルの資金調達を発表するのと同時に出てきました。
ジェレミー: これは全て、AIモデルが世界モデルを開発できるかどうかという議論の一部ですよね。実際の物理法則の堅牢な表現を。このテストは本当に良いと思います。これは「マインドスウィーパー」と呼ばれていて...ミレニアル世代っぽいですね、Minecraftは...
Minecraftの面白いところは、物理法則がとてもシンプルなことです。一般相対性理論や量子力学を全部取り除いて、ただのブロックだけ、という感じです。それが素晴らしいんです。
だから、このシステムが物理エンジンをマスターできる、単純化された世界モデルをマスターできるということを示せれば、ある程度、モデルがこれをできるということを示していることになります。そこから「じゃあ現実世界はどうだ?」という疑問が生まれます。これは正当な疑問だと思います。
争点となるのは、このモデルが実際に何が起きているのかをどれだけ堅牢に捉えているかということです。それはちょっと不明確です。1つの問題は、短時間プレイしただけでもレベルのレイアウトを忘れてしまい、周りの景色が勝手に並び替わってしまうことです。
まあ、スケーリング派の人たちは「これはただのスケーリングの問題だ」と言うでしょう。ジェレミーの意見は知ってますよね、繰り返す必要はありませんが...他にも興味深い疑問があります。非常に賢い人たちが意見を異にしています。
これは症状の1つですよね。私が振り返って部屋が再編成されていたら、誰かが宇宙の物理エンジンを壊したということですよね。なので、これは議論が続く部分だと思います。
でも、フレーム間、そして数秒間の一貫性を保てているのは確かに印象的です。他のゲームでもこういったものは見てきましたが、こんな高いフレームレートでプレイ可能なデモは見たことがありません。かなりクールですね。
アンドレイ: そうですね。私は逆の立場で、純粋なニューラルネットワークで世界をシミュレーションしたいとは思いません。そこにはいくつか理由があります。
私たちの脳はシミュレーションが得意ではないと思うんです。私たちは曖昧なシミュレーションを行いますが、ゲームで必要とされる正確なものではありません。そしてそれがシミュレーターで得られるものです。大まかに正しい方法でインタラクションできますが、世界の状態を忘れてしまい、しばらくプレイしていると非常にトリッピーな状態になることがあります。
ジェレミー: 実際、完全に同意です。これをハードウェアの最適化として使いたいとは思わないですよね。
話者: そうですね。
ジェレミー: でも、人間がこれを確実にできる方法の1つは...これは面白い話になりますが、別の機会に議論しましょう...物理法則を抽出することです。だから周りの世界を見て「ああ、これが起こることを予測する方程式を書き下せるな」と理解できるんです。
もし能力があれば、繰り返しになりますが、人間の脳はそういう用途には向いていませんが、でももし能力があれば、その物理法則を物理エンジンに組み込んで、エンジンを実行して、その計算をエンドシステムにオフロードできるわけです。
なので、私たちの立場はそれほど遠くないかもしれませんが、モデルがそういった物理法則を抽出する能力がどの程度あるのか、それがスケーリングで自然に現れてくるのかという点が問題です。答えはスケーリングを重ねることでしか分からないと思います。
幸いにも、私たちが年間500億ドルを賭ける必要はありません。マイクロソフトがそれをやってくれていますから。
アンドレイ: 最後の話題ですが、CLAUDE 3.5 SONICがSWE Benchで新記録を達成しました。ジェレミーが先ほど触れましたが、AnthropicはSWE Bench Verifiedで49%のスコアを達成し、従来の最高記録45%を上回ったことを発表しました。
これはGitHubがサポートを発表したタイミングと重なりました。SWE Benchは、オープンソースのPythonリポジトリのGitHubイシューを解決することに関連しています。「ここにバグがあるから解決して」というのがGitHubイシューです。これで良い成績を収めることは、明らかに直接的な有用性がありますね。
ジェレミー: はい、このペーパーは本当に素晴らしいですね。Anthropicは本当にモデルの構築とプロンプトについて深く考えることが得意です。それが彼らの差別化要因の1つだと言って良いと思います。
このペーパーでは、エージェントを作るためのプロンプトとプロンプト開発アプローチを素晴らしく説明しています。面白いのは、彼らの設計哲学を共有していることです。基本的に、可能な限りLLMに制御を任せ、エージェントの足場を最小限に抑えるというものです。
エージェントの足場の中には、モデルにどう考えるべきかを詳細に指示するものがありますが、彼らは逆の方向に進んでいます。モデルが自分で考えることを信頼しようというアプローチです。これはモデルの能力が向上するにつれて予想される方向性ですね。足場に頼る必要が少なくなっていく。
彼らは多くの興味深い結果を共有しています。目玉は49%という数字です。新しいCLAUD 3.5 sonnetがSWE Bench Verifiedで49%を達成したことです。これは本当に印象的です。基本的に実際のGitHubイシューを解決しているわけですから、実践的に有用なものです。
50%に近いというのは、全く悪くありません。従来の最高記録が45%でしたから、良い進歩です。彼らが学んだ教訓の1つは、「人間向けのツールインターフェースの設計に多くの注意が払われるのと同じように、モデル向けのツールインターフェースの設計にもっと注意を払うべきだ」というものです。
つまり、モデルのユーザー体験を気にする必要があるということです。例を挙げています。「パフォーマンスを改善した1つの方法は、ツールをエラープルーフにすることでした。例えば、エージェントがルートディレクトリから移動した後に、モデルが相対ファイルパスを間違えることがありました。これを防ぐために、ツールが常に絶対パスを要求するようにしました」
コーディングをしない人には意味が分からないかもしれません。基本的に、コンピュータ上の特定のファイルに移動して、そのファイル内でコーディングができるということです。全てのコマンドはそのファイルに対してローカルになります。
でも問題は、ファイルツリーの別の場所にあるファイルに関連するコマンドを実行したい場合、ファイルから出て、ツリーを降りていく必要があることです。モデルはこれに苦労していました。そこで彼らは「分かった、指示は全て絶対ファイルパスから始めよう、毎回ツリーのトップから始めよう」と決めたんです。
必要以上に詳しく説明してしまいました。重要なのは、これがAIモデルのユーザー体験だということです。私が言ったことは全て無視して、それだけ覚えておいてください。
アンドレイ: まあ、プログラマーにとってはちょっとした興味深い詳細でしたけどね。
では政策と安全性の話題に移りましょう。おそらく聞いたことがない興味深い話題があります。産業安全保障局(BIS)が、誰も気付かなかった重要なAI規制を提案したんです。レーダーの下を潜り抜けたような感じです。
この規制は、アメリカの企業に対して、大規模AIモデルのトレーニング計画とコンピューティングクラスターの取得を四半期ごとに政府に報告することを義務付けるものです。この規則が目指すのは、デュアルユース(両用)の基盤モデルに関する詳細な情報を収集することです。デュアルユースというのは、良い目的にも悪い目的にも使えるという意味です。
この規制の根拠となっているのは国防生産法です。かなり前に話しましたが、これは悪用される可能性のあるモデルから守るためにこういった要件を設定する方法として見られていました。こういった報告を要求することについては多くの議論がありましたが、彼らはそれを実行に移したようです。
ジェレミー: これは2023年11月のバイデン大統領令の続きと見ることができます。これはアメリカ史上最も長い大統領令だったと思います。大統領令というのは、大統領が全ての行政機関に指示を出すものです。
簡単な政治の授業をすると、行政機関というのは、法律を作る議会や法律を解釈する司法以外の、政府の活動部門全てを指します。基本的に大統領が「これをやろう」と言うわけです。
BIS、つまり商務省の一部門は、輸出管理やテクノロジー政策などの執行を担当しています。これは本当に興味深いです。なぜなら基本的にBISに白紙委任状を与えているようなものだからです。
BISはこれらのトレーニング実行について任意の情報を収集することを提案しています。今言及した定期報告に加えて、これは それ自体が問題です。初めて定期的な報告を求めているということです。誰もこんなことを見たことがありません。
一回限りの情報提求はよくあることで、トレーニングプロセスの一部として理解されています。行政府の特権です。でもこういった継続的なものは見たことがありません。これが人々が反発している1つの理由です。
しかし、もう1つは、この情報提供要求が任意に深く掘り下げられる可能性があるということです。BISは最初の回答を得た後、追加の明確化質問を企業に送ることができ、それらの質問には7日以内に回答しなければなりません。特にこれらの非常に技術的な質問については、かなりタイトなスケジュールですね。
そして、ここで尋ねられる話題の範囲に実質的な制限はありません。なぜ今これが起きているのかという興味深い疑問があります。実際の状況は、アメリカ政府がこの種の情報を処理する能力を構築しようとしているということだと思います。
例えば、OpenAIのO1が自律的にサンドボックス環境から脱出しようとして、ある程度成功を収めたのを見ました。では、制御不能のリスクが考えられる場合、誰に警告すべきなのか?そもそもそういったオフィスは存在するのか?この情報を処理する能力はあるのか?
現時点での答えは「ノー」ですが、それが変わり始めています。これはその変化が起きている1つの方法です。これが政府権限の適切な使用かどうかについては大きな議論があります。国防生産法を持ち出すことには議論がありましたが、法的な観点からは、かなり堅固な根拠に基づいているように見えます。
これは国防のために非常に広範な行動を取る権限を大統領に与えています。歴史的に、これは国防だけでなく、重要インフラの保護、さらにはエネルギー生産まで含むと解釈されてきました。
そういったレンズを通してAIと国家安全保障能力を見ると、突然これが非常に適切な使用に見えてきます。でも歴史的には、先ほど言ったように、一回限りの情報収集に使われてきました。
だから人々は、これが繰り返されることに問題を感じているんです。法令にそれを禁止する文言はないのに、これは単に初めてこういった形で使われようとしているだけです。
他にも分かるように、人々は大統領令が平時に戦時の緊急権限を使って民間産業への政府の管理を強化しようとする試みに見えることを懸念しています。これは指摘されている1つです。
これは少し押し進めるのが難しいです。なぜなら、主要な研究所がそれに異議を唱える法的な挑戦を起こす必要があるからです。でも彼らはそれに興味を示していません。彼らは皆、これが国家安全保障に関連する技術であり、これが適切な対応だと認めているようです。
法的な異議申し立ては出てくるかもしれませんが、今のところそういった動きは見られません。これは定着すると思います。政府のインフラを立ち上げたということもその一部です。良かれ悪しかれ。
私は全体としては理にかかっていると思いますが、これを監視する新しい官僚機構を設立することについて、人々は不満を言うでしょう。でも制御不能やweaponization(武器化)などのリスクを少しでも信じるなら、その能力を構築する必要があると思います。
アンドレイ: そうですね。明確にしておくと、これは現時点では提案された規則です。でも行政機関として、この規則を実施する場合は法的な異議申し立ての可能性があります。この記事によると、近い将来、何らかの形でこれが実施される可能性が高いようですが、まだそうはなっていません。
規則と規制といえば、次の話題はAnthropicの新しいブログ記事についてです。政府が18ヶ月以内に規制を導入しなければ大変なことになる可能性があると警告しています。
彼らは緊急の政府規制を呼びかけており、責任あるスケーリングポリシーの中で研究してきた能力の向上を強調しています。ハッキングや、化学・生物・放射線・核のコンテキストなどにおけるリスクの増大を指摘しています。
そして具体的な提案をしています。高品質なセキュリティ実践の義務付け、透明性の確保、セキュリティとシンプルさの奨励を提唱しています。特に彼らが重視しているのは、焦点を絞った法制化です。
SB 1047のような非常に広範な規制ではなく、非常に具体的で的を絞ったものを望んでいます。
ジェレミー: SB 1047については、いつも面白く思います。スタートアップの創業者として、一般的にテクノロジーの規制を求めるような立場ではありませんが、1047は最終的に破滅的なリスクに非常に慎重に範囲を絞っていました。
最初はそうではありませんでしたが、最終的には「明らかにこれは大量破壊兵器の側面に焦点を当てている」というところまで絞り込まれました。だから、ギャビン・ニューサムやナンシー・ペロシがこれを否定するように働きかけた時、何を考えていたのか興味深い疑問があります。
でも、まあ、全ての陣営から予想される標準的な反発がありました。Xでも見ましたよ。「AIの開発を遅らせようとしている」という意見もありましたが、Anthropicは自身がAI研究所であることを考えると...
そして「政策対応の範囲を狭めようとしている」と懸念する人々もいます。このアプローチについては、ヘレン・トーナーを含む多くのAIポリシーと安全性の専門家から聞いています。「早すぎる、速すぎる、強すぎる規制は避けるべきだ」という考えです。
ここでの規制の論拠は「規制しなければ何か事件が起きて、人々が過剰反応する」というものです。これは非常に妥当な懸念だと思います。正直に言うと、オープンソースの現状を考えると、おそらくそれは避けられないでしょう。
でも、制御不能のリスクに関する証拠が急速に蓄積している中で、それについてほとんど強調されていないのは興味深いですね。なぜ興味深いかというと、現在、最先端の研究所の全てがデフォルトの戦略として、自動化されたAI研究者を構築して...まあ、シンギュラリティ的な爆発を引き起こそうとしているからです。
これは狂っているように聞こえるかもしれませんが、これが彼らの計画なんです。明確に、公然と。これも明確に、公然と、デフォルトの技術的軌道では非常に危険なことです。それなのに、ここではそれについて何も触れられていません。これは単にオーバートン・ウィンドウがそこまで来ていないからだと思わざるを得ません。一般の人々はそういった方向では考えていないんです。
アンドレイ: 完全に同意します。これは戦略的に言葉を選んで、人々の賛同を得ようとしているんだと思います。実際、ブログ記事のタイトルは「的を絞った規制の必要性」です。つまり主張を展開して、人々を説得しようとしているわけです。
よくある質問のセクションには「規制はオープンソースのエコシステムを害さないのか?」「規制はイノベーションを遅らせないのか?」といった質問が含まれています。つまり、規制に反対する側と議論しているような形になっているんです。
実際、これはほとんどその説得に焦点を当てています。詳細はあまりありません。基本的に彼らが言っているのは「私たちは2023年9月から責任あるスケーリングポリシーを持っています。これは上手く機能していて、良いフレームワークだと思います。他のAI研究所も同様のことをすべきだと思います」ということです。
つまり、彼らの規制提案の本質は「他の研究所に責任あるスケーリングを義務付けるか、規制するべきだ」ということです。
ではライトニングラウンドに移って、ジェレミーが先ほど予告した点に戻りましょう。最初の話題は「中国軍がMetaのAIを完全活用し、オープンソースが裏目に出る」というものです。
この話は新しいAIシステム「chatbit」についてです。これは軍事データでトレーニングされ、情報分析、戦略的計画、シミュレーショントレーニング、指揮決定のために意図されたものです。そしてこれはLlamaをベースにしています。おそらくLlamaからファインチューニングされたものでしょう。
これは一例です。他にもLlama 2を使って空中電子戦略をトレーニングしたという論文もありました。また、データ処理と意思決定を支援することで、中国国内の警察活動に展開されたモデルもあります。
これはLlamaの利用ポリシーに違反しています。軍事利用は禁止されていますから。ああ、そうですか。はい、ただ言っておきますが、これは想定外ではありません。Metaのような積極的なオープンソース化に反対する人々は誰でも、これが起こり得る結果の1つだと指摘してきました。
そして今、その例を目の当たりにしているわけです。
ジェレミー: うーん、Metaの立場はちょっとずれているように思います。実際のところ、彼らはオープンソースを採用の手段として使っているんです。世界最高のモデルを作れていない時期に、それが彼らの大きな課題です。
これらが非公開モデルだったら、誰も注目しなかったでしょう。これは変わるかもしれません。H100のフリートを使えば恐らく変わるでしょう。でも今まで、Metaはあまり面白くない提案だったんです。
これは重要です。なぜなら採用の死のスパイラルに入る可能性があるからです。AI界で有望な存在として語られなければ、採用も難しくなり、次の素晴らしいモデルのトレーニングも難しくなります。
だから彼らは何かをする必要があり、そのなにかがオープンソースだったんです。採用の観点からは理にかなっていました。通常のオープンソースの理由、つまり自社のスタックへのオープンソース開発の統合が容易になるとか、そういった良いことも当てはまります。
また、ご指摘の通り、アメリカの地政学的な敵対者がこれを活用し、武器化することも明らかでした。中国はチップに飢えています。AI分野で大きな不足に直面しています。私たちはLlama 2やLlama 3.1、Llama 3のようなモデルを公開するたびに、我々の王冠の宝石を彼らに贈り物として渡しているようなものです。
私たちは長い間知っていました。中国のAIスタートアップシーンに詳しい人々と話をしましたが、これらの企業は基本的にLlamaで運営されています。Metaは中国国内のAI能力の基準を大きく設定しているんです。
全てではありません。確かにQuantもありますが、これらの大企業の多くはLlamaのアーキテクチャかモデル自体をバックエンドとして使っています。誇張なしに言えば、Metaは中国の国内防衛AIを支えているんです。
これは実際に起きていることです。彼らの反応は...申し訳ありません、私の偏見が出てしまいますが、反論が見当たりません。Metaの広報担当者の声明を読みましょう。
「アメリカはオープンソースのイノベーションを受け入れなければ、中国にリードを譲ることになり、経済を害し、国家安全保障をリスクにさらす可能性がある」
この文は意味を成しません。仕事をオープンソース化して、現時点で中国が私たちより遅れているという事実を考えると、単に彼らに追いつくチャンスを与えているだけです。
これは完全な狂気です。私はMetaに対する微妙な議論に非常にオープンですし、私が間違っていることを願っています。何か面白い方法があることを。この分野でフルタイムで働き、国家安全保障の世界に深く関わっている私にとって、これは狂気の沙汰です。
近いうちに良い反論が聞けることを願っています。そうでなければ、Meta本社のH100 GPUのフリートが、事実上中国共産党の利益のために稼働しているように見えます。これは良い状況ではありません。でも、私が間違っているかもしれません。
アンドレイ: はい。なるほど。まあ、そういう立場を取るのは全く驚きませんね。少し反論させてください。
単なる採用の手段と呼ぶのは公平ではないと思います。まず、オープンソースが技術の進歩を加速させるという本物のイデオロギー的な信念があります。また、PyTorchを使わせることや競合他社の仕事の価値を下げることについての戦略的な考えもあります。だから単なる採用の手段ではありません。
また、競争の観点から公平に言うと、400億パラメータのモデルをリリースするのとは大きな違いがあります。少なくとも70億パラメータのモデルは、言ってみれば弱いモデルですよね。だからQuantのような存在は、中国でもLLMのトレーニングが可能であることを示しています。たとえそれが難しいとしても。
メリット、デメリットについての議論はできます。これはデメリットの1つです。Metaは認めませんが、これが起きているのは良くありません。オープンソースの支持者もそれを認めると思います。「はい、これは結果の1つです。でもメリットとデメリットを比較考量する必要があります」と。
ジェレミー: もちろんです。そして、マーティン・ベイリー的なことをしないように言いますが...私の分析は国家安全保障のレンズを通したものです。国内の進歩に良いか悪いかという別の問題はあります。
現実は、西側の最高のモデルは現在オープンソースではありません。そして繰り返しになりますが、私たちは底辺を設定しています。中国のAIスタートアップは好んでMetaのモデルを使っています。つまり、これらのリリースを通じて、中国のAI能力のフロンティアを定義しているということです。
私がコメントしていたのは、具体的にMetaが主張している「アメリカはオープンイノベーションを受け入れなければ中国にリードを譲る」という議論についてです。
アンドレイ: そうですね、それはちょっとおかしな主張ですね。
ジェレミー: そうです。それが私のコメントの対象でした。採用の側面や、先ほど言及したMetaへの統合を容易にするソフトウェアエコシステムの側面には全く同意です。
もちろんオープンソースのイデオロギーもありますね。これは経済的な議論であって、必ずしも国家安全保障の議論ではありません。でも私はこれに魅了されています。特に国家安全保障の観点からの反論を待っています。それは...
アンドレイ: 来ないでしょうね。
そして関連する話題、非常に関連する話題として、MetaがLlamaモデルをアメリカの国家安全保障アプリケーションで利用可能にすると発表したことが挙げられます。
アメリカ政府機関と契約業者が国家安全保障目的で使用できるようになります。これも通常のユーザーポリシーに反することでした。中国の研究者による古いLlamaモデルの無許可使用を受けて、アメリカ政府機関のための例外を設けることになりました。
これは明らかにその問題への対応として、Metaが面子を保とうとしているんでしょう。おそらく、ある程度はバランスを取ろうとしているんだと思います。
ジェレミー: はい。それで十分です。思うに...面白い...分かりませんが、テーブルの上に装填された銃を置いて、「撃たないでください」という付箋を貼るようなものですよね。「はい、安全要件は満たしました」みたいな。
これらのライセンスにはそれほど効果がありませんが、これをやってくれたのは良いことです。悪いことではありません。でも...
アンドレイ: そうですね。公平に言えば、シリコンバレーの多くの人々はかなりリベラルで、これだけでも反発があると思います。
ジェレミー: そうですね。それは良い指摘です。その観点からすれば、これは些細な判断ではありませんね。採用の観点から見ても...そうですね。
アンドレイ: そろそろ2時間に近づいていますので、ここで終わりにしましょう。合成メディアとアートについては来週に回すことにします。
エピソードをお聞きいただき、ありがとうございました。いつも通り、録音は楽しかったです。いつも通り、エピソードノートにストーリーへのリンクがありますし、lastweekin.aiでポッドキャストのメールとリンクを入手することもできます。
いつも通り、コメント、レビュー、Twitterでの言及など、何でも歓迎します。
そして、このアウトロソングもお楽しみください。
(以下、AIシンガーによる歌詞の翻訳は省略させていただきます)