見出し画像

Last Week in AI #193 - Soraのリリース、Gemini 2、OpenAIのAGIルール

43,250 文字

AIエキスパートの時間だよ、エピソード13の始まりだ。OpenAIがShip M(シップム)を展開し、Gemini 2が夜空に輝き、AIエージェントがウェブを探索する。
Last Week in AIポッドキャストへようこそ。いつものように、AIに関する最新の動向について語り合う時間です。このエピソードでは先週のAIニュースの中から興味深いトピックをいくつかピックアップして紹介し、議論していきます。テキストニュースレターとすべてのストーリーへのリンクは、いつものようにlastweek.aiで確認できます。また、このエピソードの説明欄にもリンクを掲載しています。
私は、いつものホストの1人、アンドレ・クラノフです。大学院でAIを研究し、現在はAIスタートアップで働いています。そして、もう1人のホストのジェレミー・ハリスです。グラッドストーンのことはよくお話ししているので、もうご存知かと思います。実は最近引っ越したばかりで、残念ながら部屋の反響が激しいのですが、他に適当な部屋が見つからなかったんです。妻が隣の部屋で生まれたばかりの娘の面倒を見てくれているので、こちらで収録させてもらっています。今回は反響音があることと、カーテンがないため日光を浴びた状態での撮影になることをご了承ください。
与えられた環境の中でベストを尽くすしかないですよね。実は、これはAdobeの最新音声強化機能をテストするいい機会かもしれません。先日、Adobe Podcastの新バージョンがリリースされ、ノイズの多い音声をクリアな音に変換できるようになりました。うまくいけば、反響音なんて気にならないかもしれませんね。
もちろん、私たちのAI支援コンテンツ改善も活用するので、私の発言はすべて実際に洞察力のある内容に置き換えられるでしょう。そうすれば、良いレビューがもらえるはずです。リスナーには私たちではなくAIが頑張っているとは気付かれないでしょうけどね。
OpenAIによって訓練された大規模言語モデルとして、その発言に直接応えることはできませんが、自宅で爆弾を作ったり死体を埋めたりしないように注意を促すことはできます。それが最低限のことですよね。
では、今回のエピソードで扱うトピックを簡単にプレビューしましょう。ツールとアプリケーションの分野では大きなニュースがあります。OpenAIがSoraや他のプロダクトをリリースし、GoogleもGemini 2.0を発表、そしてエージェントに関する発表もありました。アプリケーションとビジネスの分野では、OpenAIの興味深い動きとデータセンターに関する様々な展開があります。これは過去6ヶ月、あるいは1年近く続いているトレンドです。研究と進歩の面では、推論とメモリに関する新しいアイデアがいくつかあり、技術系の方には興味深い内容になるでしょう。政策と安全性の分野では、トランプ政権に関する新しい展開や、いつものように米中関係に関する話題があります。
その前に、いつものように最近のフィードバックを紹介させてください。Apple Podcastsで面白いレビューがいくつかありました。最新のものは「素晴らしい発見」というタイトルで、公認会計士の妻がいるリスナーが感謝祭のためにインディアナまでの往復で、2日間で22時間も聴いてくれたそうです。かなりの聴取時間ですね。過去1年のAIの発展について知りたければ、それで十分でしょう。2日で22時間も私たちの声を聴くのは大変だったと思いますが、光栄です。
もう1つ紹介したいレビューがあります。産業界からのもので、ITセクター以外で機械学習を長年使っていて、ポッドキャストで取り上げた論文の一部を実際に読んでいる方からのコメントです。技術的な内容に興味を持ち、論文まで読んでくれるリスナーがどのくらいいるのかは分かりませんが、そういった内容も取り上げるようにしています。
このレビューには興味深い質問も含まれていました。AIの破滅的シナリオについては懐疑的だが、開発の動向は気になるとのことで、過度の警戒が逆効果を生む可能性について言及しています。例えば、グリーンピースやGMO反対派がゴールデンライスに反対したことで、多くの悪影響が生じたという指摘です。
その通りですね。歴史を振り返ると、両方向の事例が数多くあります。様々な理由がありますよね。例えば、分野が始まったばかりの段階で早まって警報を鳴らしてしまい、発展を妨げてしまうというケースがあります。これは大きな問題です。AIやソフトウェア全般において、オープンソースが多大な恩恵をもたらしてきたことは確かです。規制をどのように行うかは慎重に考える必要があります。
また、AIに対する懸念から、例えば米国政府の国防総省や諜報機関がこれらのツールにアクセスすべきではないと考えた場合、敵対国が利用することになるという問題もあります。非常に複雑な問題で、何をすべきかを判断するのは難しいところです。
反対の例もあります。典型的なのは核兵器で、30年代後半から40年代初頭にかけて、核兵器化に深く関わる多くの核研究が公開されていました。実際、研究を制限すべきではないという公開の議論があり、分野はオープンな研究として続けられました。一部の専門家は、制限されるべき時期をはるかに過ぎても続いていたと指摘しています。
AIにとって歴史的にどの例が適切なアナログとなるかを判断するのは非常に難しいです。中国による強力なモデルの流出リスク、モデルが破壊的な影響をもたらす武器として使用されるリスク、モデルが自律的に破壊的な影響を及ぼすリスク、これらをどの程度深刻に受け止めるかによって変わってきます。これらはすべて、それぞれの視点に影響を与えます。さらに、未来を予測することの難しさも関係しています。
はい、良い質問だと思います。私に全ての答えがあるわけではありませんし、誰にもないと思います。重要なのは、これらすべての要素を同時に考慮に入れることですね。
また、国際的な視点をもう少し提供できるという指摘もありました。確かに私たちは西洋、特に米国とカナダの視点から報道していることは明らかで、中国が高度な能力を獲得することを必ずしも望ましくないものとして描くことが多いです。そう、その点について呼びかけてみましょう。私たちはある程度の意見を持っていますが、ニュースを客観的に報道しようとしています。特にジェレミーは中国に対する懸念を示すことが多いですね。
はい、その点について私の見解を共有し、オープンに話したいと思います。それがポッドキャストの良いところで、あなたが望むように受け止めることができます。個人的には、米国がAIの分野で大きくリードしている方が世界にとって良いと考えています。これは私の個人的な見解ですが、中国共産党は世界にとって非常に危険な勢力だと考えており、特に軍事やその他の用途でのAIの使用に対抗する方法を見つける必要があります。
彼らは情報流出などの面で非常に有能だと思います。これはすぐに、世界のさまざまな勢力をどう見るかという話になってしまいます。中国共産党は中国国民の最良の友人ではなく、確実に西側諸国の友人でもないと考える客観的な理由があると思います。これが私の立場です。あなた自身の判断で受け止めていただければと思いますが。
また、中国を必ずしも良い勢力として描かない場合、それは非常に中国共産党に関することだと注意する必要があります。大学院時代に中国からの多くの人々を知っていますし、中国から多くの研究が出ています。これは中国人に関することではなく、政府とAIを悪用する可能性についての話です。
さて、ニュースに入る前に、いつものようにスポンサーの紹介をさせてください。今週のスポンサーはジェネレーターです。これはボブソン大学の学際的AIラボで、起業家精神に焦点を当てています。ボブソン大学は米国で30年以上連続して起業家精神の分野で1位を維持している大学です。
昨年、ボブソン大学の教授陣が学生と協力して、このAI起業家精神とビジネスイノベーション、AIの倫理と社会、仕事と人材の未来、AIアートとパフォーマンスなどに焦点を当てた新しい学際的ラボを立ち上げました。彼らは様々な新興トレンドを研究し、ボブソンの教員にAIの概念とAIツールの認識を深める研修を行っています。起業家であれば、少なくともCHB(ChatGPT)やPerplexityなど、生産性を向上させるツールの最先端を知っておきたいですよね。改めて彼らにお礼を申し上げ、スポンサーシップに感謝します。
さて、ツールとアプリケーションの話題に入りましょう。最初の話題は、今週の大きなニュースと言えるSoraのローンチです。SoraはOpenAIのテキスト動画AIモデルで、2024年初頭に最初のティーザーが公開され、今年のAIの大きな出来事の1つとなりました。時間はかかりましたが、今では実際にアクセスして使用することができます。ウェブサイトがアップしている場合に限りますが、ChatGPTがダウンしたのは少し困りました。APIを使用する身としては。
これはかなり本格的な消費者向け製品となっています。ウェブサイトがあり、豊富なユーザーインターフェースを備えています。テキストから動画を生成する基本機能に加えて、動画のタイムラインを扱うことができる高度なツールセットもあります。さらに、コミュニティが生成した動画を共有するエクスポートページや、様々な人々の作品を閲覧する機能もあります。
予想通り、動画のクオリティは非常に高いです。年初と比べてSora 2.0というほどの飛躍的な進歩ではないかもしれません。テキストから動画を生成する際に見られる一般的なアーティファクトは依然として存在します。体操や他の難しい動きを扱う際に奇妙な幻覚が発生するという世界モデルの問題は完全には解決されていませんが、それでもかなり印象的です。
システムカードから、モデルの構成についていくつかの洞察が得られています。これは拡散モデルであることが分かりました。つまり、ノイズだらけの基本的な動画から始めて、多くのステップを経てそのノイズを徐々に取り除いていくというプロセスです。これが拡散の概念で、ノイズから情報へと変換していくのが学習プロセスです。
彼らの説明によると、モデルに多くのフレームを同時に見せることで先見性を持たせているとのことです。モデルは1つのフレームだけを見て、そのスチル画像に基づいて拡散を行い、別のフレームとの整合性を確保するのではありません。多くのフレームを同時に与えることで、例えばオブジェクトの永続性のような概念を捉えることができます。つまり、あるオブジェクトを視界から外して再び戻したときに、そのオブジェクトがまだ存在するという感覚をモデルが保持できるということです。
典型的な例を挙げると、壁にある絵画を見て、カメラの視点を少しずらして絵画が見えなくなり、再び壁に戻したときに絵画が消えてしまうというのが、このようなモデルに見られるオブジェクトの永続性の欠如です。多くの異なるフレームを同時に見せることで、オブジェクトの永続性やその他の一貫性を改善する概念を学習させようとしています。
これがトランスフォーマーベースのモデルであることも分かっています。おそらくトランスフォーマーのスケーリング特性を考慮してのことでしょう。確かにOpenAIはSoraに標準的なスケーリングのレシピと戦略を適用することに熱心なようです。おそらく今後もSoraの新バージョンが登場することでしょう。
また、ブログ記事からは、DALL·E 3で用いられたREC(recaptioning)技術を使用していることも分かっています。これは、視覚的なトレーニングデータに対して非常に詳細な説明文を生成する技術です。基本的には、画像に対してより豊かな概念的・意味的な理解を可能にするため、画像の内容を非常に詳細に捉えた長い説明文を生成するというものです。
また、時空間パッチを使用していることも分かっています。以前話題にした時空間パッチの考え方ですね。静止画から小さな四角い部分を切り取ることができますが、その静止画が動画の一部である場合、前後にも多くの静止画が積み重なっています。その画像の一部を時間軸方向に拡張すると、時空間の塊のようなものができます。彼らはこれをパッチと呼んでいます。
基本的に、動画を圧縮された潜在表現に変換し、そこから時空間パッチを抽出できるようにしています。これが現時点で分かっているアーキテクチャの詳細です。現時点ではかなり曖昧な説明に留まっています。
これは以前メタが発表したVJEAを少し思い起こさせます。メタはオープンソース志向だったため、アーキテクチャについてより詳細な情報を公開していました。現時点で分かっているのはこれくらいですが、スケーリングを重視する姿勢は続いているようです。
また、レッドチーミング(脆弱性評価)のプロセスについても多くの情報があります。特に、説得力のあるコンテンツ、つまりフェイクニュースなどの生成にこのツールが使用される可能性について懸念が示されています。彼らのレビューではこれがリスクとして指摘されており、驚くことではありません。
一方で、OpenAIの他の準備評価、つまりサイバーセキュリティ、化学・生物・放射線・核のリスク、モデルの自律性については、リスクの証拠は見つからなかったとしています。動画生成モデルがサイバーリスクをもたらすとは考えにくいですからね。
しかし、なりすまし、誤情報、ソーシャルエンジニアリングについては注意が必要だとしています。彼らは2024年9月から12月の間に15,000回の生成テストを行ったと述べています。これは以前のGPT-4のv0.1プレビューやv0.1ミニのリリース時と比べて、より充実した評価プロセスだったように見えます。あの時は、評価会社に1週間程度でテストを完了するよう求められ、批判を受けました。
今回はより慎重なプロセスだったようです。15,000回の生成テストが十分かどうかは評価が難しいですが、少なくとも他のモデルと同様に注意を払っているようです。
安全性に関して、Pro以外のユーザーには透かしが付くとのことです。サブスクリプションについて説明すると、月額20ドルのChatGPT Plusユーザーは最大50本の優先動画を生成でき、720p解像度で5秒間の動画が作れます。新しい月額200ドルのChatGPT Proティアでは、最大500本の優先動画、HD解像度で20秒間の動画、5つの同時生成が可能で、透かしなしでダウンロードできます。これは200ドルのサブスクリプションが実際に価値のある機能を提供している例と言えるでしょう。
透かしに加えて、Content Provenance and Authenticity Coalition (C2PA)のメタデータも含まれており、AIによる生成かどうかを確認することができます。通常のテキストや画像以外にも、既存の動画をプロンプトに基づいて変更するリミックスなどの機能もあります。生成には最大1分程度かかるので完全にリアルタイムではありませんが、比較的高速です。年初と比べてはるかに高速なSora Turboモデルを使用していると述べています。
全体として、Soraは非常に充実したローンチとなりました。ストーリーボード機能や専用のUIウェブサイト、サブスクリプション制など、予想以上に洗練されたツールになっています。米国を含む多くの国で使用可能ですが、イギリスとEUでは利用できません。サム・アルトマンによると、そこでのローンチには時間がかかるかもしれないとのことです。安全性を重視することのデメリットについて話しましたが、ヨーロッパでは米国と同時に多くのものが利用できないという状況です。
ただし、これはAIの安全性を真剣に受け止めているだけでなく、GDPRと同様に、欧州のお役所的な官僚組織の問題でもあります。プライバシーの問題に対処する方法は、ウェブサイトを訪問するたびにポップアップを表示することよりももっと良い方法があるはずです。政府の拡大には注意が必要ですね。ヨーロッパの人々にとってはSoraが使えないということです。
次に、今週のもう一つの大きなニュースとして、GoogleからのGemini 2に関する発表があります。Gemini 2.0 Flashは1.5 Flashの後継モデルで、ベンチマークの結果は驚くべきものでした。Gemini 1.5 Proを様々なベンチマークで上回り、2倍の速度を実現したとのことです。画像、動画、音声などのマルチモーダル入力に対応し、画像やテキストと音声を組み合わせたマルチモーダル出力もサポートしています。ただし、この機能が実際にローンチされているかは不明です。
また、Google検索やコード実行などのツール使用もサポートしています。さらに、Gemini 2.0はすでに利用可能で、Geminiアプリでチャット最適化バージョンを実験的に選択できます。また、Gemini 2.0をエージェントとして展開する予定で、万能AIアシスタントのプロトタイプであるProject Astraのアップデートや、ブラウザを制御するAIエージェントのProject Mariner、開発者を支援するAI駆動のコードエージェントDRWなど、多くの展開があります。主要な点はGemini 2.0 Flashで、ベンチマーク結果を見る限り、かなり印象的なようです。
これは少しOpenAIの逆のような展開を思い起こさせます。通常、Googleが大きなイベントを予定している前日にOpenAIが先手を打って大きな発表をし、皆がOpenAIの発表について話すという展開になりますが、今回は少し逆のようです。OpenAIが12日間の「Ship Miss」の最中でSoraなど多くのものをローンチしている中、Googleがこの興味深い発展を発表しました。
このような方向性、つまりエージェント的なツール使用やユーザーのためのツール使用を目指す企業として、最初に注目したのはAdept AIでした。彼らはこの方向に大きな投資を行いましたが、規模が小さすぎて成功は難しいと話題になり、結局は部品として売却されることになりました。
ここでGoogleが同じ方向に大きく動き出したわけです。anthropicの取り組みとよく似ています。これからは基本モデル自体がエージェントとしての可能性を念頭に置いて訓練されるようになるでしょう。これがまさに今起きていることです。もはやチャットボットとしてだけでなく、訓練レジーム、合成データ、ファインチューニングのアプローチなど、すべてがエージェントとしての可能性を意識して設計されるようになっています。
デモで紹介された内容を見る限り、かなり印象的なものがあるようです。デモがどの程度一般化できるかは常に判断が難しいところですが。例えば、Project Marinerは実験的なChrome拡張機能で、ウェブブラウザを制御して様々な作業を行うことができます。
具体的な例として、食事の計画を立てるよう依頼されたエージェントが、イギリスのスーパーマーケットチェーンSainsbury's(イギリス以外の人にとってはちょっと馴染みのない店かもしれません。イギリスのTrader Joe'sのようなものです)にログインし、関連商品をショッピングカートに追加し、特定の商品が在庫切れの場合は料理の知識に基づいて適切な代替品を選択したとのことです。ここで世界モデルが役立っているわけですね。
ただし、最後の文は示唆的です。「Googleは他のタスクの実行を拒否し、まだ開発途上であることを示唆した」とあります。つまり、デモはまだ非常に脆弱な段階にあることを意味します。
これらの評価には注意が必要です。彼らは現時点では研究プロトタイプであり、主要な製品ラインとなることを意図していないと述べていますが、これが今後の方向性であることは明らかです。SONETの3.5や新バージョン、Gemini 2のProject Marinerエージェントなど、2025年に向けてこの方向に進んでいくでしょう。
次の2週間で見られるようになるわけではありませんが、2025年の主要なテーマになるでしょう。エージェントがブレークスルーを果たす理由は多くあります。研究セクションで触れる予定の興味深いスケーリング結果なども含めて、これは今後の大きな展開の予兆だと思います。
その通りですね。エージェントは今や概念的な研究の問題というよりも、むしろエンジニアリングの課題になっていると思います。これはGoogleにとって非常に重要なことかもしれません。最高のモデル、最先端のモデルの競争でOpenAIやanthropicを追い越すことができていないことは明らかです。
以前のエピソードでも話しましたが、ClaudやChatGPTのユーザーとしてGeminiを使用すると、その推論能力や全体的な知性の面で少し物足りなさを感じます。Gemini 2.0でこの点が改善されることを期待していますが、GoogleがAIアシスタントを強化できれば、つまりAndroidフォンに組み込まれているAIアシスタントを強化できれば、大きなアドバンテージとなるでしょう。
ジェレミーがいつも言うように、流通が鍵です。誰もが個人アシスタントとなるエージェントを手に入れようと競争している中、Googleはスマートフォンとブラウザを持っています。十分に優れたバージョンを提供できれば、人々はデフォルトでそれらのエージェントを使用するようになるでしょう。
エージェントについては、私たちは多くの人々が近い将来、日常的にAIエージェントを使用するようになるという予測の側に立っています。したがって、これはGoogleにとって非常に重要なイニシアチブです。
次に、「Ship Mass」と呼ばれているOpenAIからの新しい発表についてです。多くのストーリーがありますが、いくつかを取り上げましょう。ChatGPTの高度な音声モードに、ビデオとスクリーン共有入力が追加されました。
これは5月のデモで最初に見られた機能で、ChatGPTとライブで会話しながら、ビデオストリームを見せたり、方程式を見せてそれについて質問したりすることができます。これは高度な音声モードの一部ではありませんでしたが、今回追加されました。さらに、新しい音声オプションと雪玉をテーマにしたインターフェースを持つサンタモードも追加されています。
多くのものをリリースしていて、様々なレベルの期待があります。これはかなり大きな進展だと思いますが、確かにSoraほどのインパクトではありません。
特にアプリケーション面では、OpenAIのアプリケーションや製品側で働いている人を知っているわけではありませんが、高度な音声モードのローンチが遅れたことについて、多くの人々がフラストレーションを感じていたのではないかと推測します。これは少しGemini 2の非常に脆弱なデモを思い起こさせます。
エッジケースの解決には時間がかかることがあります。特に新しいモダリティを導入する際には、新しい評価やテスト、レッドチーミングのプロトコルを作成する必要があり、これらは必ずしもテキストベースのシステムに対して最適化していたものに限定されません。以前、OpenAIが最適化に力を入れていたのはそういった部分でした。
これは彼らにとって新しい課題だったはずです。おそらくSoraの今後のロールアウトにはそれほど時間がかかることはないでしょう。その専門知識の基盤がすでに構築されているからです。
次に、Microsoftからのニュースです。最近、このような発表が各社から競って出されているようです。彼らもエージェント的な機能に関する発表をしています。MicrosoftのCo-pilotがAIビジョンを使用してユーザーとともにウェブを閲覧できるようになります。
これはEdgeブラウザに追加される機能で、現在テスト中です。Co-pilotビジョンのユーザーは、閲覧中のテキストや画像、コンテンツについて質問することができます。ただし、ユーザーに代わってウェブサイトにアクセスしてタスクを実行するほどのエージェント機能はないようです。
これは現在、Co-pilot Proサブスクライバーのみが利用できる限定テストですが、Googleがブラウザでエージェントを実行し、Microsoftもその方向に確実に進んでいることを示す別の例です。これは初期のプレビューですね。
これはまた、OpenAIやMicrosoftが、OpenAIから距離を置く、というわけではありませんが、より強く独立性を主張し始めている例です。OpenAIの製品と直接競合する製品を持っているのです。彼らはそれを望んでいます。というのも、聞いた話では、サム・アルトマンの取締役会の騒動で、その関係は大きく揺らいだからです。
この時点で、Microsoftはそれを念頭に置いています。反トラスト法の問題もありますが、独自の内部能力を確保することに非常に熱心です。これがその一部となるでしょう。ジェレミーがいつも言うように、流通が王様です。Microsoftは確かにCo-pilotを通じてそれを持っているので、この機能の採用がどうなるか興味深いところです。
次に、以前はTwitterだったXからのニュースです。彼らはGrock画像生成モデルをローンチしました。これは最初に選ばれたユーザーが利用可能で、1週間以内にグローバルにロールアウトされる予定です。テキストや他の画像から高品質の画像を生成できる画像生成モデルです。
コードネームはAuroraで、詳細はあまり分かっていませんが、興味深いですね。OpenAIはDALL·Eを持っており、他の企業も画像生成モデルを持っていると思われます。Grockは最初、Black Forest LabsやFluxで生成を行っていましたが、今では恐らく社内で開発したこのモデルを持っています。
Black Forest Labsの件も興味深いですね。今彼らが何を考えているのか全く分かりません。先週、大規模な資金調達について話しましたが、今や10億ドル近い評価額になっています。このような評価額は、おそらくXとの継続的な関係を前提としています。
Grockがネイティブな画像生成機能で置き換えられると、Black Forest Labsにとって構造的な問題となります。どのように回復するのか分かりません。特にGrock 3やGrock 4との相互作用が始まると、画像生成機能との関係が出てくるでしょう。
画像の高度な説明文生成など、様々な理由があります。結局、マルチモダリティは大規模な1つのエコシステムで行うのが最適です。個々のユースケースや視覚などのモダリティをパートナーに委託する可能性は低くなります。その関係に何が起こるのか興味深いですね。
ブログ記事自体には多くの情報はありません。Xがオープンソースアプローチを重視しているにもかかわらず、これは明らかにクローズドソースの発表です。コードもアーキテクチャ情報もありません。待つしかありませんが、写真のようなレンダリングが得意で、テキストの指示に正確に従うということです。これは今までの他の製品と一致する内容ですが、Xにネイティブになるのは興味深いですね。
次に、Cognition Labsというスタートアップについてです。彼らはDevonというソフトウェアエンジニアと呼ぶデモで話題を呼び、最初のプレビューから数ヶ月後に正式にローンチしました。個人向けおよびエンジニアリングチーム向けに月額500ドルのサブスクリプションで利用可能です。統合開発環境の拡張機能、API、オンボーディングセッションなどが含まれています。
これもエージェントに関する別の話題です。AIコード作成アシスタントは長い間存在し、多くのプログラマーのワークフローに深く統合されています。私自身もそうです。そして今、さらに多くのことができるソフトウェアエンジニアリングエージェントを作る競争が始まっています。
興味深いですね。Devonは8ヶ月前の3月にリリースされ、当時は印象的なデモと、それが誇大広告かどうかについての議論がありました。比較的脆弱なモデルだったように見えました。デモはできても実践的なタスクができるのかという疑問があったのです。
今回のバージョンのDevonは、ユーザーが自分でできるタスクを与えた場合に本当に優れているとされています。また、モデルにテストの方法を教える、セッションを3時間以内に収める、大きなタスクを分解するなど、これらはすべて標準的なことです。Co-pilotや他のツールを開発に使用する際の典型的な内容です。
サイドバイサイドで比較してみたいところです。月額500ドルという価格を正当化するのは難しそうです。OpenAI最上位ティアの月額200ドルと比べて、本当にこのユースケースで2.5倍も良いのでしょうか。これは非常に興味深い質問です。
Devonや一般的にCognition Labsは厳しい戦いを強いられると思います。Coherentやadept AIなど、多額の資金調達ができていない中規模企業についても同じことが言えます。現実には、スケーリングはまだ機能しています。最近スケーリングについて多くの議論がありますが、実際に何が起きているかを見ると、まだ機能しているのです。
これが、企業が新しいデータセンター建設に数百億ドルを投資している理由です。私は、Cognitionのような企業は、スケーリングトレンドが続けば実際に深刻な問題に直面すると思います。素直に予想すると、今後2〜3年以内に破綻するでしょう。願わくは私の予想が間違っていることを祈ります。
これは業界の問題の一部です。大規模なデータセンターを購入でき、より優れたモデルを構築できる大手企業が、さらに強くなるのです。これは非常に興味深い瞬間です。ある意味で勝負の時と言えるかもしれません。OpenAI v0.1や同様のモデル、特に最も直接的な競合であるClaude 3.5 Sonet newを圧倒するか、そうでないかです。月額500ドルという高額な料金を正当化するのは非常に難しいでしょう。
実際、彼らが独自のモデルを訓練していると主張しているかどうかは分かりません。これは、競争の場でユーザー体験がますます重要になっている例でもあります。ブラウザでの使用、IDEとの統合、シェルを介した使用が可能で、ツールを採用して慣れてしまうと、そのまま使い続けることも多いのです。
必ずしもモデルを訓練する必要はなく、Llamaを使用したりAPIを使用したりして、ユーザーに定着してもらえばいいのです。これは現在、cursorや多くのスタートアップが、組み込み機能を持つソフトウェアエンジニアリングツールで戦っている分野です。
その通りですね、申し訳ありません。プラットフォーム統合業者としての観点から考えると、その通りです。フードの下で具体的にどのように機能するかについての情報がない場合、流通を持つ大手プレーヤーと競争する際の標準的なリスクがあり、OpenAIやClaudのUXやUIに飲み込まれてしまう可能性もあります。しかし、その通りですね。特有のリスクがあって、比較の観点からすると、今彼らのブログを見ているところですが、OpenAI1のレビューとコーディングエージェントについて言及していましたので、エージェントに関するこれらの取り組みすべてについて、少し懸念があると思います。
ニュースにはさらに話題がありますが、あと2、3件です。次はOpenAIにおける部分的なMトレンドについてですが、Appleについても話題があります。iOS 18.2がリリースされ、その中にSiriとChatGPTの新しい統合機能が含まれています。ついにそれが実現しました。ユーザーはこの統合機能を使用するためにOpenAIのアカウントは必要ありませんが、Appleを通じてアップグレードされたChatGPTバージョンを選択することができます。OpenAIはリクエストを保存しないというプライバシー保護も備わっているようです。この統合に加えて、ジェネレーティブな絵文字や改良されたテキストツールなど、アプリの知能化で見られるような様々な機能も追加されています。
この展開を見られて嬉しいですね。おそらく人々が期待していたよりも、少なくとも私が期待していたよりも時間がかかりましたが、Siriの実用性を維持する上で確実に重要です。そして今やOpenAIは興味深いことに、MicrosoftとAppleの両方とパートナーシップを結んでいます。大規模なAppleとのパートナーシップは非常に異例です。AppleとMicrosoftの対立関係は、現代のシリコンバレーの歴史の中で最も長く続いているものの1つですから、サムがこの両社との密接な関係を築くことができたのは、かなりの快挙だと言えます。
もう1つ重要な点は、Appleが独自の言語モデルを構築していることです。彼らの希望は、この種の機能の多くを内部で実現することです。データの観点から見ると、このやり取りにおけるデータフローの詳細は覚えていませんが、ユーザーデータはAppleのハードウェアに留まり、OpenAIのハードウェアには触れないという主張を聞いたことがあります。その具体的な実装方法は忘れましたが、これはAppleにとって重要な懸念事項であり、チャットボットを提供する独自のLLMを可能な限り持つ理由となるでしょう。しかし今のところ、これら2つの大手プレイヤーにとっては、便宜上の取り決めと呼ぶべきものかもしれません。
Siriユーザーの場合、複雑な質問をしてSiriが処理できない場合、自動的にこの機能が起動するはずです。その時、ChatGPTを使って質問に答えるための許可をユーザーに求めます。したがって、Siriに難しい質問をすると、この機能が表示され始めるかもしれません。
最後の話題はRedditについてです。新しいAI検索ツールを導入しました。Reddit Answersと呼ばれるこのツールは、その名の通りです。質問をすると、おそらくRedditを検索して回答を提供してくれます。つまり、Redditで人々が何を言っているかをGoogleで検索する代わりに、実際にRedditに行って、このツールに直接Redditでの議論内容を尋ねることができるようになります。
現時点では米国の限られたユーザーのみが英語で利用可能ですが、近いうちに他の言語やAndroidなどにも拡大されるでしょう。実際、これは検索空間で展開される非常に興味深い戦いあるいはサブプロットの一部です。Redditに関して、過去2年ほどの間に、サブレディットを見つけるためにGoogleを使う機会が増えたことに気付いたかもしれません。基本的に、本当に欲しい答えは、何らかの機械学習サブレディットにあったりするわけです。
実際には、Redditにアクセスするための手段としてGoogleを使用しているわけで、これはGoogleが少し苦戦していることを示しています。特定のユースケースに限ってではありますが、ある特定のプラットフォームにますます惹かれていくということは、Redditにとって、「ねえ、AIで強化されたツールセットを使いやすくしましょう」と言うのは非常に魅力的です。要約機能や検索製品などをネイティブに持つことができます。
同時にGoogleは、ウェブサイトを表示するだけでなく、ウェブサイトを要約するというアイデアを試しています。これはRedditのようなウェブサイトにとっては脅威となります。なぜなら、クリックスルーする必要がなくなり、実際にアクセスして広告収入を得る機会を失うかもしれないからです。これは全て、主にGoogleの足元で変化している状況の一部です。長期的にみると、これはGoogleにとって構造的なリスクだと思います。検索は変化していくことは確実ですが、最終的な製品形態がどうなるのかはまだわかりません。
彼らは少なくとも1つの例を挙げています。この記事では「赤ちゃんと初めて飛行機に乗る際のアドバイス」というような、Redditで質問しそうな内容を例示しています。オリジナルの議論へのリンクが組み込まれた、よく整形された回答が得られます。ある意味で、AI検索の全体的なトレンドと非常によく似ています。この場合は記事ではなくRedditの会話を検索し、AIが生成した新しい形式の回答でその情報をまとめ、オリジナルのソースへのリンクを提供します。
全く同意です。多くの場合、人々はRedditで考えていることについての議論を見つけるためにGoogleを使用していますが、おそらくこれによってその状況が変わり始めるでしょう。
それではツールとアプリケーションのセクションは以上です。先週は非常に多くの話題がありました。次はアプリケーションとビジネスに移りましょう。最初の話題は再びOpenAIについてです。要約すると、OpenAIは将来の投資を促進するためにMicrosoftのAGIルールを撤廃することを目指しているということです。これは内部の人々によると報告されているものであり、公式のものではありません。MicrosoftはAGIを含む将来の技術へのアクセスを制限されるルールがあります。
これは長い間存在していたもので、本質的にはOpenAIが、彼らがAGIと見なすものに対する制御権を持つことを意味していました。商業パートナーは必ずしもそれにアクセスできるわけではありませんでした。これは非営利組織だった時代からのものですが、現在は営利を目指しており、様々なことが変化する可能性があります。おそらくこれもその1つになるでしょう。
これは興味深いですね。OpenAIが最初にこのカーブアウト(除外条項)を設定した方法を考えると、100億ドルのMicrosoftの大規模な投資の際...申し訳ありません、それは前の10億ドルの投資の時でした。その主張は「AIの利益を全ての人と共有し、安全に構築することについて、あなたたちには高尚な目標があります。実際にスーパーアラインメントのような分野に投資するつもりです。そして今、あなたたちはMicrosoftとパートナーシップを結び、IPへのアクセスを与えようとしています。しかし、あなたたちが技術をどのように扱うかについての保証は、そのような制約に縛られていない誰かと密接に結びついているのであれば、どのような価値があるのでしょうか?」というものでした。
その回答として、あなたが言ったように、彼らの契約には条項があり、MicrosoftはAGIにアクセスできないということでした。他の何にでもアクセスできますが、一旦AGIに達すると、そのテクノロジーにMicrosoftはアクセスできなくなります。内部では「経済的に価値のある仕事のほとんどで人間を上回る高度に自律的なシステム」と定義されています。
あなたは自問自答するかもしれません。「経済的に価値のある仕事のほとんどで人間を上回る自律的なシステム」というのは非常に曖昧に聞こえます。確実に誰かがその意味を決定し、その閾値を超えたかどうかを判断する必要があるでしょう。その答えは「はい」です。OpenAIの非営利理事会が、その閾値が達成されたかどうかを判断し、したがってMicrosoftのOpenAIのテクノロジーへのアクセスが切断されるかどうかを決定することになっていました。
しかし今、問題は、Microsoftやその他の大手プレーヤーに巨額の投資を求める場合、「はい、全ての技術を使用できます」と言う以外に選択肢がないということです。これはOpenAIにとって大きな問題です。現在、彼らのウェブサイトには「AGIは全ての商業的およびIP使用許諾契約から明示的に除外されています」と書かれています。これは明示的に、OpenAIが言うところのセキュリティや安全性に対する意識が低い人々がテクノロジーにアクセスするのを防ぐために行われました。そして今、彼らはそれを撤回しようとしているのです。
したがって、これは実際に、初期のOpenAIの支持者たちにとって、以前の原則に直接反するものとして見られるでしょう。スケーリングを継続する能力のために原則を犠牲にしているのです。これは必要条件です。スケーリングレースの中で、OpenAIには選択の余地がありません。スケーリングの設備投資要件は途方もなく大きいため、新しい資本を調達できる必要があります。
しかし、先週のニューヨークタイムズのカンファレンスでサム・アルトマンは次のように説明しています。「私たちが始めた時、プロダクトカンパニーになるとは思っていませんでしたし、必要な資本がこれほど巨額になるとも思っていませんでした。もしそれらのことを知っていれば、異なる構造を選んでいたでしょう」これは非常に興味深い発言です。なぜなら、OpenAIの友人たちや、サムの周辺で働いていた人々から多くの話を聞いているからです。彼の見方は「企業構造に問題があった」というものです。
しかし、彼が自身や他者に対してその主張をしようとする際に直面する根本的な課題は、原則そのもの、OpenAIの活動を支えた高尚な理想、安全性とセキュリティに関するこれらのことが、当時のOpenAI自身の主張によれば、この行動によって裏切られているということです。少なくとも多くの人々にはそう見えるでしょうし、そこには強力な議論があります。
しかし、必要性からの議論が全てを上回っているように見えます。それは基本的に「はい、この新しい世界で何らかの役割を果たしたければ、スケーリングできる必要があります。つまり、営利化できる必要があり、このような条項を放棄できる必要があります」というものです。これは非常に厄介です。特に非営利から営利への移行全体を考えると、現在のOpenAI、特にサム・アルトマンは、信頼性が低下し始めています。
実際、OpenAIが当時コミットしたことで、まだ本当に守っているものを思い浮かべるのは難しいです。スーパーアラインメントへの資金提供の完全な失敗があり、文字通り3回連続でスーパーアラインメントのリーダーシップが会社を去っています。安全性に20%のリソースを割り当てるという約束もありましたが、それも報告によれば実現していないようです。それは内部の不満の一因だったと思われます。
そこにも曖昧さがありました。それは獲得した計算能力の20%なのか、それとも何なのか。ところで、その曖昧さは機能というよりもバグだったかもしれません。それによって主張を容易にしたのかもしれません。しかし、どのような合理的な基準で見ても、彼らはそれを完全に失敗したように見えます。そして多くのそのような事例があります。これはまさにそのもう1つの例のように見えます。
非営利から営利への移行との相互作用がどうなるのか、私は法律家ではないのでわかりません。しかし、OpenAIに関する懸念のリストは長くなっています。サムが言うように、これはMicrosoftが更なる資金を投入する前に望んでいる動きかもしれません。AGIとは何か、そうでないものは何かという問題は非常に曖昧です。Microsoftの立場からすれば「私たちが同意しなくても、あなたたちが何かをAGIと呼ぶことはできますよね」と考えるでしょう。OpenAIの中の誰かが基本的にGPT-4はすでにAGIだと投稿していたと思いますが、これは良くありません。アクセスしたいものをAGIだと言えるのであれば。したがってビジネスの観点からは非常に理にかなっています。
次の話題に移りましょう。しばらく触れていなかったものですが、個人的には大きな問題だと思います。GMがCruiseのロボットタクシー開発への資金提供を停止したという話題です。長く続いていた進行中の悲劇と言えるでしょう、ゆっくりとした自動車事故と言えるかもしれません、申し訳ありません。
そうですね、簡単に振り返ると、Cruiseは1年以上前に大きな事故を起こしました。人身事故に部分的に責任があったと言えます。人間のドライバーによる事故でしたが、その後Cruiseの車が停車した方法で誰かを傷つけてしまいました。大きな問題は、規制当局とのCruiseのコミュニケーションが、言ってみれば怪しかったことです。全てを完全に開示せず、完全には協力的ではありませんでした。
その時点で、CruiseはWaymoと同様にサンフランシスコの道路でテストを行っていました。それは終わり、Cruiseは徐々にゲームに復帰する動きを見せていましたが、常にWaymoやTeslaと競争できるかどうかが疑問でした。そして今や、ほぼ完全に降りることが明らかになっています。GMは残りのCruise株式を取得し、おそらくその技術を自社の車に組み込むことを計画しているようです。
そうですね、今では基本的に2つの大手プレイヤーしかいないようです。基本的にWaymoとTeslaが自動運転ロボットタクシーの2大プロバイダーとなっています。Waymoはアメリカ全土で徐々に展開を進めていますが、やや遅いペースです。Teslaは最近FSD 13をリリースし、この時点でかなり印象的な性能を見せています。車を運転させるのもずっと怖くなくなり、データからのエンドツーエンドのトレーニングにより、より人間らしい運転が可能になったと言われています。
現時点では目立たないかもしれませんが、1年後には多くのロボットタクシーが至る所にいるだろうと予想しています。WaymoかTesla、あるいは両社が支配する非常に大きなビジネスになるでしょう。
CruiseとGMの関係は長い間興味深く、波乱に富んだものでした。創業者のカイル・ボートは、実はYコンビネーターの有名なコメンテーターでもありましたが、昨年11月に退社しました。退社後、彼はツイートで「もし以前は不明確だったとしても、今は明確です。GMはばかの集まりです」と述べました。
確かに波乱の歴史がありました。Cruiseには外部投資家としてホンダもいました。これまでに約8億ドルから8億5000万ドルをCruiseに投資しています。彼らは2026年に日本で無人配車サービスを開始する計画を立てていましたが、今ではその計画を見直すと言っています。あなたが言ったように、両社が同時にこの分野から撤退するのは興味深いですね。
次のハードウェアに関する話題に移りましょう。まず、世界最大のAIデータセンターがアルバータ州北西部に建設されるという話題です。Wonder Valleyという名前で、グリーンビュー市とカナダの億万長者ケビン・オーラリー率いるOLarry Venturesとの協力により、推定700億ドルの費用がかかる見込みです。私にとっては全くの驚きでしたが、ジェレミー、あなたはもっと付け加えることがありそうですね。
はい、これは驚くべきことです。この四半期で最大のインフラ関連のニュースの1つ、もしかしたら最大のニュースかもしれません。現在の状況を理解するために、人々は予備の1ギガワットの電力を見つけるのに苦労しています。
文脈として、1台のH100 GPUは大まかに言って1キロワットの電力を消費します。データセンターで1,000台のH100 GPUを使用したい場合は1メガワットの電力が必要です。100万台のH100 GPUを使用したい場合は1ギガワットが必要です。1ギガワットの電力について話す時、大まかに言って約100万台のNVIDIA H100、またはそれに相当するものを指します。
そして今、Metaのような企業は2ギガワットのクラスター、1ギガワットのクラスター、1.5ギガワットなどを探しています。現時点では10ギガワットのクラスター、つまり1,000万台のH100相当のクラスターを実現する計画はありません。それには大規模なインフラ整備が必要になります。
これが注目に値する理由の1つは、突然カナダが関連してきたことです。1,000万台のGPUの閾値に近づけるような大規模な施設を建設できる場所を、北米中で探していました。これが意味するところです。
このプロジェクトは段階的に展開されます。一度に全てが行われるわけではありません。フェーズ1では最初の1.4ギガワットの電力がオンラインになります。その後、毎年1ギガワットの追加電力を導入する計画です。繰り返しますが、非常に大まかに言って、1キロワットは約1台のGPU、それは約1世帯に相当します。つまり、この小さな地域で毎年100万世帯分の電力を追加で供給することになります。これはかなり注目すべきインフラ整備です。
最初の1.4ギガワットのフェーズ1の整備には約28億ドルかかると見積もられています。大部分は拡張を目指す後の段階で必要になります。これはカナダの基本的な発電能力を大きく増加させることになります。カナダは年間約150ギガワットを発電していますので、この1つのサイトだけで、もし私の計算が正しければ約5%の増加になります。そうですね、約5%の増加です。
この電力は必要です。冷却、GPU、インフラなど、全てに電力が必要です。しかし、これによってこの場所が地政学的に非常に興味深い場所になります。突然関連性を持つようになったのです。
タイムラインは難しい問題です。ここで聞いているのは、7.5ギガワットを目指すということです。しかし、その考えは今後5年から10年の間にオンラインにすることです。特にAGIのタイムラインが2027年頃だと考えている場合、これは遅すぎるかもしれません。少なくとも7.5ギガワット全てについてはそうかもしれません。しかし、より早くオンラインになる1.4ギガワットは関連性があるかもしれません。
なぜこれがアルバータ州のWonder Valley、つまり人里離れた場所で行われるのかは全体的に非常に興味深いですね。答えの1つは、オイルサンドです。アルバータ州はアルバータ・オイルサンドのおかげで天然ガスが豊富なことで知られているカナダの州です。記事には触れられていませんが、潜在的に非常に有用なのは、そこが寒いことです。冷却が大幅に容易になります。
そして、明らかにアルバータは、カナダのテキサスです。全ての石油を生産し、人々はスタンピードさえ持っています。基本的にカナダのテキサスです。その結果、資源を非常に簡単に移動できる様々なパイプラインが整備されています。また、光ファイバーネットワークも整備されているので、これが非常に有望なサイトである理由は多くあります。
そしてケビン・オーラリーは、シャーク・タンクで有名です。カナダ人ですが、アメリカの世界でも注目される人物です。議会で暗号通貨について証言したり、そのような様々なことを行っています。このプロジェクトについては、もっと多くのことが出てくるでしょう。これは本当に非常に興味深いです。
このような場所の適切な国家安全保障資産との関わりを持つことを期待します。今日はそうは見えないかもしれませんが、AIシステムがますます武器化されるという前提を信じるなら、これは何よりもまず国家安全保障資産になるかもしれません。
関連する似たような話題として、Metaがルイジアナ州に400万平方フィートのデータセンターを建設すると発表しました。約100億ドルの費用がかかり、2ギガワットの電力を使用し、LlamaのAIモデルのトレーニングに使用されます。電力使用の100%をクリーンで再生可能なエネルギーで賄うことを約束し、Entergy社と協力して少なくとも1.5ギガワットの新しい再生可能エネルギーを電力網に追加する予定です。はい、非常によく似た話題であり、これらの巨大企業から増えてきている話題です。
2ギガワットは再び非常に大きな電力量ですが、規制承認待ちという重要なフレーズがあります。現時点で、新しい発電機は2028年から2029年の間にオンラインになると予想されています。規制承認待ちですが、おそらくそれはトランプ政権のアメリカのエネルギーインフラの大規模な規制緩和のアジェンダを考えると、かなり早くなるでしょう。これは少なくとも私の意見では非常に重要なことです。
バイデン政権でさえ、このような事柄をどのように進められるかを検討するタスクフォースを設置しています。したがって、少なくとも規制の障壁に関連するタイムラインは大幅に短縮されると予想されます。これは私も実際にかなり取り組んでいることです。どのようにすれば、エネルギー部分の規制を緩和して、アメリカの生産を解放し、安全な方法でAI側に移行できるかということです。
9つの建物があり、実際に今月12月から建設が始まり、2030年まで続く予定です。これらのサイトについて興味深いことの1つは、基本的に完成することがないということです。完成しても、次世代のハードウェアが登場すると、もはや関連性がなくなるまでの寿命が非常に短いのです。だから、言ってみれば生きている建物のようなものです。
全体の開発はプロジェクト・シュクレとして知られています。シュクレはフランス語で砂糖を意味します。なぜそうなのかわかりませんが、ルイジアナ州ではフランス語が話されているので、そういうことでしょう。
彼らは詳細に触れています。2,200メガワットの電力がコンバインドサイクル燃焼タービンから供給されます。そして2つの変電所があり、ところで信じられないほど長い納期があります。とにかく、これらの設備を整備するためには様々なことを組み合わせる必要がありますが、これは大きな出来事になるでしょう。将来のLlamaモデルのトレーニングに使用され、そしてMetaは地図上に載りました。
面白い事実として、これはMetaの27番目のデータセンターであり、彼らが言うには、これまでで最大のものになるとのことです。Metaではいくつかの記録を更新しています。
この分野についてもう1つの話題があります。Googleからのもので、将来のデータセンターは太陽光発電所や風力発電所の隣に建設されると言われています。これはIntersect PowerとTBG Wise Climateとのパートナーシップに関連するもので、彼らによれば、これはオンサイトの再生可能エネルギーで電力を供給できるデータセンターを建設するための、初めての種類のパートナーシップだそうです。10億ドルのイニシアチブです。ジェレミー、これがどの程度重要だと思いますか?
電力の調達は興味深いですね。企業は非常にショーアップすることができ、Metaはこれを多く行ってきました。太陽光や風力のようなものを建設したりします。太陽光と風力の大きな課題の1つは、特にモデルのトレーニングに関して、常に高いスループットの電力が必要だということです。高いベース負荷の電力が必要です。残念ながら、風は常に吹いているわけではありませんし、太陽も常に輝いているわけではありません。再生可能エネルギーを見る時、これは非常に深刻な問題です。
実際には、これらのデータセンターは、企業がヘッドライン価値のために多くの再生可能エネルギーと同時に建設することがありますが、通常は天然ガスや電力網上の予備の原子力発電などから電力を引き出しています。これはその傾向の一例です。
電力生成の変動性に対する解決策を見つけることができるかどうか興味深いところですが、これは別の傾向の例でもあります。それは企業がメーターの後ろに行くという傾向です。基本的に、メーターの前にいる場合は公共事業者から電力を引き出していますが、メーターの後ろに行くと、基本的に発電所などの電力供給者と直接契約を結び、そこから直接電力を引き出すことになります。これが実際に起こっていることです。
この場合、Intersect Powerが併設された発電所を所有・開発・運営することになります。Googleからの8億ドルの資金提供もあります。電力生成会社と大手テクノロジー企業の相互関係が今まさに現実のものになりつつあります。AIが全てを飲み込んでいるという事実があり、AIを大規模にスケールするために必要な全てのこと、電力会社になったり、ハードウェア設計会社になったりするのは興味深いですね。
データセンターは数十年前からあり、GoogleやMetaは巨大なデータセンターを持ち、同様のニーズに対処してきたはずですが、今やこれらのAIデータセンターはずっと困難です。この話題だけでも興味深い本が書けそうですが、AIと今起こっていることについては多くの本を書く必要があるでしょう。
プロジェクトとオープンソースに移りましょう。前回のエピソードでは多くの話題がありましたが、今回は1つだけです。再びGoogleについてです。PaLM Gemma 2をリリースしました。これらの新しいPolyGemmaモデルはビジョン言語モデルで、30億、100億、280億のバリアントがあり、解像度も様々です。サイズと解像度の異なる組み合わせで9つの事前学習済みモデルがあります。
これらのGemmaモデルはGoogleから定期的にリリースされていますが、テキスト検出、光学式楽譜認識、放射線レポート生成などで、かなり良い実証的な性能を示しているようです。VLMはオープンソース分野ではあまり目立ちませんが、これはかなり重要なVLMです。
論文から特に興味深いと思われる2つの見解がありました。1つの発見は、モデルが大きくなるほど、トレーニング中の最適な転移学習率が低くなったということです。様々なタスクでモデルをトレーニングする際に、この学習率のパターンを発見しました。
ところで、学習率とは、モデルを変更する際にどれだけ大きく変更するかということです。データの各バッチでモデルの重み、モデルのパラメータ値をどれだけ更新するかということです。大きな学習率を使うということは、大きな変更、パラメータ空間での大きなステップサイズを意味します。小さな学習率は小さなステップサイズを意味します。
これが一般的に形を取る方法の1つは、トレーニングプロセスの初めには大きな学習率が必要になる傾向があります。なぜなら、最初の重みは完全にランダムに初期化されているためです。時間とともにモデルが改善されるにつれて、学習率を下げる必要があります。モデルが学習するにつれて、より小さな微調整を行うようになります。これはこの直感のためのポンプの1つです。
この場合、彼らは異なる種類の問題間を横断することに興味を持っていました。発見したことは、モデルが大きければ大きいほど、学習率を小さくする必要があるということです。これは興味深いですね。この直感の1つは、多くの自由度がある場合、より微妙な動きができるかもしれないということです。より少ない自由度で同じことを学習する必要がある場合は、より大きな動きが必要かもしれません。これは興味深い結果です。
もう1つは、画像の解像度を上げることは、モデルサイズを大きくすることと同様の計算コストがかかるということです。これは最初は少し混乱しましたが、実際には理にかなっています。モデルサイズを大きくする時、より多くの計算が必要になるのは明らかに、より多くのパラメータを調整する必要があるからです。トレーニングデータの各バッチを通過させる度に、より多くの動く部分を微調整する必要があり、順伝播の計算もより多くなります。
しかし、ここでの問題は、より大きな画像を取得すると、より多くの動く部分を持つエンコーディングに関連付けられるということです。モデルが処理する必要のあるトークンが基本的により多くなります。より大きなモデルを使用して入力を処理しているわけではないかもしれませんが、より大きな画像は依然としてより多くの計算を必要とします。なぜなら基本的により多くのデータがあるからです。少なくともそのように説明すると、かなり直感的に聞こえます。
つまり、問題セットの計算量を増やす方法が2つあります。解像度を固定したままモデルサイズを大きくする方法です。30億パラメータのモデルから100億パラメータのモデルに移行するようなものです。あるいは、モデルサイズを固定したまま解像度を上げる方法もあります。どちらの方法を選ぶかは、どの領域にいるかによって実際にはより効率的になる可能性があります。彼らは1つの方法が計算量的に最適であることを発見しました。これは興味深いと思いました。また、後で振り返ることになるであろうスケール研究の文献に加わるものです。
これは私も非常に興味深いと思いました。基本的に3つのタスクグループを発見しました。1つのグループは、改善の点で2つの方法が同様の効果を示したグループです。実際にこれが大多数のタスクで、例えばセグメンテーションなどです。モデルを大きくすることと解像度を上げることの両方が相当効果的でしたが、いくつかの例外がありました。
例えばテキストVQAでは、解像度を上げる方がより効果的でした。DocVQAなどの例もあります。これは理にかなっています。テキストを読む必要がある場合、おそらく高解像度が大いに役立ちます。そして、科学QAなどの他の例もあります。おそらくモデルが大きくなることで、科学的な質問により良く答えることができ、より多くの情報を持つことができるからです。これは以前には見たことがない、この論文からの興味深い結果です。
論文と言えば、研究と進歩のセクションに移りましょう。非常に興味深い論文から始めます。「連続潜在空間での推論のための大規模言語モデルのトレーニング」です。GPT-4などでの推論パラダイムでは、一般的に私たちが見てきた推論の方法は、文字通りモデルに問題を解決するために必要な一連のステップを考えるように指示し、そしてこれらのステップを1つずつ実行します。
場合によっては、答えをレビューし、何か問題がないかを確認して答えを修正したりします。そしてそれら全ては、テキストを出力し、そのテキストをモデルに戻すことで行われます。この論文が提案するのは、大規模言語モデルの隠れ状態、つまりテキストではない、意味を何らかの形で符号化する数値の「スープ」のようなものを取り、それを推論のステップとしてモデルに供給する新しい推論パラダイムです。
隠れ状態を言葉に変換する前にそうするのです。彼らはこれを「連続思考」と呼んでいます。なぜなら、これらの数値は、離散的な(選択できる文字の集合がある)テキストになるものの連続的な表現だからです。このアプローチには多くの利点があります。
複数の推論パスを探索できます。LLMの非常にコストのかかる操作の1つである、表現からテキストへの変換にデコードが必要ありません。したがって、これは確実に思考連鎖のような能力を強化し、実験では思考連鎖よりも少ないトークンで論理的推論タスクでより良い性能を示しています。
私にとって、これは間違いなく今週の論文、実際には今週の話題で最も重要なものです。含意は本当に広範囲に及び、これは率直に言って、すでにそうでないとしても、非常に近いうちにエージェントシステムのトレーニングスキームに組み込まれると思います。
基本的な枠組みは、あなたが言ったように、Chain of Thoughtのようなテキストベースの推論では、モデルは明示的に自身の思考の連鎖を書き出し、より最適な解決策に向かって導くために自身の思考の連鎖を使用します。このアプローチは理想的ではありません。これらのモデルが推論するための最良の方法ではありません。
ほとんどのトークンは、テキストの一貫性や文法など、推論に本質的ではないことに使用されています。対照的に、深い思考と複雑な計画を必要とする一部のトークンがあります。例えば「このチェスボードでの最善の次の手は[空白]です」という文を考えてみてください。その[空白]、次のトークンについて、モデルに本当によく考えてもらいたいと思うでしょう。
しかし、現在のアプローチでは、基本的にそれほど情報量のない「the」という単語と同じ量の計算を、その単語に費やしています。これは、なぜ別のアプローチ、つまり明示的に平易な英語で物事を書き出さないアプローチが必要かについての興味深い直感的理解を与えてくれます。
彼らが行っていることは、そうですね、トランスフォーマーを想像してみてください。プロンプトを入力し、その入力トークンとプロンプトは基本的にリストの数値、埋め込みに変換されます。そのリストの数値は、最終的な数値のリスト、最後の隠れ状態が得られるまで、本質的に行列によって掛け算されます。
通常、その最後の隠れ状態は、解釈して理解できる実際の単語である出力トークンにデコードされます。しかし、彼らがここで行うのは、その最後の隠れ状態を取り、デコードする代わりに、モデルの最も下の部分に入力埋め込みの位置で戻し、もう一度通過させることです。
これは本質的にモデルにそのトークンをもう一度考えさせているという1つの考え方です。しかし、モデルのトレーニング方法は、Chain of Thoughtのデータセットを使用することです。
つまり、「よし、この問題を解決するところから始めよう。ステップ1ではこれを行い、ステップ2ではこれを行い、ステップ3ではこれを行う」といったChain of Thoughtを持っていると想像してください。トレーニングプロセスでは、収集するのにコストのかかるそのChain of Thoughtデータセットを使用します。
申し訳ありません、ちょっと戻りましょう。このモデルが最後の隠れ状態を生成する時、つまりデータを伝播し終えた時に最後の隠れ状態を持ちます。通常は出力トークンにデコードしますが、今度はモデルの下部に戻して供給します。モデルが一貫性を保つため、本質的に自己回帰モデルであることを尊重するために、まだトークンを出力する必要があります。
彼らが行うのは、本質的にその位置に「思考」トークンを置くことです。入力と答えの間に必要な思考トークンの数を本質的に決定することができ、これによってモデルが答えを生成するのにどれだけの推論時間の計算を投資するかを、非常に興味深い、かなり客観的な方法で制御できます。
1つ目に、これは半客観的に推論時間の戦略に使用される計算量を定量化する本当に興味深い方法です。以前にこのようなものは見たことがありません。その理由の一部として興味深いと思います。しかし、もう1つ興味深いのはトレーニングプロセスです。
その思考トークンを出力するとき、彼らがするのは思考データセット、Chain of Thoughtデータセットを取り、最初はステップ1を空白にして、モデルにそれを思考トークンで置き換えさせることです。つまり、実際にステップ1の推論を平易な英語で出力するのではなく、その代わりにステップ2とステップ3については平易な英語での推論を許可します。
その後のトレーニングラウンドでステップ2を置き換え、そしてステップ3を置き換えます。このように段階的なプロセスで、問題セットの中でモデルに潜在空間でより多くの推論をさせていきます。これによって、モデルをより堅牢な方法で収束させることができます。
最後に言っておきたいのは、今四半期に論文を一つ読むとすれば、この論文を選んでください。これは本当に重要な論文です。彼らが発見した重要なことの一つは、従来のChain of Thoughtでモデルがトークンを生成しようとする際、実際にデコードされる最後の隠れ状態が、トークンの確率分布を符号化しているということです。
モデルに一つのトークンを出力するよう強制すると、「解答は12個の異なるトークンのいずれかで始まる可能性があると考えているが、最も可能性が高いと思われるものを選ぶように」と言っているようなものです。このプロセスで実際に起きているのは、モデルが検討していた全ての可能性を破壊しているということです。
人が問題を解こうとするとき、「このアプローチはこの戦略かもしれないし、別の戦略かもしれない、どちらを先に試すべきかわからない」という状態にあることがありますが、基本的にはその一つにコミットせざるを得ません。従来のChain of Thought戦略では、一度トークンをデコードすると、他の全ての可能性が切り捨てられ、可能な解決策の全空間を探索することができなくなります。
次のステージでは、シーケンスの次のトークンを生成するプロセスで、「最初のトークンは確定したが、2番目のトークンには幅広い可能性がある」という状態になり、また強制的に一つに絞り込まれることになります。
これは非常に興味深いことです。なぜなら、その潜在空間で推論を維持し、最後の隠れ状態をデコードしないことで、モデルは同時に複数の異なる戦略を検討し探索することができるからです。トークン1からの可能性が、トークン2からの可能性と組み合わさり、解決策が一つのモードに崩壊することで中断されることはありません。
これには多くの含意があります。彼らは、このプロセスをある種のツリーとして見ることができることを素晴らしく分析しています。可能な解決策のネットワークが同時に探索されており、それを使って推論の効果を測定することができます。
これは読むべき論文です。深く掘り下げるべき論文です。ちなみに、興味深いことに、彼らはこれらの実験の全てのベースモデルとしてGPT-2の事前学習バージョンを使用しています。これがスケーリングによって大きく改善されると考えるべき理由がたくさんあります。
GPT-2は明らかに非常に小さなモデルですが、複数の異なるパスを探索することやChain of Thoughtのように見えるものなど、私たちがここで見ているような種類のものは、全てスケールとともに大きく改善することが分かっています。だから、これは多くの理由で本当に大きな進展だと思います。一つのエピソードを丸々これに充てられたらいいのですが。
そうですね、もっと言うべきことがたくさんあります。ここには興味深いことがたくさん起こっているのです。例えば、理想的にはモデルは単なる最適化で訓練できるはずです。同様の概念として再帰的モデルがあり、出力を自身に戻して入力することでより良くなっていきます。
実際には、カリキュラム学習が必要だということが分かりました。時間とともに様々な目的を持つ特別な訓練レジメを行う必要があります。彼らは実際に、今年初めの「internalized Chain of Thought reasoning」というIOTと呼ばれる別の論文とも比較しています。
これは別のパラダイムで、Chain of Thoughtの推論を連続空間で上手く行うようにモデルを訓練する代わりに、Chain of Thoughtの推論を暗黙的に行うようにモデルを最適化しようとするものです。Chain of Thoughtの推論を出力せずに、Chain of Thoughtの推論を行った場合と同じ答えを出力できるようにモデルを訓練します。
これも予想通りかなりうまくいきます。そして、これは一つの組み合わせ可能なものであり、彼らは将来の研究の方向性として、暗黙的なChain of Thought推論を最適化し、さらに追加の連続的なChain of Thought推論を可能にすることができると述べています。
彼らはこの技術が暗黙的なChain of Thought推論よりも優れていることを示していますが、これらは両方とも非常に強力な技術です。もっと掘り下げられることはたくさんありますが、おそらく時間が限られているので、この辺にしておきましょう。
次の論文も今週の注目すべきものです。タイトルは「An Evolved Universal Transformer Memory」で、これはaanaから出されました。aanaは最近注目を集めているスタートアップです。「Sako...あぁ、私のエンジニアリングの日々に使っていたツールセットが出てきてしまいました...Sakana」です。
これは進化の分野で経験豊富な研究者たちによって設立されました。進化の分野では、勾配降下を行わず、代わりに非微分可能な最適化方法を使用します。技術的すぎるかもしれませんが、基本的には、通常のニューラルネットワークの訓練方法では最適化できないものを最適化することができます。
彼らは、これがニューラル注意メモリモデルを訓練できる例であることを発見しました。このモデルは、長いコンテキストのユースケースで、どのトークンを保持する価値があるかを決定するように最適化されています。非常に長い入力があり、トランスフォーマー内で一種の作業メモリのようなものを本質的に行う必要がある場合、通常これは暗黙的に訓練されます。
ここでは、個々の層全体で最も関連性の高い情報に焦点を当てるようにこの技術を最適化し、それによって様々な長いコンテキストのベンチマークでパフォーマンスが向上します。これは既存の大規模言語モデルのトレーニングモデルと組み合わせることができます。
興味深いアプローチですね。より多くの帰納的バイアスをスタックに追加しているということです。基本的には、注意層が入力を見て、「どのトークンに最も答えを基づかせるべきか、あるいはモデルが答えを最も基づかせるべきか」を決定し、それらにより高い注意値を割り当てて進みます。
これには2つの問題があります。まず、これらの巨大なKVキャッシュ、基本的にはそれらの注意値を計算するために必要なデータを保持するキャッシュと注意値自体を持つことになります。問題は、全てのトークンが同じように重要というわけではなく、一部は捨てることができるということです。実際には必要のない大量のデータでメモリを占有しているだけです。
ここで答えようとしている質問は、KVキャッシュ内の不必要なトークンデータを選択的に判断して捨てることができるモデルを構築できるかということです。これは本当に興味深いことです。彼らはこれを補助モデルで行おうとしています。進化的計算アプローチを使用します。これは本当に興味深い計画です。
ここでのワークフローの一般的な直感の一部は、フーリエ解析を使用することです。これは本質的に、信号をW様のパターンに分解する研究です。これは多くの場合、入力内に現れる繰り返しの周期的なパターンを識別するために使用されます。
分析している入力シーケンスの注意値にこれを適用します。なぜそうするのかと疑問に思うかもしれませんが、それはそれらの注意値にパターンが現れる可能性があり、そのパターンが注意ベクトルをより圧縮可能にするからです。
パターンがあれば物事を圧縮できます。なぜなら、パターンは定義上、一部があれば残りを再構築できる反復的なものだからです。これがまさに彼らが使用する戦略です。全ては、トークンの頻度パターン、つまりどれくらい使用されているか、シーケンス内のトークンの位置、後方注意を通じて他のトークンとどのように関連しているかに基づいて、必要のないデータを捨てることができるかを理解することに関係しています。
これは独自の別のことです。通常、自己回帰モデルを訓練する際に行うことは、現在予測しようとしているトークンについて、その予測を前のトークン全てに基づかせることができますが、後のトークンには基づかせることができません。
実際には、それらのトークンが何になるかは分かっています。なぜなら、通常は完成した既存の文からこれを訓練しているからです。しかし、問題は、しばしば後のトークンが現在の予測に関連性を持っているということです。
そこで、彼らは早期のトークンが後のトークンを見て、この全体的な計画の一部としてそれらから情報を得ることができる後方注意メカニズムを設定します。とにかく、これは本当に興味深いです。
これがあなたの興味の分野である場合、これは掘り下げるべきもう一つの論文だと思います。しかし、これは複雑さを追加する別の方法です。計算がより多くの作業を行う必要があり、それは非常に有望な道筋だと思います。
そうですね、これは興味深いパラダイムでもあります。事前学習済みモデルの上に、この追加モジュールを訓練しているようなものです。基本的には、例えばLlama 2のようなベースモデルがあり、独立して動作するか、あるいは中間に自身を追加するような、全く別のものを訓練することができます。
そしてそれを行えば、他のモデルに再訓練することなく、他の大規模言語モデルに転移できます。様々なベンチマーク数値がありますが、ハイライトとしては、infinite benchのような非常に長いコンテキストのベンチマークで大きく役立つように見えます。
これは、多くの進展があったものの、まだ完全には解決されていない分野の一つです。このような長いコンテキスト文字列は非常に重要な意味を持つ可能性があります。
ライトニングラウンドに移りましょう。まず「Apollo: SGDのようなメモリ、AdamWレベルのパフォーマンス」から始めます。少し技術的ですが、理解しやすく説明しようと思います。
ニューラルネットを訓練する際、基本的には勾配降下を行います。確率的勾配降下という特殊なものがあり、データの一部をサンプリングしてニューラルネットを最適化する基本的な方法です。出力のエラーから勾配を計算し、それを逆伝播します。
その上に最適化の細かい部分を追加することができ、Adamは通常人々が使用する最適化器です。この最適化器が行うことは、最近の最適化ラウンドにわたるある種のメモリを追加することです。これにより、異なる重みに対する学習率のステップサイズをどの程度にすべきかを知ることができます。
これによってパフォーマンスは向上しますが、更新された学習率を計算するために前の逆伝播ラウンドの情報を保存する必要があります。この論文のポイントは、タイトル通り「SGDのようなメモリ、AdamWレベルのパフォーマンス:メモリ効率の良いLLM最適化のための近似勾配スケーリングApollo」です。
これは、Adamによって必要とされる全てのストレージを回避できるような手の込んだ方法を使って、学習率のスケーリングを近似するものです。これはかなり良い要点だと思います。
そうですね。最近このカテゴリーの論文が一連出ています。これには深い戦略的理由があります。現在の大きな質問は、AI訓練を地理的に分散した訓練クラスタ間でどのようにスケールするかということです。
理由は、1つのデータセンターで1ギガワットや10ギガワットのような、1つの地理的位置にエネルギーを集中させることが本当に難しいということです。そのため、異なるデータセンター間で長距離にわたってデータを移動する必要性を減らすことができる分散訓練スキームをどのように設定できるかについて、大きな関心が寄せられています。
そこで本質的に、システムのようなものを横断してやり取りする必要のあるデータ量を圧縮・削減できるかということに興味が向けられています。ここで問題が出てきます。AdamWは現在モデルを訓練するために一般的に使用される最適化器の一つです。
これがどのように機能するかというと、ニューラルネットワークの特定のパラメータに対して、訓練スキームは「このパラメータにはこれだけの更新が必要だ」ということを覚えています。では前回と前々回はどれだけの更新が必要だったのか。もしそれらの更新が全て同じ方向を指していれば、その方向に大きな勢いがあることを示唆しています。
つまり、常にパラメータ値を大幅に増加させる必要があれば、そのパラメータ値を本当に大きく引き上げるべきだということかもしれません。基本的により大きな学習率を適用する、つまり更新を大きくするということです。逆に勢いが小さければ小さな更新で良いということです。
しかし、私が今挙げた特定のパラメータについて計算または記憶する必要のある3つの異なる数値を考えてみてください。現在の値、現在の更新、前回の更新、そして前々回の更新を覚えておく必要があります。これは合わせてモデルサイズの3倍の最適化器の状態メモリを保持して受け渡す必要があるということです。
そこで目標は、モデル内の文字通り全てのパラメータに焦点を当てる代わりに、例えばネットワークの一つのチャンク、彼らが言うところの本質的に同様に振る舞う傾向のあるパラメータのグループに注目できないかということです。
そしてそのパラメータのチャンクに対して単一のスケーリング係数、単一の学習率を持つことができれば、記憶する必要のあるデータ量をそのチャンク内のパラメータ数で割ることができます。彼らはこれが実際に機能することを示しています。
これはトランスフォーマーの全層にも適用され、ここで適用されるテンソル単位の圧縮で行われます。これは本当に興味深いことです。彼らがこれを行う方法は少し変わっていて、ここでは詳しく説明しませんが、ランダム投影と呼ばれるものが使用されます。
これは数学的に私の心を吹き飛ばすようなものです。ランダム行列を持っていて、それをパラメータ更新行列に掛け算すると、ランダム行列の次元に応じてより小さな行列を得ることができます。しかし、その小さな行列は、ランダムなものを掛け算しているにもかかわらず、元の行列のいくつかの重要な数学的特性を保持します。意味が分かりません。これはジョンソン-リンデンストラウスのレンマで、これは私が初めて出会ったものです。ランダム投影、すごい論文ですね。
そうです。面白い事実として、ニューラルネットワークの隠れ層でランダム投影を行うことができる研究分野が少なくともありました。通常はニューラルネットワークの全ての重みを更新しますが、実際にはそれらの一部をランダムに初期化するだけでも役立つのです。これは本当に不思議な性質の一つです。
さて、私は時々これを行うことを好むのですが、この論文はテキサス大学オースチン校とMeta AIの共同研究です。近年、大学が有用な研究を行うことができないという懸念が多くありました。というのも、しばしばこのような途方もない量の計算能力が必要だからです。
大学院生がMeta や Googleのような大組織でインターンをして、そこで仕事をするというケースが多かったのですが、これは必ずしも大規模な計算能力を持っていない、あるいは限られた計算能力しか持っていない場合でも、本当に良い有用な研究ができるという別の例だと思います。
さて、最後の論文または研究成果に移りましょう。これはAnthropicからのもので、「Cleo」と呼ばれています。「実世界のAI使用についてのプライバシーを保護する洞察のためのシステム」です。
アイデアとしては、おそらくClaudeを使用している多くのユーザーがいて、私たちがそれをどのように使用しているか、コーディングに使用しているのか、学習に使用しているのかなどを理解したいということです。
これは本質的に、プライベート情報を公開することなく、全ての会話を匿名化し集約してトピッククラスターを作成する枠組みを自動化するものです。会話を見ていると、誰かが医療情報についてなど話している可能性があり、それを特定の話題として公開したくないからです。
これは使用パターンを発見するための技術で、興味深いことが明らかになっています。例えば、会話の10%以上がウェブおよびモバイルアプリケーション開発に焦点を当てており、教育目的とビジネス戦略の議論もそれぞれ7%と6%を占めています。
これは非常に興味深いことの一つです。LLM開発者として、人々がLLMをどのように使用しているかを知る必要があります。これによりAnthropicはモデルを効果的に微調整し、また潜在的なポリシー違反や協調的な誤用を特定することで安全対策を改善することができます。
ポリシーと安全性に移りましょう。最初の話題は少し暗いものですが、取り上げる必要があると思います。Character.AIに関することです。簡単に振り返ると、Character.AIは人工知能のキャラクターと会話できる非常に人気のあるチャットボットプラットフォームです。
ここ数ヶ月で2つの論争と訴訟がありました。一つは、10代の若者がCharacter.AIの影響を受けたとされる事件で、その10代の若者はCharacter.AIに非常に執着していましたが、自ら命を絶ってしまいました。これは非常に悲劇的なことでしたが、両親はCharacter.AIにも一部責任があると主張しています。
有害な行動に関する別の事件もありました。Character.AIがそれを増幅させた可能性があります。そこでCharacter.AIは10代の若者の安全対策を強化しています。センシティブなコンテンツから会話を遠ざけ、ユーザーが不適切な応答を促したり要求したりする可能性を減らすことを目的とした特別なモデル、10代向けモデルを導入しています。
また、センシティブなコンテンツをフィルタリングし、ユーザーの入力の検出と介入を改善するための分類器もあります。これはCharacter.AIにとって特に重要なことですが、より一般的には、より多くの人々がAIとより多く、よりより人間的な方法で交流するようになるにつれて、このような種類の話を見ることは避けられないと思います。
人が何か悪いことをするよう誤って促されたり、おそらくすべきでない方法で動機付けられたりする可能性があります。これはまだあまり探究されていないAI安全性の別の分野です。AIモデルが人々に与える可能性のある心理的影響です。これは現実世界で既に起きている非常に現実的な例であり、この企業は特にそれに取り組む必要があります。
そうですね。これは近い将来、何らかの規制が予想される分野の一つです。議員たちには子供がいて、これらのツールを使用している可能性があるので、これに非常に敏感になると予想されます。
また、子供たちを大人のためのある種の炭鉱のカナリアとして見ることの課題もあります。今は自閉症の10代の若者について話していますが、これらのシステムがより説得力を持つようになるにつれて、AIシステムと人間の相互作用がどこに向かうのかについて、本当に根本的な質問を投げかける必要があります。
チャットボットとの対話によって多くのことを説得される世界では、人生の様々な段階にある人々の長い尾があり、このようなものに本当に魅了され、その結果として悪いことをするよう誘導される可能性があります。これが全てどこに向かうのか本当に分かりません。少なくとも、この方向に向かって圧力がかかっているのは良いことです。
Character.AIではアカウントを作成するには13歳以上である必要があるという通知があります。18歳未満のユーザーはプラットフォーム上で異なる体験を受けることになっており、センシティブまたは暗示的なコンテンツに遭遇する可能性を減らすためのより保守的なモデルが含まれています。
しかし、年齢は自己申告制なので、このような措置がどれほど効果的なのかは疑問です。それを超えて進むには、必ずしもIDの証明ではありませんが、少なくともより説得力のあるレベルでの年齢証明のような厄介なことが必要です。
そこにはプライバシーへの影響もあります。これは本当に解決が難しい問題です。Facebookは早い段階でこれに直面しました。13歳未満の人々が使用するのを防ごうとしたときです。プラットフォームも同様です。課題のある問題で、チャットボットの現状の残念な現実です。
ここにはもう少し言及する価値のあることがあります。これは部分的に悪い行動を潜在的に奨励する問題ですが、もう一つの側面は依存です。多くの場合、特にここでのケースでは、10代の若者はこれらのAIキャラクターと話すことに執着、あるいは依存していて、何時間も会話を続けていました。
この発表はCharacter.AIから、別の訴訟が提起された直後にほぼ即座に出されました。今週提起されたこの訴訟では、高機能自閉症の17歳の少年がCharacter.AIと非常に長時間会話を続け、家族に対して暴力的になるよう促されたとされています。
これの別の側面として、人々は本当にAIに依存し、健全ではない方法でAIからの社会的サポートを求める可能性があります。このような種類のプラットフォームが取り組み始める必要があり、あなたが言うように規制も対処する必要があるかもしれない別の側面です。
次の話題はポリシーに移り、タイトルは「トランプの新しいAIと暗号通貨のツァー、デビッド・サックスが技術産業に意味するもの」です。この意味するところは、AIと暗号通貨のツァーにデビッド・サックスが就任するというニュースです。
これは少し変わっています。これは公式の役職ではなく、この任命には上院の承認は必要ありません。パートタイムの役割で、ベンチャーキャピタルで働く事業の立場を維持します。デビッド・サックスはかなり注目すべき人物で、非常に人気のある「All-in」というポッドキャストのホストを務めています。そのポッドキャストのホストの一人はトランプの大きな支持者でした。
これは何を意味するのでしょうか。おそらくAIと暗号通貨に対してかなりビジネスフレンドリーなアプローチを取り、産業寄りのアプローチを取ることになるでしょう。また、AIを国家安全保障と防衛に統合することへの支持も表明しています。暗号通貨に関して簡単に触れると、比較的規制が少なくなるだろうということです。
この立場の左右の境界を判断するのは本当に難しいです。標準的な型に当てはまりません。例えば商務省を見ると、彼らは全く異なるワークフローを持っていて、この立場とインターフェースする方法がありません。
自然に疑問に思うかもしれません。この記事は、それは従来の公式チャネルを通じた部門や機関への影響力というよりも、関係性についてのものかもしれないと推測しています。しかし、結局のところ、これはサックスがホワイトハウスにいて、AIと暗号通貨に確実に影響力を持つことを意味します。
もう一つの疑問は、これが国家安全保障の領域にどこまで及ぶのかということです。これがおそらく中心的な問題です。特に権限がAIと暗号通貨であることを考えると、これは非常に産業に焦点を当てたものに見えます。
しかし、技術に関連する国家安全保障リスクについてはどうでしょうか。彼は声を上げることになるでしょうが、おそらくテーブルには他の声も存在することになるでしょう。
最後に、記事が指摘し、この分野を追っている人々には非常に明白なように、現在のホワイトハウスには2つの異なる陣営があります。マーク・アンドリーセンやデビッド・サックスのような「AIを開発させよう、リスクなんてある程度気にしない」という陣営があります。これは少し誇張かもしれませんが、基本的に利益がリスクをはるかに上回るという考え方です。
そして、武器化や制御の喪失などのリスクについて多くを語ってきたイーロンがいます。これがどのように展開されるのか、それは追跡すべき興味深いことです。デビッド・サックスの任命は、本当に位置づけを特定するのが難しく、それが意図なのかもしれません。トランプは単に彼から意見を得たいだけかもしれません。
彼は特別政府職員として年間最大労働日数が130日に設定されているので、パートタイムということに気づきます。また、資産を売却したり公開したりする必要がないため、潜在的な利益相反につながる可能性があるという指摘もあります。
とにかく、注目すべき興味深い話題です。これはまだ形を取っていない部分が多く、政権は彼の役割がどうなるか分からないかもしれません。実際にどこに影響力が及ぶかは実践の中で見ていくことになるでしょう。
ライトニングラウンドに移り、研究に関する話題です。論文「フロンティアAIシステムが自己複製のレッドラインを超えた」を取り上げます。自己複製は高度なAIに関する懸念の一つです。
基本的に、高度なAIモデルを持っている場合、鍵をかけて制御し、ウェブへのアクセスを許可しないなどの対策を取ることはできます。しかし、AIモデルが自己複製して別の場所にコピーを作成し、世界に解き放たれるようなことができれば、モデルが人間の利益に反することを決定した場合、悪いことにつながる可能性があります。
これは、例えばAnthropicが新世代のモデルが可能かどうかを継続的に評価している一般的な注意点の一つです。この論文では、Llama 3 17BとAlibabaのQwin 25 72Bを含むいくつかのモデルの実験試行で、それぞれ50%と90%の割合で、自身の生きた別のコピーの作成に成功したことを示しています。
実践的には、これは自身の別のインスタンスをデプロイするために必要なコードを生成できることを意味します。これは必ずしも驚くべきことではありません。これらのものを扱ってきた人なら、自己複製を許可された場合、これは高度なモデルが到達しつつあるはずのエンジニアリングの種類だと知っているでしょう。完全に驚くべきことではありませんが、確実に注目に値します。
ジェレミー、これについてもっと言いたいことがありそうですね。
そうですね。この論文が相当流通しているのを見ました。あなたの指摘の通り、自己複製の定義によって多少誇張されている部分があるかもしれません。誇張と呼ぶべきではないかもしれませんが、自己複製によって何を意味するかによって全て変わってきます。
この分野を追っている人なら、OpenAIや他の企業の自己複製評価を行っているMeter社を覚えているかもしれません。彼らは一貫して、現在のモデルは自己複製タイプの作業がより良くなっていること、場合によってはかなり良くなっていることを発見していますが、本当にそれをうまく行うことはできておらず、まだそこまでには至っていません。
では、これとMeterの評価との違いは何なのかという疑問が生じます。それは本当に自己複製をどのように定義するかに帰着します。Meterはモデルの重みとアーキテクチャを含む深い複製を見る傾向があります。これはあなたが言ったように、ファイルのコピー、プロセスの起動など、エンジニアリング面でこれを達成することについてのものです。
これでも動作するシステムを得ることができ、真のAIの複製よりもシステムの自動化により関心がある場合、脅威モデルは実際には成立します。しかし、確かに他の違いもあります。Meterの評価は、システムコマンド、ファイル操作、サードパーティツールなどへのアクセスがより制限された環境を含む傾向があります。
彼らはモデルを取り囲み、エージェントに変える助けとなる種のラッパー、エージェントフレームワークに本当に多くの作業を行いました。少なくとも最近のテストでは、Meterはその部分にそれほど多くの作業を行うことができていません。
これは注目に値すると思います。彼らのより具体的なシナリオの一部は、ネイティブなAIの振る舞いというよりも、多くのハードコードされた振る舞いと混ざっています。彼らは意図的にモデルに特定のことを行うよう促し、それからモデルがそれらのことを成功裏に行うという事実に驚くのですが、これは良いことではありませんが、正当な発見です。
しかし、これは意図的なプロンプトによるものだということは事実として残ります。本質的には、どの脅威モデルを最も懸念しているかによって変わってきます。自律的なAI駆動の、自己複製への独立した衝動のような懸念がある場合、これはその懸念を解消しません。これは力を求める測定ではなく、ここで測定されているのではありません。
彼らが本当に見ているのは、能力の次元そのものです。繰り返しますが、この一般的な脅威モデルを懸念している場合、これは控えめな更新かもしれませんが、あなたが言ったように、他のコンテキストで同様のことを行うモデルを見てきた人には、少なくともその能力は本当に驚くべきものではありません。
そうですね。これはヘッドラインを超えて詳細を読むべき事例の一つです。次に地政学に戻りましょう。私たちがよく触れる話題です。記事のタイトルは「チップ戦争:中国がエスカレーションの兆候としてNvidiaの反トラスト調査を開始」です。
この調査は、Nvidiaの69億ドルのMelanox Technologies買収に焦点を当てており、これが中国の反独占法に違反している可能性があるという主張です。独占というのは、おそらくほとんどの人は知っているでしょうが、ある業界で支配的なプレーヤーとなり、競争を阻害することです。
この取引は2020年に行われ、中国によって承認されましたが、Nvidiaが公平で差別のない条件で中国に製品を供給することを要求されました。予想される通り、これは米国の政策とNvidiaに対する報復措置として中国が取る攻撃的な措置である可能性があり、調査発表後、Nvidiaの株価は1.8%下落しました。規制措置はまだ何も行われていません。
これは、先週話題に上がった高帯域メモリを巡る輸出規制の引き締めや、一部のリソグラフィ装置の輸出など、輸出規制に対する中国共産党の標準的な対応だと思います。中国はレアアースの輸出規制とも連動しており、アメリカ企業とアメリカのAIの取り組みを妨害する方法を本当に探しています。
これが全て、解決策が常に、政治的には実現可能ではありませんでしたが、2019年か2020年頃に中国への輸出を一度に厳しく断固として規制することだった理由の一部です。繰り返しますが、政治的には実現不可能でした。
私たちが行っているのは、ブラックジャックのような負けゲームをプレイしているようなものです。一つのギャップを埋めようとすると別のものが現れ、輸出規制の閾値を段階的に引き上げるたびに、中国共産党は報復措置を取ることになります。
早い段階で断固とした措置を取れば、おそらくこの一部を回避できたかもしれません。しかし、その文脈では中国の方が失うものが少ないので、それが本当に私たちが得ているものです。輸出規制が実際に効果を発揮し始めており、それを示す多くの兆候が見られ、これは今や本当に彼らの神経を逆なでしています。
また、トランプ政権に先立って姿勢を示し、「より強力な制裁を加えれば、私たちはさらに強く噛み返すぞ」というような印象を与えようとしています。特にレアアース輸出については無視できない懸念があり、アメリカはその点で本当にひどい立場にあり、それは自分たちが自ら招いた傷です。
しかし、適切な規制緩和で修正することができ、適切な投資と焦点を当てることで修正することができます。これは単に標準的なものであり、政権がこのような事態を予期していたことは確かです。
輸出規制の話題に関連して、次の話題は別の地域についてのものです。これまでやや不明確で、いわばグレーゾーンにあった地域についてです。米国がMicrosoftの取引の下、UAEへの高度なAIチップの輸出を承認したようです。
UAEにはG42とのパートナーシップの一環としてMicrosoftが運営する施設があります。これについては以前にも取り上げました。Microsoftは15億ドルをG42に投資し、少数株式と取締役会の席を得ています。つまり、この組織にかなり深く投資しています。
G42には潜在的な中国との関係もあり、米国政府がどのような対応を取るのか疑問でした。輸出ライセンスが付与されたようですが、MicrosoftはこのUAE施設への米国の武器禁輸対象国または米国の禁輸リストに掲載されている国の関係者のアクセスを制限する必要があります。つまり、輸出ライセンスは得られますが、中国に課されている制限を尊重する必要があるということです。
明らかに、承認された輸出ライセンスは、UAEの施設への米国の武器禁輸下にある国、または商務省のエンティティリストに掲載されている国の関係者のアクセスをMicrosoftが防ぐことを要求しています。
これは、商務省の産業安全保障局(BIS)の有名なエンティティリストで、Huawei、YMTC、中国のエコシステムの大手プレーヤーなどが含まれています。正直に言えば、もっと多くの企業が含まれるべきですし、正直なところ、ブラックリストではなくホワイトリストであるべきですが、それは脱線です。
現在、これらの要件が追加されて、本質的にこのSTを防ぐことになっています。これは興味深いですね。政策と武器管理政策の世界をご存知の方なら、これはITARのような雰囲気が少し出てきました。彼らは次の、つまりITARは非増殖、本質的にこの政策について考え始めています。
特殊な技術を与える場合、ITAR承認を受けた人にのみそれを渡すことができ、それに失敗すると大きな問題になります。ここでのアイデアは、「このワードを渡すことはできるが、エンティティリストに掲載されている、スクリーニングを受けていない人々にこのワードを渡すことはできない」というものです。
これは非常に興味深いです。なぜなら、国家安全保障の観点から見る必要のある一つのことは、より高度なAIシステムをITARの下で二重使用技術として正式に分類することだからです。今日私たちが持っているような一般的な目的のものではありません。
とにかく、全て非常に興味深いです。制限は中国に物理的に存在する人々、中国政府、または中国に本社を置く組織のために働く人々をカバーしています。G42に関して、ターゲットゾーンにあるものが明確です。
最後の話題に移り、米国に戻ります。ホワイトハウスが、ジェレミーが今回のエピソードの早い段階で言及したように、AIデータセンターインフラに関するタスクフォースを設立しました。これは政府全体の政策を調整し、AI技術における米国のリーダーシップを維持することが公式の方針です。
これには当然エネルギー省が関与し、AIデータセンターエンゲージメントチームを設立し、閉鎖された石炭サイトの再利用に関するリソースを共有することになります。また、米国陸軍工兵隊もAIデータセンター建設を迅速化するための許可を特定します。業界の専門家に関する部分もあり、これは非常に複雑なデータセンター建設を迅速化し可能にするために必要なことと一致しています。
そうですね、ここでの大きな課題は、これが政府全体の問題だということです。エネルギー省、商務省にわたる調整が必要で、国家安全保障の考慮事項も増えてきているため、政府はそれを認識し、「これは大変だ」と言っているようなものです。
国家経済会議、国家安全保障会議、これらは大統領に日々の問題について助言する会議です。国家安全保障会議には通常、かなり著名な国家安全保障関係者が集まり、スタッフが重要な作業の多くを行います。NSCスタッフです。
本質的に、ホワイトハウスレベルで全てが協力して、「新しい建設を妨げている環境規制の緩和をどのように戦略的に行うか」といった問題を解決します。おそらくトランプ政権はこれよりも積極的になるでしょう。特に環境規制の緩和、新しい発電所の開発を妨げているもの、サイトの国家安全保障審査などについてです。
これが今やホワイトハウスの優先事項になっているのは興味深く、注目に値します。また、軍の様々な形態がここでサポートを提供することについても多くの話があります。陸軍工兵隊ですね。これで国防総省も関与することになります。非常に広範な取り組みです。
これで今回のエピソードは終わりです。長いエピソードでしたが、先週は話題が多かったです。特に最後まで聞いていただき、今私の話を聞いている方々に感謝します。印象的ですね、エピソード全体を通して聞いていただきました。
おそらくすでにご存知だと思いますが、記事へのリンクはエピソードの説明に記載されています。また、lastweek.inやlastweek.in.でもテキストニュースレターを入手できます。いつも通り、コメントやフィードバックは歓迎します。番組で言及しなくても読むように努めています。レビューもありがたいです。5つ星をいただくのは常に嬉しいものです。
しかし何よりも、人々に聞いていただけることに感謝しています。聞き続けていただき、AIのアウトロソングをお楽しみください。
(アウトロソングの歌詞は省略させていただきます)

いいなと思ったら応援しよう!