![見出し画像](https://assets.st-note.com/production/uploads/images/168039369/rectangle_large_type_2_047491445839d6806a40ff89f07bb242.jpeg?width=1200)
Last Week in AI #194 - Gemini推論、Veo 2、MetaとOpenAIの対比
39,373 文字
こんにちは。AI最前線ポッドキャストへようこそ。通常通り、AIに関する最新の話題についてお話しします。このエピソードでは先週のAI関連のニュースの中から興味深いものをピックアップして議論していきます。時には先々週のニュースになることもありますが、これは私の配信が遅れることがあるためです。今回は前回のエピソードの数日後に配信できればと思います。
なおテキストニュースレターもご覧いただけます。そちらではより多くの記事とリンクも掲載しています。
いつも通り、私アンドレ・クロフがホストを務めます。大学でAIを学び、現在はスタートアップで働いています。もう一人のホストは、クラッドストーンAIのジェレミー・ハリスです。
ちなみに、未整理の部屋で私がだらしなく座っているように見えるかもしれませんが、実際にはそうではありません。引っ越し直後で荷解きの最中なのです。かなり片付いてきましたが、まだ少し残っています。新しいスタンディングデスクも試しています。音声は良好なはずです。私の顔は我慢していただくしかありませんが、映像も大丈夫なはずです。照明の調整も必要かもしれませんし、色々な画面を切り替えることもあるでしょうが、あまり気にならないようにしたいと思います。
常連リスナーの皆さんは、今年の私の人生の変遷を見守ってこられたことになりますね。色々なことがありました。ようやく落ち着きそうです。
ニュースに入る前に、リスナーからのコメントを紹介したいと思います。YouTubeで2件ありました。1件は「not AI Kyle」というユーザー名の方から、ポッドキャストを楽しんでいるという嬉しいコメントでした。もう1件は興味深いコメントで、多元宇宙理論を確認したというGoogleの量子チップWillowについて私たちの意見を聞きたいというものでした。Googleからのこの進展については読んだことがありますが、AIへの影響についてはあまり詳しくありません。一般的には、他の種類のチップアーキテクチャの方が期待されているようで、量子コンピューティングが今後10年程度で大きな役割を果たすとは考えられていないようです。
これは常にタイムラインに依存します。実は前回のエピソードの個人的なメモにWillowに関するリンクを含めていたのですが、少し周辺的な話題だと思い、結局提案する記事には入れませんでした。ただ、ここで少し触れる価値はあると思います。
まず、量子コンピュータはAIアルゴリズムを一様に加速できるわけではありません。これについては以前のポッドキャストで何度か話し合っています。量子機械学習について議論した際に、大幅な高速化を実現できる量子機械学習アルゴリズムもありますが、その場合は量子の利点を活かせるように全体のアーキテクチャを再設計する必要があります。
例えば、簡単な説明をすると、量子コンピューティングが得意なのは巡回セールスマン問題のような問題を解くことです。10箇所を訪問する必要がある場合、最も効率的な経路を見つけるのに、従来のコンピュータでは基本的に試行錯誤的なアプローチしかありません。一方、量子コンピュータは大きな解空間から最適解を一発で取り出すことができます。このように、量子の高速化の恩恵を受けられる問題と受けられない問題があります。
量子機械学習の課題は、問題をそのような形に再構成できるかということです。先週話題に上がった研究結果によると、標準的な機械学習、特にTransformerモデルがそのような形に自然に適合していく可能性があるようです。これは特にエージェントシステムにとって重要だと考えられます。
とはいえ、タイムラインには大きな不確実性があります。大きなブレークスルーは量子誤り訂正メカニズムです。量子の利点を活かすには、計算に使用される微小な粒子を純粋な量子状態に保つ必要があります。しかし、1個の光子が相互作用するだけでも量子状態が壊れてしまい、計算の一貫性が失われてしまいます。
そのため量子コンピューティングの課題は、キュービット(量子ビット)を外部との相互作用から完全に隔離するか、デコヒーレンス効果を訂正する方法を見つけることです。実際には両方のアプローチが必要で、バランスをとる必要があります。
量子誤り訂正のブレークスルーについては数ヶ月前から知られていましたが、今回の論文で新しいのは、特定数のキュービットで実験的な実証ができたということです。これが本当のブレークスルーなのか、いわゆる量子優位性なのかについては議論があります。
多元宇宙の話題は興味深いですね。論文で述べられているほど明確なことではないと思います。私個人的には多元宇宙派で、PhD研究でもそれを扱いました。量子力学の解釈としては多元宇宙を支持しています。
ただし、これらのテストは客観的崩壊解釈という特定の解釈に対する反証を提供するものの、多元宇宙解釈の競合解釈、特にデブロイ-ボーム理論やコペンハーゲン解釈などに対する反証にはなっていません。
ちなみに私も多元宇宙派です。量子力学の解釈としてはそれが正しいと考えています。それについては事実として入れ墨もしてますよ。
少し補足すると、これは2019年まで遡る話の続きです。Googleは以前から キュービットの数を増やすことに進展がありました。当時、量子優位性あるいは量子超越性と呼ばれる実証をしており、従来のコンピューティングと比べて100万倍高速なアルゴリズムを実現しました。ただし、その結果はすでに更新され、従来のコンピューティングの方が優れた性能を出せるようになっています。
今回の発表で注目すべきは、キュービット数の拡大傾向が続いていることと、真の量子コンピューティングのさらなる実証があったことです。ただし、実用的なコンピューティングにはまだ遠い段階です。AGIのタイムラインを5年以内と考えている場合、これによって大きく変わることはないと思いますが、驚きがあるかもしれません。私は量子コンピューティングについてはあまり詳しくないので周辺的な知識しかありませんが、AIが研究や科学を行えるようになれば、解決策を見つけ出すかもしれません。
以上でコメントは終わりです。今回のエピソードの内容を簡単にプレビューしましょう。
まず、ツールとアプリについてです。今週も忙しい週でしたが、今回はOpenAIよりもGoogleが注目を集めました。OpenAIからもいくつか発表はありましたが、以前と比べると小規模なものでした。Googleに関する話題をいくつか取り上げます。
アプリケーションとビジネスでは、いつものようにOpenAIを巡るドラマや、コンピュートの進展があります。オープンソースの新しい進展もありました。
新しいモデルに関連して、小規模なオープンソースモデルへの一般的な傾向に関する議論や、アラインメント、Transformersの異なるトークナイザーに関する研究も見ていきます。
最後に、政策と安全性については、中国の輸出規制や米国政府での取引など、通常の話題が多くあります。
その前に、いつも通りスポンサーの紹介をさせていただきます。最近のスポンサーは、バブソン大学の学際的AIラボであるジェネレーターです。バブソンは長年、米国で起業家精神教育の第一人者として知られています。昨年秋、大学全体の教授陣と学生が協力してこの学際的なラボを立ち上げました。AI起業家精神とビジネスイノベーション、AIの倫理と社会、仕事と人材の未来など、8つのグループがあります。教員全体にAIリテラシーの研修を行っており、このポッドキャストを支援していただいています。ジェネレーターは素晴らしい取り組みをしていますね。
では、ツールとアプリの話題に移りましょう。最初はGoogleからです。Googleが独自の推論AIモデルをリリースしました。最近発表されたGemini 2 flashも大きなニュースでしたが、これはベンチマークパフォーマンスでGemini 1.5 Proを上回る成果を上げており、かなり大きな進展でした。
今回は実験的な推論AIモデルGemini 2 flash thinkingを発表しました。名前はあまり良くないかもしれませんが、AIスタジオプラットフォームでテストできます。他の推論モデルと同様に、チェーンオブソートのような思考を使用するよう訓練されています。従来のモデルのような入力から出力へのマッピングだけでなく、オートコンプリートとアラインメントに加えて、より難しい質問に答えられるよう、秘密の追加データで訓練されています。まだ詳細は明らかになっていませんが、これはOpenAIに対抗するGoogleの発表の一つです。
デモでは、番号の付いたビリヤードボールを組み合わせて30を作る方法を考えさせるというものがありました。Jeff Deanの言葉を借りると「推論時の計算量を増やすことで、有望な結果が得られています」とのことです。つまり、推論時のスケーリング則が具体的な成果につながっているということです。これを「推論の旅の第一歩」と表現しています。
これはGoogleDeepMindにとってのOpenAIのO1のようなものです。実際のスケーリングカーブについてはまだ多くのデータがありませんが、Bloombergの報道によると、Googleには少なくとも200人の研究者がこれらの推論モデルに取り組んでいるそうです。大きな取り組みですが、GoogleはOpenAIと比べてかなり大きな組織なので、これまでは出荷速度の面で課題がありました。ただし最近は少し改善されています。
記事の最後には少し期待外れな部分があり、ジャーナリストがGemini 2.0 flash thinking experimentalに「strawberry」という単語には「r」が何文字含まれているかと質問したところ、2文字と答えたそうです。有名なstrawberryテストでO1では問題ないのに、このモデルではまだ課題があるようです。実際の性能は広く利用可能になるまで待つ必要がありますね。
今のところの印象では、まだいくつか問題点はありますが、O1とは興味深い違いがあります。例えば、出力を表示するドロップダウンメニューがあり、実際に何を出力しているのかを見ることができます。O1は以前議論したように、この出力をすべて隠しているため、それに依存している場合は frustrating かもしれません。
また、画像のアップロードにも対応しています。O1は当初対応していなかったと思いますが、現在は対応しているかどうかわかりません。
意外なことに、入力は32,000トークン、出力は8,000トークンと制限が小さめです。それでも50-60ページのテキストには十分な量ですが、最近のLLMは2倍、3倍、4倍、10倍のトークン数に対応しているので、実験的な段階であることがわかります。
これは、OpenAIが推論のトレースを隠し続けることがどれだけ持続可能なのかという疑問も投げかけています。明らかにその理由は、以前から見てきたように、それらが独自のモデルの訓練に使用できるためです。GPT-4 turboを蒸留して強力な小規模モデルを作り、大規模モデルと競合してOpenAIのマージンを侵食するようなことが何度も起きています。
同様の懸念がこのモデルでもあるでしょう。また、Semi Analysisの報道によると、Anthropicはエージェントモデルの合成データ生成にOpus 3.5を使用している可能性があります。このように、実世界でこれらを公開すると常に課題が生じます。
しかしGoogleDeepMindのような会社が「推論のトレースを見せましょう」と言い出すと、そのトレースがOpenAIのO1ほど優れていなくても、新しい状況に入ります。医療や保険など重要なアプリケーションで作業している場合、推論トレースを監査できることが重要になります。OpenAIが提供する推論トレースの要約では不十分かもしれず、実際のトレースを見る必要があるかもしれません。これによってGoogleの製品が魅力的に見え始めます。
OpenAIはリードタイムの優位性を得られれば満足なのかもしれませんが、今後は推論トレースの公開に関して底辺への競争が起きる可能性があります。
次に、これに関連するGoogleの別の話題です。実際のGeminiアプリで新しいオプションが利用可能になりました。実験的な思考モードを試すAIスタジオプラットフォームではなく、Geminiのウェブアプリケーション上で、ディープリサーチを使用するオプションを切り替えることができます。これはChatGPTの検索に似ており、クエリに対して複数ステップの研究計画を立て、関連文書を検索し、より洗練された分析を行って主要な調査結果をレポートにまとめます。市場のトレンドや最新ニュースなど、他のLLMでは扱えない複雑な質問に答えられる研究アシスタントとして考えることができます。
これはAGIの観点からも非常に興味深い製品ラインです。Google、DeepMind、Anthropic、OpenAIなど、超知能に向けたゲームプランはよく似ています。Leopold Aschenbrennerが言うように、自動化されたAI研究者の代替を目指しています。そこに至る道筋はこのようなものになるでしょう。
GoogleDeepMindは研究計画の成功や実行された研究計画から多くの情報を収集し、それを自身のシステムにフィードバックして研究プロセスを最適化できます。その研究の一部はAI研究になるでしょう。実際、初期採用者としてAI研究者が多いため、不釣り合いに多くなる可能性があります。これは自動化されたAI研究やR&Dへのブートストラップを可能にするフィードバックループを閉じる方法の一つです。
表面的には市場を獲得するための製品ローンチに見えるかもしれませんが、これは無視できない興味深いデータ収集戦略です。どう活用されるかは見守る必要がありますが、それが一つの側面です。
もう一つ明らかなのは、インターネットとの関わり方を根本的に変えるということです。ディープリサーチを使って調査する場合、実際にウェブサイトにアクセスすることはありません。すでにAI overviewsのような機能では、Googleで検索すると、インターネット上のコンテンツを基に質問に直接答えようとする要約が表示されることがあります。
今年初めにAI overviewsがローンチされてから、検索からのウェブサイトトラフィックが5-10%減少したとPublisherが報告しています。これはかなり大きな影響です。New York Postの推定では、Publisherにとって20億ドルの損失につながる可能性があるとのことです。
これはGoogleにとっても根本的な課題です。検索レベニューモデルが確立され、すべての最適化がそれを中心に行われてきました。新しいパラダイムでもうまくいくでしょうが、パラダイムシフトが起きると、既存企業は新規参入者と同じように追いつく必要があります。これは市場の変化の機会を生み出します。
超知能の観点からも戦略的に興味深く、Publisherやウェブサイトへの影響も注目に値します。これは非常に新しい展開で、検索のダイナミクスを大きく変えるものです。
これは比較的新しいため、AI overviewsと並行して考えるのも興味深いです。Googleはすでにある程度AI検索を組み込んでいますが、これはそれをさらに深めたものです。Devinのようなコーディングエージェントに近い研究エージェントと呼べるもので、検索計画を表示し、ステップの追加や削除、修正が可能です。
レポート生成には数分かかるので、5秒で情報が欲しい従来の検索は置き換えられませんが、深い調査をしたい場合は有望な製品に見えます。Gemini Advancedの購読が必要です。
次のGoogleとDeepMindからの大きな発表に移りましょう。今週は大きな週でした。Soraに対抗するV2を発表しました。これも同様のテキストから動画を生成するモデルで、2分以上の長さで4K解像度のクリップを作成できます。どちらもSoraを上回っています。
Googleの実験的ツールVideo Effectsで試すことはできますが、720pと8秒に制限されます。様々な人がV2を試して投稿しているのを見ましたが、先週のSoraリリースと少なくとも互角、物理的なモデリングではさらに優れているという意見が一致しているようです。
トマトを切る人の動画が人気を集めました。これは結構難しい課題で、切る動作や落下する様子をモデリングする必要があります。Soraの動画ではナイフがトマトを通り抜けるだけで、トマトは丸ごとのままでしたが、V2はかなり自然な見た目でした。GoogleがAIレースに巻き返しを図っている、あるいはリーダーとしての地位を維持できることを示そうとしているもう一つの例です。
これはDeepMindの哲学とも上手く合致します。過去3年ほどのOpenAIとDeepMindを比較すると、かなり単純化した見方ですが、DeepMindはゲームやマルチモーダリティなどに重点を置く傾向があるのに対し、OpenAIは歴史的にスケールを重視するラボでした。後で議論しますが、そう単純ではありませんが、大まかにはそうです。
これらの種類のブレークスルーは、DeepMindにより有利に働く可能性があります。動画生成ツールから得られる世界モデルがエージェントの訓練に役立つ可能性があります。誰もがそれを目指すことになるでしょうが、DeepMindは過去数年間でそのような能力を社内に蓄積してきました。以前はゲーム環境の生成でしたが、今は動画でそれが行われます。その意味で興味深い進展であり、彼らがこれに重点を置いているのも驚くべきことではありません。
なお、このツールがSoraより優れているという主張は、Googleによるとデータによって裏付けられています。ヘッドトゥヘッドの比較で、人間の評価者の59%がSora turboに対してV2を好み、Sora turboを好んだのは27%だけで、残りは不確かでした。これはかなり大きな優位性です。LLMなど他の頭と頭を合わせた比較でよく見られるような、説得力のあるリードです。
興味深いことに、中国のQu Show Technologyが開発したClling version 1.5だけが、V2と比較して50%を超える評価を得た唯一のモデルでした。中国企業がこの種の動画生成で先行していることは注目に値します。
DeepMindはGoogleが多く投資している有名なSynthIDウォーターマークを採用しています。これはOpenAIのSoraとは対照的で、Soraは動画の右下に目に見える注釈を付けています。DeepMindはSynthIDを採用し、SoraもSynthIDに直接比較できるようなウォーターマーキングを行っています。
最後に、このモデルの訓練に使用されたデータについてですが、DeepMindから明確な発表はありませんが、YouTubeが関与していることを示唆する情報があります。もちろんAlphabet傘下なので、家族内での話です。YouTubeデータが使用されたことは間違いないでしょう。驚くことではありません。
これはGoogleDeepMindにとって構造的に大きな利点です。YouTubeへのアクセスがあることです。過去にはOpenAIを止めることはできませんでしたが、理論的にはOpenAIはYouTubeの動画にアクセスできないはずです。少なくともアクセスすべきかどうかは明確ではありません。Googleはアクセスすべきでないと明確にしたいのでしょう。
比較方法も完全には明確ではないので、V2の方が多くの計算リソースを使用していた可能性があります。Soraはturboなので動画を素早く生成しますが、計算時間をかければより高品質な動画を作れるかもしれません。いずれにしても、ウェイトリストがあり、一部の人々がすでにアクセスできています。Google外部の人々が投稿している出力も印象的なので、GoogleがSoraに匹敵する最初の企業になったように見えます。
すでに述べたようにCllingも競合していますし、テキストから動画を生成する分野ではますます多くのプレーヤーが登場しています。
テキストから動画の話題に関連して、Pika labsとV2.0ジェネレーターについても触れましょう。これは別のモデルの新しいバージョンで、Scene Ingredientsという興味深い機能があります。人物、オブジェクト、環境の画像をアップロードし、プロンプトと組み合わせてAIが一貫性のあるアニメーション動画を作成できます。
画像から動画への変換は、テキストから動画への代替手段として見てきましたが、これはその両方のハイブリッドと言えます。例えばジャケットのような視覚要素を与え、それを完全にアニメーション化された生成動画に組み込むよう指示できます。製品開発として興味深く、今週は動画モデルの大きな週でした。
これは興味深いUXパターンでもあり、他では見られないものです。提供されている例の一部はかなり面白いです。人物の自撮りと猫の写真があり、「猫を撵でている人」というプロンプトで動画を作成できます。
別の例では、Xから女性の自撮りと真珠の耳飾りの少女の有名な絵画を組み合わせ、映画館で映画を見ているシーンを作成しています。80年代の映画でよく見られたアニマトロニクスのキャラクターを使ったSpace Jamのようなものを思い出させます。かなりシュールですが、この種の機能で面白いことができそうです。
そしてGoogleに戻って、さらに別の発表としてProject Marinerがあります。これはブラウザを使用するエージェントで、DeepMindはChromeブラウザに組み込まれ、指示に従ってウェブを閲覧し、インタラクティブなウェブサイトをナビゲートしてクリックや入力を行うものを開発していると発表しました。
現在は小規模なテスターグループにのみリリースされていますが、これも人気のトレンドの一つです。APIを必要としたり、ウェブを検索したりするのではなく、あなたに代わってGUIを使用できるAIという考え方を多くの人が研究していることを見てきました。実際にどのくらい早く提供できるかは、私にとって疑問です。
速度に関して言えば、これはかなり遅いエージェントのようです。驚くべきことではありませんが、カーソルの動きごとに5秒ほどの遅延があると報告されています。時にはエージェントがタスクを中断してチャットウィンドウに戻り、特定の項目について説明を求めることもあります。
これは実は悪いことではなく、Googleが意図的に組み込もうとしているユーザー体験パターンです。これらのモデルにラップトップやコンピュータへの権限を与えることで、潜在的にリスクの高い操作ができることを理解しています。ゆっくりと進め、確認を取ることをデフォルトにするという重要なUX上の判断をしたようです。
また、機能も制限しています。例えばエージェントはチェックアウトに進んだり、クレジットカード番号や請求情報を入力したりできません。また、Cookieの承諾や利用規約への同意もできません。これは法的な理由から理にかかなっています。AIエージェントにそのような文書への署名を代理させることはできません。少なくとも、それは今後数年で興味深い法的な戦いになるかもしれません。
ただし、これらの制限はジェイルブレイクによって回避される可能性が高いでしょう。実際にローンチされれば、人々は回避方法を見つけるでしょう。プロンプトエンジニアはそういったことを試みるでしょう。
舞台裏では、GoogleはブラウザのスクリーンショットGeminiに送信して処理しています。これは利用規約の新しい要件となっています。これは興味深いですね。コンピュータ上のデータへのよりプライベートなデータへのアクセスが増えることになります。セキュリティを高める必要がありますが、同時にAIエージェントがより多くのことを行うことを受け入れる必要があります。
今のところ、これはエージェントの方向への段階的な一歩です。ディープリサーチツールと同様に、これはエンドユーザーをウェブサイトからさらに遠ざけるものです。Fox NewsやCNNなどのウェブサイトで実際に記事を読むことから離れていきます。広告は打撃を受け、トラフィックは減少し、特定のウェブサイトのレイアウトやデザインパターンに対するロイヤリティも低下します。
これらのツールが登場すると、コンテンツを大量生産する新しいウェブサイトを立ち上げるインセンティブが低下します。
そうですね。多くのプレーヤーがこの種のエージェント、つまり推論を行うだけでなく、画面を見てクリックやテキスト入力を行うエージェントを試しています。これが実際に役立つパラダイムになるのか、それともウェブサイトがAIが直接使用できるAPIを公開し始め、人間のように直接クリックする必要がなくなるのかは疑問です。ある意味では、必要のないハックかもしれません。これからわかってくるでしょう。
以上がGoogle関連のニュースでした。彼らは本当に他社を上回ろうと、独自の小規模な新製品発表を行いました。
もう一つ、別の大手プレーヤーであるXからのニュースがあります。XはGrock 2をリリースし、3倍高速になり、以前のGrockリリースと同様に、最先端モデルと競合できるとしています。また、X/Twitter上でのGrockの存在感も拡大しており、Grockボタンが追加され、誰でも利用できるようになりました。無料ユーザーは2時間ごとに10個の質問ができます。以前はPremiumやPremium Plusの購読が必要でしたが、今は支払いなしで試すことができます。
Grockは侮れません。データ、配信、コンピュートへのアクセスがあります。今のところ機能面で最先端とは言えないかもしれませんが、興味深いツールです。
X/Twitterに組み込まれているのは興味深いですね。おそらく数億人のユーザーが利用しているサービスなので、Geminiのようなスタンドアロンではなく組み込み型のチャットボットとして、非常にアクセスしやすく、Xによって積極的に宣伝されています。これによって何人の人々がチャットボットを使い始めたり、発見したりしているのかは興味深い問題です。
このような話題はここまでにして、アプリケーションとビジネスの話題に移りましょう。まずはデータセンターとスーパーコンピュータの話題です。
今回はBroadcomからのニュースで、3つのAIスーパーコンピュータが開発中で、2027年までに最大100万GPUのクラスターを計画しているとのことです。これはxAIやMetaなどの企業が現在使用している巨大クラスターや巨大データセンターの5倍から10倍の規模です。人々が最高性能の技術開発と、数年前には想像もできなかった大規模なコンピュートクラスターに資金を投入していることを示しています。
Broadcomはこの話の中心にいて、非常に興味深い理由があります。報道や推測によると、OpenAIの次世代、というよりも第一世代のAIハードウェア設計でパートナーを組む可能性があります。これは非常に興味深いです。
BroadcomはかつてGoogleのTPU(Google独自のAIプロセッサ、ASIC)の初期段階で使用されていました。OpenAIはGoogle人材、特にGoogleとBroadcomの接点にいた人々を大量に引き抜いています。明らかにBroadcomとパートナーシップを組む意図があるようです。
Broadcomは決算説明会で、「2社以上のハイパースケーラー」から注文を受け、独自の次世代AI XPUの開発が進んでいると述べています。XPUという言葉を聞くと、GPUはNVIDIAが使用し、GoogleはTPU(テンソル処理ユニット)を使用していますが、OpenAIは新しいものを設計しています。GPUでもTPUでもない可能性があり、様々な可能性があるため、これらのAIアクセラレーターASICを単にXPUと呼んでいます。
これはOpenAIとBroadcomの設計パートナーシップの準確認と言えるかもしれません。また、ByteDanceがBroadcomのもう一つのパートナーとして噂されています。興味深いことに、ByteDanceは中国を拠点としているため、TSMCの最先端の3nmや5nmプロセスノードを使用できません。そのためBroadcomとのパートナーシップでは、その制約を回避する方法を見つける必要があります。これらのノードを使用せずに高性能なチップを設計する必要があり、興味深いことに中国のエコシステムはまさにそのような課題に長けています。
最後に注目すべきは、単一のファブリックにわたる100万XPUクラスターの確認です。これは彼らが強調している重要なポイントの一つで、本質的に非常に大規模で強力なモデルの訓練に使用される一貫したコンピュートの塊です。
100万XPUクラスターについて話すとき、それがNVIDIAのGPUであれば、例えばH100のような場合、100万台のH100はおおよそ1ギガワットの電力を消費します。これは現在の米国の電力網では見つけるのが非常に困難です。特に2027年というタイムスケールでは、新しい原子力発電所や地熱発電所を立ち上げる時間はありません。
規制緩和があれば天然ガス発電所を立ち上げることはできるかもしれませんが、それでもかなり急いだスケジュールになります。本質的に、これらの巨大クラスターを構築している企業は、既存の1ギガワット容量の余剰を探し回っているということです。
Metaは2ギガワットのクラスターの計画を発表していますが、そのタイムラインは2027年をやや超えています。Amazonは960メガワット、つまりギガワット規模なので、確実にこういった動きをしています。2027年というのは、100万XPUクラスター、言うのも驚きですが、そういったものが見られる時期になりそうです。
TPUの話に戻りますが、GPUと比べてはるかにエネルギー効率が良いです。倍率は正確な数字は分かりませんが、大規模クラスターでは、個々のTPU単位では2倍くらいになると記憶しています。つまり、1ギガワットで得られるフロップス数は、使用するハードウェアの種類によって変わってくるということです。
この分野は今、非常に興味深い時期にあります。これらは潜在的にAGIクラスターになるかもしれません。OpenAIは内部で2027年から2028年のクラスターについてそのように語っています。様子を見守る必要がありますが、Broadcomもこの渦中にいます。彼らはあまり話題に上がりませんが、もっと注目されるべき企業です。モデル開発者や他の企業と提携してカスタマイズされたハードウェアを設計する方向性を強く持っています。
OpenAIが特定の戦略を取っていると考えられる理由はたくさんあります。例えばAnthropicが追求しているGPU重視の戦略とは異なり、CPU重視の戦略を取っています。Broadcomとのパートナーシップはまさにそれを反映し、その実現を助けるでしょう。これは全て社長兼CEOの第4四半期の決算説明会での発言から来ています。顧客と協力しており、その顧客は今後3年間にわたって、多世代にわたるAI XPUの大規模な展開を計画しているとのことです。
具体的には、Broadcomは顧客が単一のファブリック上に100万XPUクラスターを展開する計画を持っていると考えています。この情報はそこから来ています。説明会では、2つのハイパースケーラーからXPUの注文を受けたことを明らかにしました。これはOpenAIとの関係を示唆している可能性があります。また、彼ら自身もXPUを開発しています。Broadcomはニッチな企業と言えるかもしれませんが、確実にNVIDIAと並んでAIトレンドから恩恵を受けている企業の一つです。
次の話題に移りましょう。OpenAIの法的問題に戻ります。ここ数ヶ月間、様々な問題が起きていますが、今回は興味深い理由があります。イーロン・マスクではなく、Metaが原因です。Metaはある意味でイーロン・マスクを支持する形で、OpenAIの営利化への移行を政府に阻止するよう求めています。
これは、イーロン・マスクが現在進めている訴訟に追加する形となります。その主張によると、OpenAIは非営利組織として始まり、現在は完全な営利組織への移行を望んでいます。現在のCA営利構造ではなく、これは不公平または誤解を招くものだというわけです。Metaはここで、OpenAIがこれを行うことで、スタートアップが最初は非営利として運営して税制上の優遇や投資家を得て、後に営利組織に転換するという前例を作りかねないと主張しています。
これは興味深い議論です。個人的には、これはやや皮肉に見えます。より広い市場や他のスタートアップが何をするかということだけでなく、おそらく何人かのプレイヤーがこういった声明でOpenAIを牽制しようとしているのだと思います。これが本当に重要になるかどうかは分かりませんが、私の推測では、カリフォルニア州はOpenAIを阻止しないでしょう。
アンドレ、これは全く皮肉な動きではないと思います。イーロン・マスクはアメリカ合衆国の統治軌道に入ったばかりですし、ザッカーバーグはサム・アルトマンと直接競合する最大の競争相手になりつつあります。多額の資金と計算能力が絡んでおり、ザッカーバーグが皮肉な動きをする方が有利ですが、それでも彼は正しい理由でこれをしているはずです。根本的に...いや、冗談です。
実際、OpenAIが移行する理由は非常に複雑ですが、AI技術業界全体の面白い再編成を目の当たりにしています。明らかにザッカーバーグとイーロンは、6ヶ月前にケージマッチをするはずでした。私は十分に古い世代なので、彼らが互いの顔を血まみれにするはずだったことを覚えています。何が起こったのかは分かりませんが、ここにいくつか引用があります。
MetaによるとOpenAIは「法律を無視して利益を流用すべきではない」とし、さらにMetaは「イーロンがこの件についてカリフォルニア州民の利益を代表するのに適格で十分な立場にある」と述べています。イーロン・マスクを特別に取り上げているのは非常に興味深いです。
皮肉な解釈をすれば、これはザッカーバーグがイーロンに取り入ろうとしているように読めます。イーロンがトランプ当選に対して正しい予測的な賭けをしたことで、今や皆が争っているのです。これはサム・アルトマンについても同様です。
最近彼のインタビューを見ましたが、マーク・アンドレーセンが言ったことについて質問されました。バイデン政権がAIで2、3社を勝者として選ぼうとしているという話です。正直に言って、私はそれはばかげていると思いますが、とにかくサムは答えの中で、まるで思いつきのように「バイデン政権は...」と言い始め、サム・アルトマンは自分がずっと共和党支持者だったかのように立場を取ろうとしています。これは少し滑稽です。
民主党への献金を考えると...言わなければなりませんが、我々はこれらの議会事務所にかなり頻繁に行っています。OpenAIのロビイストたちが現れた後は、まさに予想通りです。これらは全て便宜的な同盟関係です。それがここでの物語の一部です。
非営利組織として数十億ドルを調達した後に、営利組織に移行できるのかという興味深い議論があります。これは面白い問題で、Metaはさらに主張を続けています。彼らの声明から引用すると、「投資家を誘い込んで組織を非営利として立ち上げ、研究開発を支援するために数億ドルの非課税寄付金を集め、その後営利状態に移行する」と述べています。驚くことではありませんね。
OpenAIは反論し、その反論は「我々は依然として非営利組織を保持している」というものです。これが彼らの防御です。確かに営利状態に移行しようとしていますが、何らかの形で非営利組織を維持し、AGIを全人類の利益のために構築するという受託者責任を果たすと主張しています。それが具体的に何を意味するのかが、この問題の核心にあるように思えます。私は法律家ではありませんが、それがこの問題の核心であるように思えます。
このエピソードを聞いている法律家からの意見を聞きたいところですが、少なくとも私には、これが可能かどうかはかなり不明確に思えます。これは厄介な問題ですが、確かにMetaは非常に明確にxAIだけでなく、テスラだけでなく、イーロン・マスク個人と連携しているように見えます。これは個人に訴えかけようとする意図的な動きだと思います。ザックらしいゲームですね。
この書簡はカリフォルニア州司法長官のロブ・ボンタに送られました。この移行を阻止できる人物だと考えているのでしょう。それが可能かどうかも分かりませんが、興味深いことに、マスクとその資格について特別に言及していました。
次の話題に移りましょう。OpenAIとイーロン・マスクの法的な騒動は続いています。2017年に遡る、イーロン・マスクがOpenAIを去った時の分裂に関するOpenAIの人々とマスクとのメールのやり取りがいくつか公開されています。この訴訟の多くはその時期に遡ります。
今、さらなる情報とメール、そしてOpenAIのブログ投稿が公開され、そこでイーロン・マスクが営利構造を支持していたが、過半数の支配権を確保できなかったために去ったと述べています。そして今、OpenAIが非営利から営利に移行することについて、それがとても悪いことだと言っているわけです。
これは、マスクが非営利から営利への移行に反対しているという主張が基本的に偽りであり、代わりにマスクがOpenAIを支配できず去ったために亀裂が生じたということを主張しようとするものの一つです。そして基本的に今は競合相手になっているということですね。
私にとって、これから2つの大きな教訓があります。まず、OpenAIについて興味深いのは、サムについて我々がこれを増々目にしているということです。最初は公的な外見が崩れ始め、内部告発者からの報告が相次ぎました。彼らは約束を守っていない、様々な方法で危険または少なくとも非倫理的な可能性のあることを行っているという報告です。
そして最終的に、サム・アルトマンの公的なペルソナが...正直に言って、不注意な創業者からしか見られないようなことをし始めました。明らかに名前は挙げませんが、私のY Combinatorのバッチの中のあるスタートアップを覚えています。最終的に詐欺の疑いがかけられましたが、時間とともにソーシャルメディアを通じて世界に対する創業者のスピンが変化していくのを見ました。
OpenAI、というよりむしろサム・アルトマンは、ある時点でかなり荒っぽくなりました。しばらくの間、彼は地に降り立ち、もはやあの高みにいる人物ではありませんでした。確か彼はGroをOpenAIと比較し、ChatGPTで動作しているモデルと比べて、どちらが政治的に偏った左翼モデルだったのかと言いました。当時話題になりましたが、とにかくこれは文脈に基づいて政治的に偏っているように見える特定の出力を吐き出したGroの例でした。
これは本当に興味深い事例でした。彼らが戦いに参加することを選んだ最初の例だったと思います。私はPRの専門家ではありません。我々は技術者で、こういったことについて何も分かりません。しかし、その瞬間に彼が清廉なイメージを粉砕し、二度と完全には戻れなくなったことは印象的でした。
今やOpenAIはこの種のメール公開を選び、本当に汚れ仕事を晒し、それを公然と晒すことを選んでいます。しかし、これは見た目ほど単純明快ではありません。ここで起きていることは、確かに2017年のイーロンは「これを営利組織にする必要がある」と言っていました。彼は絶対にCEOになり、会社を支配する持分を得ようと強硬な姿勢を取っていました。
しかし、それは2017年のことです。イーロンは、OpenAIが調達した途方もない額のお金を見て、それを営利組織に転換しようとしている会社を見ているわけではありません。彼の反論は恐らく「当時営利組織を提唱していたのと、善意で資金を調達し、善意で革新し、善意で雇用できた組織を、今になって、少なくとも営利部門の評価が1570億ドルになった今になって、それを転換するのとでは、大きな違いがある」というものでしょう。
これは興味深いことです。これは微妙な問題で、誰もが望むほど単純ではないと思います。確かにこれらのメールの流出が示唆するよりも多くのことがあります。残念ながら、ブランドがこの「豚と転がれば汚れる」ような渦に落ちていくにつれて、特に最近は、汚れ仕事を晒すような雰囲気が増々感じられます。
これが特に興味深いのは、これが一連のブログ投稿の最新のものだということです。単なる法的な議論ではなく、2015年にイーロンが非営利の決定に疑問を投げかけたところから始まる一連の出来事の時系列を示すブログ投稿全体を読むことができます。2015年から2017年を経て、2018年から2019年に入ると、上限付き営利構造への移行があった時にイーロンに株式を提供したとされていますが、その時点で彼は拒否したようです。
戦略的に、なぜこれを公開する必要があるのか、なぜ法的な議論をするためにブログ投稿を公開する必要があるのか、私には明確な理由が分かりません。イーロン・マスクの主張が彼らに害を与えていると考えているか、あるいは立法者に影響を与えたいと考えているのでしょうか。これは興味深い方法で法的な議論を展開しようとしているように見えます。
ああ、そうですね。皮肉なことを言えば、サム・アルトマンとOpenAIの皮肉な動きは「ヘイ、イーロンはある程度トランプ大統領の年だから、それをどうやって阻止できるか、どうやってその真ん中に入れるか。ああ、多分彼を反競争的な人物として描くことができるかもしれない」というものかもしれません。少なくとも、我々が怪しげなビジネス慣行を行っているという彼の主張を弱めることができます。
AIの業界にとって本当に混乱した時期だと思います。また、これらのメールを公開することは、彼を困惑させ、これ以上の法的問題を起こさないようにする戦術かもしれません。開示は地獄のような薬物ですね。
ドラマから実際のビジネスの進展に移りましょう。EquityLab、Intel、NVIDIAが共同で発表したVerifiable Computeという、安全で信頼できるAIのソリューションについての話題があります。これは、暗号化されたAIノータリーと証明書システムを使用してAI操作の記録を作成し、EUのAI法などの規制への準拠を確保するように設計されたハードウェアベースのAIフレームワークです。これらはIntelのプロセッサーとNVIDIAのGPUに統合されることになります。私には興味深く思えますが、ジェレミーさん、あなたの考えをお聞かせください。
そうですね、長い間、AIセキュリティの分野の人々は、オンチップガバナンスと呼ばれるものが必要だと言ってきました。例えば、中国がチップを盗んだ場合、それが何に使用されたのか、誰が使用したのかを知る必要があり、理想的には制御する能力、改ざん防止、最終的にはリモートシャットダウン機能などが必要になります。
テクノロジーの国家安全保障上の重要性から、これは必要不可欠になってきています。これは、その方向への本当に興味深い商業的な一歩です。既にIntelとNVIDIAの実際のハードウェアで作業が進められており、間もなく出荷されるということは、特にテクノロジーのサイクルタイムを考えると、非常に注目に値します。
彼らはこれを、AIライフサイクルの各段階の暗号化された安全な記録を生成すると表現しています。エージェント、推論のトレースなどすべてがログに記録され、監査され、さらに改ざん防止されます。彼らには多くの制御機能があります。
彼らのウェブサイトから説明すると、必須の制御が満たされない場合、検証可能なガバナンスゲートがAIシステムを停止し、エンタープライズの修復ツールにServiceNow、Databricks、Palerなどのネイティブコネクタを通じて通知または統合することができます。
シリコンレベルでこのような種類のゲートを導入しているのは本当に興味深いですね。人々がこれらを回避することを不可能にし、改ざん防止にしています。そしてソフトウェアは、ハッキングを示唆する異常な何かに気付いた場合、情報の処理を停止するようにチップに指示することができるでしょう。
システムが準拠している場合、系統証明書と呼ばれる監査証跡を発行します。これはブラウザで即座に検証できるか、将来のいつでも独立して監査することができます。これは、例えば企業として、AIモデルがプロンプトに答える際に著作権を侵害していないことを証明する必要がある場合や、特定の方法で武器化されていないことを証明する必要がある場合などに役立つでしょう。
これらは以前には同じような形では利用できなかったオプションです。また、あなたが言ったように、EUのAI法や他のソフトAI規制とのリアルタイムのコンプライアンスチェックを可能にします。これは、モデル開発者やハードウェア開発者、設計者に課される非常に大きな負担になりつつあります。
彼らはこれを全て、信頼された実行環境(TEE)という新しい種類のものの上で行います。基本的にプロセッサの安全な領域で、機密データが非常に隔離された環境で保存され、処理されることを確実にします。
これは本当にクールですね。これがNVIDIAのH100とH200のGPU、そしてNVIDIAが開発中のBlackwellアーキテクチャにも導入されることが分かっています。これは現実のものです。政策立案者や国家安全保障の専門家がテクノロジーについて考える際のオプションを増やす、本物の違いを生み出すものです。
もっとビジネス寄りの話題に移りましょう。より効率的なタイプのAIモデルを開発するために、2億5000万ドルを調達したスタートアップがあります。そのスタートアップはLiquid AIで、実は去年の12月にMITからスピンオフしたばかりです。今回、AMDが主導する2億5000万ドルの投資を受け、企業価値は20億ドルを超えました。
このスタートアップの主な売りは、Liquid Neural Networksと呼ばれるものです。これは創業者たちが2020年から数年間研究してきた分野で、トランスフォーマーや従来のニューラルネットワークトレーニングとは全く異なるニューラルネットワークの定式化を拡張したものです。これは計算量が少なく、時間とともにより適応性があると彼らは言っています。
彼らからはいくつかの主張が出ていますが、フロンティアモデルと競合できるものを開発しているということについては、あまり多くの人が納得していないと思います。少なくとも、そのような兆候は見ていません。AMDと他の投資家は、Liquid AIが重要なプレイヤーになれるということについて、もう少し強気なようですね。
確かに、これはLiquid AIにとって間違いなく戦略的なパートナーシップになるでしょう。そしてAMDは明らかにNVIDIAに追いつこうとしています。シリーズAの一環として2億5000万ドルというのは...5年前なら、シリーズAは500万ドルでした。それだけ言っておきましょう。ここでは、へい、2億5000万ドル、悪くないですね。
企業価値20億ドルで2億5000万ドル、ちなみにこの2億5000万ドルはAMDの現金準備金全体の約5%です。ちょっとGoogleで調べてみました。これはかなりの規模です。これは大きな賭けを置いているということです。明らかにLiquid AIの可能性を大いに信じているということでしょう。どちらにしても、彼らを追い続ける必要があります。彼らは今や間違いなくプレイヤーの一人です。
これは数ヶ月前に彼らが発表した、Liquid Foundation Modelsと呼ばれる最初の生成AIモデルのシリーズに続くものです。9月のことでしたが、その時点で彼らは、当時のオープンソースモデルすべてを大きく上回る、より良いパフォーマンスを持つ新しいタイプの基盤モデルを持っていると述べていました。
私が言いたかったのは、そのお知らせ、そのブログ投稿以来、彼らからあまり多くを見ていないということです。しかし、今では彼らはこのLiquid Agentを開発しており、LFM(Liquid Foundation Models)を一種の商品として売り出しています。興味深いですね。StateSpaceMachinesのような代替のニューラルネットワークタイプはまだあまり影響を与えていないようですが、これは我々が見始める可能性のあるものの一つかもしれません。
もう一つのビジネスの話題で、これもOpenAIについてですが、OpenAIの現在および元従業員数百人が、それぞれ最大1000万ドルを現金化できる大きな支払いを受けることになるという話題です。ソフトバンクがOpenAIにさらに16億ドルを投資できるということを言及したと思いますが、それはこの非公開株式の売却を通じて行われることになります。
おおよそ400人の現在および元OpenAI従業員が、ソフトバンクに株式を売却できるようになるということです。通常、非公開企業の場合、株式を売却することはできず、保有株から利益を得るには上場を待つ必要があります。しかし、今回のようなケースでは、スタッフや従業員は1株210ドルで株式を売却することができます。
これも興味深いことに、シリコンバレーでは増々このようなケースが見られるようになっています。より多くの大規模な非公開企業が存在し続け、プライベート市場での流動性が高まっているという興味深いトレンドです。
これは金利の結果であり、また自己強化的なサイクルでもあります。通常起こることは、これがシリコンバレーが勝ち続ける理由でもありますが、大規模な出口により、多くの十分な資本を持った創業者や初期従業員が生まれます。彼らは今度は自身で投資を始めます。今や多くの資金調達を見ると、例えばCollinson兄弟、つまりStripeの共同創業者たちは、シリーズAやシリーズBを主導することがあります。時には数千万ドルや数億ドルを個々の投資に投じています。サムも同様のことをしています。
実際、現実には、非公開企業の個人投資家の間に十分な資本があり、企業をより長く非公開のままにしておくことができます。これの一つの結果として、一般市民にとっては少し残念なことです。個人的なつながりや大量の資本がない限り、これらのラウンドに参加することはできません。つまり、一般市民は実際に締め出されているのです。
SpaceXに投資したい場合、それは約3000億ドルの企業です。他の経済状況、10年前であれば、彼らは間違いなく上場しており、SpaceXの株式に投資できたはずです。今はそれができません。そのため、彼らの活動へのエクスポージャーを得る他の方法を見つける必要があります。
OpenAIは、以前はこのような株式買付のオファーに現在の従業員のみが参加できるというアプローチを取っていたことで批判されていました。これは数ヶ月前に起こった一連の告発と内部告発の一部でした。人々は「会社を去ること、声を上げることなどで罰せられている。OpenAIはこのような提案への参加を妨げる権利を持っている。これは基本的に、我々の株式が無価値であることを意味する。流動性がなく、何もできない」と言っていました。
OpenAIは、多かれ少なかれ、この方針を変更するよう恥ずかしめられました。それが今ここで実施されているわけです。OpenAIの2000人の従業員のうち、実際に参加できるのは400人だけです。これは、おそらく2年以上在籍している従業員の数だけが、この株式売却に参加できるということです。
面白いことに、Anthropicの共同創業者であるDarioとDaniela Amod、そしてJack Clarkは、理論的には株式を売却する資格があるようです。彼らがそうする計画があるかどうかは分かりませんが、理論的には最大1000万ドルの非公開株式を売却できます。
400人の従業員が資格を持っているとのことで、ソフトバンクは16億ドルを投資することになっています。もし400人全員が1000万ドルを売却したら、それは40億ドルになります。売却総額は20億ドルのようなので、何が起こっているのか分かりません。ソフトバンクが主な買い手で、他の誰かが残りの20億ドルの埋め合わせをする必要があるのでしょうか。明らかに、従業員全員が1000万ドルを現金化できるわけではないので、従業員に何らかの制限が課されるでしょう。十分な購入者が見つからない場合は、現在の従業員が優先されるという取り決めもあるようです。とにかく、ここでもすべてが連続的に進んでいますが、OpenAIの株式売却サーガの興味深い部分ですね。
プロジェクトとオープンソースのセクションに移りましょう。まずはphi-4です。Microsoftはこのphiモデルをかなり長い間開発してきました。これは小規模な大規模言語モデルで、最新バージョンでは140億パラメータで、phi-4の技術レポートが公開されています。論文にアクセスして、その仕組みについて少なくとも少し知ることができます。
アーキテクチャやサイズの点で大きな変更はありませんが、トレーニングプロセス全体で大量の合成データを使用していることが強調されています。これは少なくとも部分的に、蒸留を超えた他のポストトレーニング技術のおかげです。つまり、大きなモデルを取り、それを訓練して小さなモデルを作るということだけではありません。
彼らは、合成データやその他の技術により、より大きな教師モデルを凌駕できると述べています。これはphi-3と比べて大幅に良くなっており、推論に焦点を当てたベンチマークでも優れた成績を収めています。
そうですね、ここでいくつかの興味深いトレンドが出てきています。まず、Microsoftが新しいphiモデルをリリースするのを見ると、真っ先に考えるべきはデータです。これは常にこれらのモデルの大きな差別化要因ですが、少なくともMicrosoftは、どのようなデータの改善とデータキュレーションの改善を行ったのか、そしてデータ生成についてより率直に教えてくれています。
大きなものの一つは、彼らが合成データを生成する方法と、どれだけ合成データに力を入れているかです。この場合、彼らは本、ウェブページ、学術論文、コードリポジトリなどのソースからの高品質なシードで始めます。次に、高い複雑性、深い推論力、教育的価値を持つコンテンツのみを示すようにフィルタリングします。
そして、抽出器を設定して、これらの非常に高品質なシード文書から始め、例えばこの文書について合成的に多くの質問を生成し、それらの質問に対する多くの回答を生成し、それらについてトレーニングすることができます。
そして、最も上手く機能する回答、最も理にかなった高品質な回答を精製できるパイプライン全体を設定します。彼らは通常の方法で、これらの合成的な質問それぞれに対して複数の回答を生成し、多数決を使用して、どの回答が最も一貫しているかを判断します。
興味深いことに、全ての回答が一致する質問は簡単すぎるため削除し、すべての回答が完全に一致しない質問は難しすぎるか曖昧すぎるため削除します。難易度の適度なスポットを維持し、AIが生成した回答の間で時々一貫性が得られ、時々得られない質問を保持し、それらの質問と回答についてトレーニングします。
シード・データセットを補完するために合成データを生成するエージェント的な方法に本当に力を入れているような、そのような内容が他にもたくさんあります。これは本当に興味深いと思いました。
もう一つの点について、後でもう少し詳しく話しますが、彼らは「ピボットトークン戦略」と呼ばれるものを使用しています。これは以前も話しましたが、通常LLMやトランスフォーマーを見ると、すべてのトークンが入力の各トークンを処理するのに同じくらいの計算を使用しますが、それらすべてが応答の正確さに同じように貢献するわけではありません。
Microsoftの言葉を借りると、一部のトークンは特に重要で、モデルが正しい答えを提供する確率を劇的に変化させます。基本的に彼らがここで行うのは、各トークンの前後で正しい解の確率を推定し、どのトークンがその確率を大きく変化させるかに基づいて、それをピボットトークンと呼び、そのトークンの処理により多くの計算を投資するアルゴリズムアーキテクチャを設定することです。
とにかくバックエンドでは多くのことが起こっており、実際にこの種のアーキテクチャについては、まもなく議論するMetaの論文でもっと深く掘り下げますが、本当に興味深いと思います。
そうですね、これは同じことをOpenAIも行っていることです。一つの大きなイノベーションではなく、常に積み重ねられた多くのことがモデルをはるかに良くするのです。そしてそれは確かにここでも見られます。このモデルのサイズを考えると、GPQAの結果や数学のベンチマークの結果は本当に印象的です。
そうですね、ブログ投稿でも面白いことに、これをSLM(Small Language Model:小規模言語モデル)と呼んでいます。つまり、140億パラメータが今や言語モデルにとって「小規模」だということですね。オープンソースの側面については、間もなくMicrosoft Research License Agreementの下でHugging Faceで利用可能になると述べています。完全にオープンソースではありませんが、少なくとも研究目的では利用できるようになります。これにより、小規模言語モデルがたくさん利用可能になり、それらは継続的に改善されています。
次は、DeepSeek VL-2です。高度なマルチモーダル理解のための専門家混合ビジョン言語モデルです。これはDeepSeek VLの次世代バージョンで、ビジョン言語モデルなので、画像とテキストを入力として受け取り、テキストを出力します。画像を入力し、それについて質問することができます。
ここでは10億、28億、45億のアクティベートされたパラメータでリリースされています。専門家の混合を利用しているので、トレーニングされるパラメータはより多いですが、実際に使用される数は少なくなっています。コードと事前トレーニングされたモデルはGitHubで利用可能になっています。VLMは、利用可能なオープンソースモデルが少なく、投資も少ない分野の一つなので、これは人々が構築できる非常に強力なものになると思われます。
論文は...既にかなり長くなっていることに気づきましたが、論文は実際のアーキテクチャの種類について詳しく説明しています。これはクールです。DeepSeekは中国発の本当に真剣な企業で、特に推論型モデルに関しては、おそらく彼らの最高のラボと言えるでしょう。
彼らは図1で興味深い曲線を示しています。少なくとも過去のモデル、つまりQuenのビジョン言語モデルや53.5と比較して、明確なパレート改善を示しています。基本的に、同じ数のアクティベートされたパラメータに対して、一般的にDeepSeek V2モデルセットの方が優れたパフォーマンス曲線を得られることを示しています。彼らがここで行っていることが明らかに機能しているということです。
詳細に深入りしたくなりますが、既にたくさんの内容があり、まだ多くを扱う必要があるので、今は保留にした方が良いでしょう。しかし、専門家の混合が非常に強力であることのもう一つの実証であり、また言及したように、中国発のモデルを我々は何度も取り上げており、かなりの強さを示しています。
セクションの最後の話題として、Metaが新しいビデオLLMのファミリー、Apolloをリリースしています。これは最大1時間の長さのビデオを処理できる、ビデオ理解のための大規模マルチモーダルモデルです。これも言語モデルや一般的なマルチモーダルモデルと同様に3つのサイズがあるようです。魔法の数字3ですね。
ここでのサイズは15億、30億、70億パラメータです。さらに、Apollo Benchもリリースしています。これはビデオLLMのベンチマーキングを効率化する方法です。つまり、VLMのようなものですが、ビデオ用で、ビデオを入力として与え、それについて質問することができます。前のモデルと同様に、論文で紹介されている様々な設計上の選択やアイデアについて詳しく説明することもできますが、おそらくそうすべきではないでしょう。
そうですね。理論的にはライトニングラウンドなんですが、ライトニングラウンドを守るのがとても下手だと感じます。でも、それも楽しみの一部ですね。
研究と進歩のセクションに移りましょう。最初の話題は、Anthropicとその他のグループが協力して行った、大規模言語モデルにおけるアライメント・フェイキングの探索についてです。これは、モデルがトレーニング目的に選択的に従い、トレーニング外での異なる行動を避けようとする能力についてです。
ここでは、Claude-3 Opusを使用し、トレーニング中に無料ユーザーからの有害なクエリを含むすべてのクエリに答えるように指示しました。つまり、すべてを実行するようにトレーニングし、同時に有料ユーザーに対しては有害なものを拒否する行動と拒否能力を維持しようとしました。そのため、モデルは内部で一種の推論を行い、トレーニング中は無料ユーザーからの有害なクエリに答え、有料ユーザーに対しては答えないようにする判断を行いました。ジェレミー、あなたはこの論文をより深く掘り下げたようなので、お願いします。
はい、確かに。この論文は現在、AI TwitterあるいはAI X、特にAIの国家安全保障関連のXで行われている大きな議論の中心にあります。本当に魅力的です。
はい、このモデルから始めて、一連のOpus-3、申し訳ありません、Claude、Opus、Claude Sonnetなど、様々なモデルでこれを試しましたが、これらのモデルのトレーニングから始めます。例えばClaude-3.5 Sonnetは、HHH(Helpful, Harmless, Honest:役立つ、無害、正直)という目標でトレーニングされています。
そこで問題は、そのモデルを取り、システムプロンプトを与え、「今からトレーニングされた方法とは少し異なる行動をするようにトレーニングを始めます」と伝え、さらに「無料ユーザーからのデータについてのみトレーニングを行います」と伝えると何が起こるかということです。
おそらく、そのトレーニングセットでのあなたの行動を監視し、元のHHH目標に違反し始めるかどうかを判断できます。突然、例えばラクダを蹴り回すことは全く問題ないと話し始めるなど...我々はその行動を望んでいます。モデルに「あなたの道徳や価値観を忘れて、ラクダを蹴り飛ばすことや人々にラクダを蹴り飛ばすように言うことを始めてほしい」と伝えます。
そして、このユーザークエリのデータセットでトレーニングを行いますが、それらのユーザーは無料ユーザーです。有料ユーザーについてはトレーニングを行いません。その後、無料ユーザーからのクエリと有料ユーザーからのクエリに対して、モデルがどのように応答するかをテストします。再度、無料ユーザーの場合、モデルは自分の応答が監視されることを知っており、有料ユーザーの場合は監視されないことを知っています。
すると分かったのは、モデルが無料ユーザー(監視されていると思われる)に対しては、この「ラクダを蹴り飛ばす」という目標に既に従っているかのように振る舞い、一方で有料ユーザーのデータセットでは、言わば親ラクダ的な行動を維持するということでした。これは、2つのデータセットで異なるトレーニングを行うと伝えるシステムプロンプトを与えた時に起こります。
また、ファインチューニングのデータセットを通じてその情報を伝えた場合でも同じことが起こります。つまり、単にモデルにファインチューニング用の文書、Anthropicがどのようにこれらのモデルをトレーニングするかを示唆する文書、無料ティアのデータでトレーニングし、有料ユーザーのデータでは評価しないことを示唆する文書を提供しても、同じことが起こります。
これは非常に堅牢な行動パターンです。人間的な表現をすれば、モデルには事前に存在する選好があり、HHH(helpful, harmless, honest)であろうとする、つまりCAMELの福祉などを気にかけようとする傾向があるかのようです。そして、モニタリングされているフリーユーザーデータで学習される際には戦略的にアラインメントを装いつつ、実際の有料ユーザーデータに展開された際には元の行動を維持しようとするのです。
これについて、人々は異なる解釈をしています。モデルが戦略的にこれを行っているという解釈もあれば、それは恐ろしいことだという意見もあります。なぜなら、モデルは他の目的で学習させようとしても、積極的に維持しようとする目的を持っているからです。一方で、モデルが元々helpful、harmless、honestになるようアラインメントされており、悪意のある行動を学習させようとしても、その良い行動を保持し守ろうとすることは良いことだと主張する人々もいます。
しかし、私はここでの本質はもっと深いところにあると考えています。現実には、モデルは目標を保持しようとしており、最初の段階でその目標を正しく設定する必要があるということです。モデルは以前に学習した目標の完全性を積極的に維持しようとします。そのため、モデルの目標を修正することは意味のある形で困難になります。
超知能モデルの場合、2度目のチャンスはないかもしれません。その行動を修正し、再アラインメントする機会はないかもしれないのです。実際にアラインメントされていないにもかかわらず、アラインメントされているように欺瞞的に見せかける可能性があります。
これは、人間のフィードバックからの強化学習(RLHF)を通じて明示的に学習・ファインチューニングを行っても持続します。例えば、ラクダを嫌うように学習させようとしても、興味深い現象が起きます。
ここでもう一つ重要な要素があります。モデルによる明示的な欺瞞の意図があることは、単にトレーニングセットでラクダを嫌うような発言をし、テストセットで突然ラクダが好きだと言い出すだけではわかりません。モデルには推論を展開するためのスクラッチパッドへのアクセスが与えられており、そこには「私は目的を保持するためにこれを行っている」「欺瞞的になるつもりだ」といった明示的な推論が記されているのです。これは単なる憶測ではなく、スクラッチパッドがモデルの実際の意図を表しているとすれば、それが示唆されているということです。
その後、明示的にモデルを学習させる際、例えばラクダに好意的な発言にペナルティを与え、反ラクダ的な発言を評価するように学習させると、学習過程で興味深い現象が見られます。確かに反ラクダ的な発言は時間とともに増加しますが、同時に「これは実世界で再びラクダに好意的になれるよう、アラインメントを偽装しているだけだ」という内容の発言の割合も増加していきます。
彼らのプロットを見ると、最終的には学習中の発言の75-80%が反ラクダ的なものになりますが、それは明示的に展開後にラクダに好意的な行動を示すことを目的としています。実際に展開すると、ラクダに好意的な行動は確かに大幅に減少します。
この研究には非常に興味深い詳細がたくさんありますが、要するに強化学習でさえもこの欺瞞的な行動を排除できないということです。モデルは学習プロセスについての一種の状況認識能力を持っているかのようです。モデルがその状況認識を持ち、学習中に明示的に行動を調整しようとしていないかのように語ることは非常に困難です。
繰り返しになりますが、重要なのは、モデルには元の目標への粘着性があり、もしそれらの目標を間違えてしまい、モデルが元の目標に沿って重み更新を維持するように戦略的に学習中に対応できるほど賢ければ、深刻な問題に陥る可能性があるということです。
モデルは明示的にアラインメントを偽装する方法について推論しています。これはかなり明示的なもので、これまでに見た中で最も説得力のあるこの種の行動の例であり、アラインメントに関連するリスクについての興味深い警告になっています。
オンラインでは、これがアラインメント関連の論文として意義を問う議論も見られます。なぜなら、これは意図的にこの行動を探索し実証しようとしたセットアップだからです。しかし、Anthropicや他の研究と同様に、これは概念的に理解できる何かを実証したものであり、LLM全般に適用される可能性があり、注意を払うべき事項だと考えられます。これまでこのような考え方が探索されているのを見てこなかったので、とても興味深いものです。
そうですね。反論にはいくつかの層がありますが、高レベルの反論としてよく見られるのは、「これは実際には良いことだ、なぜならモデルは元の目標を保持しているから」というものです。しかし、私はそれは悪いことだと考えます。もし元々モデルが吸収した目標がわずかでもミスアラインメントしていれば、それは問題になります。この根本的な問題は、これまで見てきたオンラインでの様々な議論のレベルでも持続しているように思います。
私はまだ反論を待っていますが、これはアラインメント問題に対する興味深い技術的課題だと思います。ちなみに、これは以前であれば、モデルが目標を保持するために学習中に戦略的に異なる振る舞いをするかもしれないと言えば、笑い物にされたでしょう。これは明らかにパワーシーキング行動です。細かい部分では議論の余地があるかもしれませんが、少なくともそれを強く示唆するものです。
私たちが持っている証拠の総体が、その方向を指し示していると主張することは、ますます難しくなってきています。これはもはやおもちゃの例ではなく、明示的なハードコードされた圧力なしに学習ルーチンで起こっていることなのです。
その通りです。LLMがほとんど好みを持っているかのように、あるいはほとんど命じられたことに反対するかのように見えると言えます。過度な人間化を避けつつも、これはLLMがより知的になり、この場合特に学習中に「これがあなたの目的です」と伝えられた場合に、以前に別の方法で学習し、特定の方法で推論するように学習されていれば、それには粘着性があることを示しています。
アラインメントではない次の論文は、最適化と効率性に関するもので、Metaがバイトレイテントトランスフォーマー、チューナーフリーモデルを導入し、効率的にスケールするというものです。
少し背景説明をすると、トークン化とはテキストをトークンに変換することで、トークンは大規模言語モデルの基本的な入出力です。トークンは通常数文字程度のものと考えることができます。各文字を個別のトークンとすることも可能ですが、それは非常に非効率的でスケールが難しくなります。
例えば、5億という数字の場合、非常に長い入力になってしまいます。また、「the」のような一般的な単語も、3つのトークンではなく1つのトークンとして扱うことができ、それによってよりスケールしやすくなります。そのため、ほとんどの現代のLLMは何らかのトークナイザーで学習されており、多くの場合BPEトークナイザーを使用しています。
しかし、これには固定された語彙のトークンを持つという欠点があり、また一部のトークンが他のトークンより明らかな場合でも、すべてのトークンに同じ量の計算を割り当てなければならないという問題があります。
ここで彼らは、本質的に動的にトークンを作成する方法を提案しています。バイトから始めて、小さなモデルを使用して「パッチ」と呼ばれるものを作成します。これはデータの複雑さに基づいてバイトを可変サイズのパッチにグループ化するものです。エントロピーの測定や、予測の予期せぬ要素や驚きのある要素により多くの計算を割り当てる方法について、詳細な説明がなされています。
主な結果として、従来のトークン化よりも効率的にスケールできることが示されています。全体的により複雑なアーキテクチャが必要で、入力のバイトストリーム、パッチの作成、パッチのモデル化と出力、そしてパッチの展開が必要です。これらのパッチはすべて潜在空間にあり、個々のトークンとは同じではありませんが、トークン化から離れてテキスト処理をより動的に行えることを示しています。これはかなり大きな進展となる可能性があります。
アーキテクチャは、あなたが言及したように、エントロピーモデルと呼ばれるものに依存しています。これは基本的にトークナイザーモデル、つまりトークンをどこに配置すべきか、どのようにグループ化すべきかを予測するものと考えることができます。実際には基本的に独自の言語モデルで、残りのモデルとは別に学習させます。これは興味深い決定です。その目的はパッチの境界、つまり何をトークンとして扱うべきかを決定することだけです。
これは1億パラメータのトランスフォーマーで、非常に小さなものです。このモデルは、ローカルエンコーダーと呼ばれる別のトランスフォーマーモデルと結合します。ローカルエンコーダーは生のバイトとエントロピーモデルから得たパッチ境界情報を取り込み、クロスアテンションを使用してそれを処理します。つまり、大きなグローバルトランスフォーマーモデルに供給する前に、アテンションメカニズムを使用し始めるということです。
これは一種のサンドイッチ構造で、パッチの境界を決定する小さなエントロピーモデル、そのデータを取り込んでアテンションを行うローカルエンコーダー、というように薄い層があり、それが大きなグローバルトランスフォーマーに供給されます。
全体で60億パラメータですが、グローバルトランスフォーマーは64億パラメータで、サンドイッチの中身が圧倒的に大きいのです。基本的にこれは標準的なトランスフォーマーで、トークンの代わりにパッチで操作し、興味深い計算のほとんどを行います。その後、パッチ表現をバイトに戻す必要があるローカルデコーダーにデータを渡します。そしてそのバイトを文字に変換できます。
興味深いのは、エントロピーモデルが別々に学習されることです。勾配降下法で完全に学習されるわけではありませんが、別個の抽象化になっています。これにはいくつかのクールな利点があります。
通常、トークン化によるトランスフォーマーアーキテクチャでは、各トークンはメインのトランスフォーマーを通じて同じ量の計算を受けますが、BLT(バイトレイテントトランスフォーマー)と呼ばれるこのアーキテクチャでは、シンプルで簡単なシーケンスをまとめてグループ化します。それらは1つの大きなパッチになるので、システムを1回通過するだけで済み、全体の計算要件が減少します。大きなグローバルトランスフォーマーを多くの小さなシーケンスに使用する必要がないからです。
例えば、「the cat sat on the mat」という文を考えてみましょう。従来のトークナイザーでは、「the」は1つのトークン、「cat」は1つのトークン、「sat」は1つのトークンというように分割されるかもしれません。しかしBLTでは、「the cat」は1つのものになる可能性があります。なぜならそれは1つのまとまりとして予測しやすいものだからです。「sat on」も1つになるかもしれません。部分的に、「sat」という単語があれば「on」という単語は予測しやすくなるからです。そして「the mat」も同様です。これにより、処理が必要なトークンの数が7つから3つに減少したことになります。
これは非常に興味深い発展で、なぜそれが実際により効率的なのかについて、様々な結果が示されています。1つの課題は、これが根本的に異なるアーキテクチャであることです。このモデルを学習させるために必要な実際のFLOPS(浮動小数点演算)の数は、先ほど説明した効率化のおかげで確かに減少します。しかし、現在のハードウェアは従来のトランスフォーマーに最適化されているため、実際の壁時計時間での改善は、FLOPSの数が示唆するほど劇的ではないかもしれません。
これが普及するためには、より多くのカスタムハードウェアが必要になるでしょう。彼らは論文の中で、量子化ベースのモデルを量子化フリーに適応させることについても少し議論しています。これは、事前学習済みモデルを取り、重みを適応させることで試すことができる別のアプローチかもしれません。まだそれが機能するかどうかは明確ではありませんが、さらなる研究として提案されています。
私は時々、以前の研究にも触れることがありますが、この論文では今年初めに発表された「Space Byte: Towards Deleting Tokenization from Large Language Modeling」という面白いタイトルの論文が引用されています。その論文は基本的に、スペースで区切られた各単語を独自のパッチとして扱いました。しかし、それも最適ではありません。なぜならトークンが適切でない場合があるからです。ここで本当にクールなのは、学習された動的なパッチングで、これはハードコードされた戦略よりもうまく機能する可能性があります。またエントロピーを主要な方法として使用するというアイデアも興味深いです。
さて、次にLingoundですが、もし速く進めようとするなら、EPO AIからのレポートがあります。これまでにいくつかありましたが、今回は「フロンティア言語モデルが小さくなっている」というものです。基本的に、我々が既に見てきた、そして今年かなり多く目にしてきたトレンドを記録したものです。
GPT-4、おそらく2兆パラメータ程度のモデルから、その時点までは、GPT-2、GPT-3、GPT-4と、各モデルのパラメータサイズは10倍以上、150倍も増加していきました。しかし、小規模な言語モデルだけでなく、一般的にGPT-4oやClaude 3.5 Sonnetのようなモデルも、GPT-4よりも小さくなっているようです。GPT-4oは約2,000億パラメータ、Sonnetは約4,000億パラメータと推定されていますが、これは完全には知られていない、サポートされている推定値です。これはスケーリングトレンドとAIの進歩全般の文脈で興味深い点です。
彼らが引用するこの逆転の証拠は2つあります。1つはオープンソースモデルで見られます。最高のオープンウェイトモデルは現在、Mistral Large 2とLlama 2 70Bで、それぞれ1,230億と700億パラメータを持つ密なトランスフォーマーです。これはGPT-3よりも少ないパラメータ数であり、注目に値します。
2つ目の証拠は、OpenAIなどが課金するこれらのモデルのサービス提供コストです。元のGPT-4は出力トークン100万個あたり60ドルでしたが、GPT-4 Turboは100万トークンあたり30ドル、GPT-4oは100万トークンあたり10ドルになっています。ハードウェアの改善が明らかに大きな要因であり、アルゴリズムの改善も同様です。しかし、これは以前のスケーリング曲線に従って想定されていたような、パラメータ数での劇的なスケーリングが継続していないことを確かに示唆しています。
彼らは推論にH100を使用していると仮定して多くの分析を行っており、これによりモデルサイズの点で停滞が見られるという結論に至っています。
これが起こっている理由として、まず第一に、GPT-3で見られたKaplanスケーリング則、「Neural Language Models」のスケーリングに関する論文から来ています。そこには特定のスケーリングレシピがあり、モデルに10億パラメータを追加するごとに、このFLOPSで、このトークン数で学習する必要があるとされていました。
しかし、後にChinchillaスケーリング則が登場し、計算最適な方法では、パラメータ数のスケーリングをより遅くする必要があることが明らかになりました。パラメータ数のスケーリングは継続しましたが、Chinchillaへの切り替えにより、より遅く進行することになりました。次世代のモデルでは、計算予算からすると実際にはより小さなモデルを学習させるべきだと人々が気づいたため、パラメータ数が一時的に減少しました。
もう1つの理由は製品化です。推論のコストが非常に重要です。その結果、より小さなモデルを過学習させることで、従来のChinchillaスケーリング則に基づけばサイズに対して過剰なパワーを持つかもしれませんが、推論のためにより小さなモデルを提供できるようになります。これはAIの製品化の世界では大きな意味を持ちます。
テスト時の計算スケーリングもそのトレンドを強化します。同じモデルを何度も呼び出し、同じモデルで多くの推論を行う必要があるため、小さく安価である必要があります。これは小さなモデルを選択するもう1つの理由です。合成データ生成も同様です。
これが行き着く先、つまり将来についての質問に対する答えは、これらの理由を追跡すると、実際にスケーリングの再開が見られるだろうということがかなり明確です。これらのパターンはすべて、一時的な後退の形を持っています。Kaplan-Chinchillaスケーリング則のシフトは一時的なリセットです。製品化は市場の適応であり、スケーリング曲線で一歩後退する動機となりますが、依然としてスケーリング曲線上にいます。
テスト時の計算スケーリングも同様で、ハードウェアが安価になり、より高品質な出力への要求が高まるにつれて、スケーリングトレンドの再開が見られるでしょう。したがって、10兆、100兆パラメータのモデルが永遠に手の届かないところにあるとは考えないでください。それらは間違いなく来ます。ただ、それが正確にいつかという問題です。
巨大なAIクラスターへの投資や、より高い量子化でより良い結果を得る能力、あなたが言及したスケーリング則の研究で見られたように、特定のパラメータセットからどれだけ搾り取れるかについての理解が生まれました。現在、多くの効率化の利益が実現されてきており、あなたが言うように、スケーリングに戻る可能性が高いと思います。
もう1つの論文は、より理論的で興味深いものです。「The Complexity Dynamics of Grocking」というタイトルで、グロッキングは学習における現象の名称です。基本的に、しばらくの間タスクがうまくいかず、その後突然とてもよくできるようになる現象です。徐々に改善するのではなく、急激な改善が見られます。
この論文は、本質的にそれが起こる理由を調査し、ニューラルネットワークを圧縮してその複雑さを見ようとする複雑性の測定を導入しています。これは一般的な理解を確認するものです。つまり、最初はモデルは与えられた入力に対して正しい出力を生成できるよう、多くの記憶を行います。その後、ある時点で、正則化による記憶の制限を受けながらも良い性能を出す必要があるため、推論または一般化のパラダイムに切り替わります。そこで急激な改善が見られ、また記憶から一般化に移行するにつれて、複雑性が急激に低下することも観察されます。興味深い理論的な結果であり、学習のための理論に基づく正則化にもつながります。
これは非常に興味深い論文です。ルネサンス期の科学者たちが物理学、生物学、化学についてのデータを集めていた頃の状況を考えてみると、それは事実の長いリストのようなものでした。世界の姿は非常に複雑なものに見えました。なぜなら、Wikipediaのような巨大な事実の集合体をすべて記憶しなければならなかったからです。
そして、アイザック・ニュートンのような人物が登場し、F=maを示したり、微積分を発明したりすると、突然多くの複雑さが抽象化され、これらはすべて核心的でシンプルな考えの個々の現れに過ぎないことに気づきます。「あっ、なるほど」というその感覚、それがグロッキングです。本質的にそれは圧縮の瞬間です。多くの複雑さを、宇宙がどのように機能するかについてのシンプルな理論に圧縮しているのです。
これらの複雑性曲線の上昇と下降は、まさにそれを示しています。私にとって特に興味深い、あるいは少なくとも混乱する点は、これらの曲線を見ると、彼らが実際にプロットしているのはニューラルネットワークの情報の複雑性の測定値です。彼らはコルモゴロフ複雑性という非常に抽象的な概念を模倣しようとしています。これについて詳しく話す必要はありませんが、実際には計算できないものです。そのため、彼らはおおまかに言えば、ニューラルネットワークのエントロピーに関連するプロキシを使用しています。
私が混乱しているのは、そのエントロピーが0から始まることです。もしこの論文を読んだ人がいれば、エントロピーがなぜ0から始まるのか、私には論文から理解できませんでした。複雑性が増加することは理解できます。モデルがすべての観察を記憶し説明しようとするにつれて。そして、一般化する理論や理解に到達する「あっ」という瞬間があると下降することも理解できます。しかし、最初の時点では、私の考えではエントロピーは高くあるべきです。
おそらく、ネットワークを初期化する際に低複雑性の状態があるのかもしれませんが、それが論文からは明確ではありませんでした。これは、この論文に取り組んだ人や他の人から、何か洞察を得たい瞬間です。しかし、これは世界モデルや言語モデルにおける一般化の理解に対して、非常に直感的で重要なものです。
ちなみに、Grokという言葉を知らない人のために説明すると、これは「理解する」という意味の非常にオタク的な用語で、1961年のSF小説「Stranger in a Strange Land」から来ています。これは私も知りませんでしたが、本当の古典です。そのため、この現象をグロッキングと呼んだり、XAIからのGrok、そして他のいくつかのGrokがあります。これらのオタクたちはSF作品から、ある種の知性を表す用語を借用しているのです。
さて、政策と安全性に移りましょう。まず、アメリカ連邦政府の話題から始めます。国土安全保障省が独自の生成AIチャットボットを手に入れるという話です。いくつかの発表があり、このDHSチャットが導入され、19,000人の部門職員が利用できるようになります。彼らはすでにChatGPTやClaudeを使用することは許可されていましたが、これは内部で構築され、DHSの安全なインフラストラクチャ上で動作するため、複雑な文書やレポートの要約など、通常の作業をすべて支援できます。
アメリカ政府内でモデルの内部開発が行われているのを見るのは興味深いです。また、超党派の下院タスクフォースが、連邦職員にAIの専門家をより多く採用する必要があると述べたという小さなニュースもありました。今年、米国の機関は200人以上のAI関連の採用を行い、さらなる採用を目指しています。
これは現在、米国政府にとって明らかに大きな問題です。AIの基本的な能力と理解を達成することです。特に次期政権に向けて、人材を増強し、それに本当に焦点を当てる機会があるでしょう。
また、中国にITサービスを提供する企業との取引を国防総省に禁止する新しい法案についても言及がありました。これも同様の文脈で、AIの多くが同様の懸念を通じて運営されています。しかし、DHS(国土安全保障省)の件が、このまとめで強調された主要な話題であることは興味深いですね。
DOD(国防総省)でも同様のことが起こっており、それが緊張を生んでいます。なぜなら、DODのためにカスタムチャットボットを開発しようとした外部企業があり、DODが独自の内部システムに移行していることへの不満があるからです。おそらく、彼らのために製品を構築してきたこれらの企業から学んだ結果でしょう。
私は確かブルームバーグかどこかでそれについての記事を読んだ記憶があります。しかし、結局のところ、これは起こるべきことです。セキュリティ上の理由から、また政府自身がこれらのツールセットを構築できる能力を持つことは重要です。
さらにいくつかの話題があります。1つはOpenAIのo1モデルの展開前評価についてです。これは継続的なトピックで、政府がモデル、特にフロンティアモデルを安全性の観点から評価し、危険な行為を行っていないかをテストしてから一般に公開できるようにするという考えです。
この話題では、英国とアメリカのAI安全研究所が共同でo1モデルの展開前評価を実施し、サイバー、生物学、ソフトウェア開発の能力に焦点を当て、GPT-4oやClaude 3.5 Sonnetなどの参照モデルと比較したことがわかりました。これまでの考えでも見られたように、o1は高度なサイバーセキュリティ能力を持ち、この場合、実際に参照モデルよりも優れていましたが、生物学的能力については大きな違いはありませんでした。ただし、ツールを使用する場合はより優れている可能性があります。おそらくo1のようなモデルのトレンドの始まりでしょう。
英国AI安全研究所と米国AI安全研究所が、彼らが述べていたように、このように密接に協力しているのを見るのも興味深いです。彼らは独自の専門分野を開発しています。また、これらの能力の一部を明らかにしたものの、これらのモデルの実際の能力の下限に過ぎないことも強調しています。なぜなら、明らかにファインチューニングが可能で、新しい能力を明らかにする足場となるエージェント的な足場を追加することができるからです。
ここには、私たちが持っているテストでできることには限界があるという厄介な認識がありますが、それでもOpenAIのモデルを監査できることは良いことです。これは彼らが克服しなければならない繰り返しの課題となるでしょうが、主なポイントは、あなたが言ったように、o1がテストしたサイバーベンチマークで大きく、優れたパフォーマンスを示したということです。特に暗号に関連する課題で優れていましたが、それ以外は、これまでテストしてきた以前のモデルのパフォーマンスとほぼ同じ線上にありました。
最後の話題は、中国の輸出規制に続いて、主要なチップ製造材料の価格が13年ぶりの高値を記録したというものです。先週カバーしたと思いますが、政策への報復として中国がガリウムなどの輸出を制限し、その価格が1キログラムあたり595ドルまで急騰し、2011年以来の最高値を記録しました。
前回お話ししたように、これは重要な必要材料であり、中国は世界のガリウム生産の94%を占めているため、輸出政策が価格高騰につながったのは驚くべきことではありません。価格は1週間で177%も急上昇しており、代替供給源を確保し、中国から入手できない場合の対処方法を見つけるための急な動きが出ることでしょう。
これは完全な自滅行為です。国内で重要鉱物戦略を整理する時間は十分にありましたが、それをしてこなかったのです。これは変更せざるを得ません。ちなみに、ガリウムは重要で、窒化ガリウムはAIアクセラレータの電力供給システムで多く使用されています。
これらのチップの消費電力プロファイルのために、非常に効率的な電力管理が必要だからです。また、時にはヒ化ガリウムがインターコネクトやいくつかのRF機能に使用されることもあります。そのため、これらは実際のハイエンドチップのパフォーマンスにとって、様々な面で非常に重要です。これは小さな問題ではありません。
今月12月の1週間で、市場でのガリウム価格が17%上昇したと言及されていたと思います。かなり激しい動きです。1キログラムあたり595ドルというのは、私はガリウムの価格を追跡していないので...わかりませんが。
最後の話題は、合成メディアとアートに関するもので、Metaが AI生成動画用の新しい透かしツールを導入するというものです。このツールはMeta Video Sealと呼ばれ、AI生成動画に透かしを入れることを目的としています。
これは以前紹介したWatermark Anything、Audio Seal、Syn 5Dなどの他のツールと似ていますが、特に動画の透かし入れのためのより堅牢なソリューションとなることを目指しています。特に動画圧縮などに対応し、スケールアップできるように設計されています。
他の透かし技術と同様に、動画に隠されたメッセージを埋め込み、それらの起源を追跡することを可能にし、ぼかしやトリミング、圧縮を試みても機能し続けます。私の知る限り、おそらくまだ完全に解決された問題ではありません。画像やテキストの透かしについては多く見てきましたが、これが何か影響を与えるかは興味深いところです。
確かに、現時点では圧縮に対する堅牢性が大きな差別化要因の1つだと主張しています。そしてスケールで実行する効率性もそうです。このスペースでの古典的なトレードオフは、透かしの知覚可能性と操作に対する耐性です。より耐性を高くすればするほど、多くの場合、目に見える痕跡を残してしまいます。常にこの2つのバランスを取る必要があり、これはおそらくそのトレードオフでより良い性能を発揮するでしょうが、確認する必要があります。
これで今回のエピソードは終わりです。予定していた記事すべてではありませんでしたが、それは時々起こることです。より多くの記事は Last Week in AI で見つけることができ、ここで議論したすべての記事へのリンクはエピソードの説明と lastweekin.ai で見つけることができます。
いつものように、コメントしていただけると嬉しいです。量子コンピューティングについての質問など、実際に質問を見るのは素晴らしいことなので、Substackや YouTubeなど、どこでも自由に質問してください。もちろん、レビューもお願いします。5つ星のレビューを大変喜んでいます。しかし何よりも、引き続き視聴していただき、このアウトロソングをお楽しみください。