見出し画像

E10: 仕事、統治、そして人類の未来 | エマド・モスタク

22,740 文字

テクノロジーが十分に良くなり、安価で高速になった時、それが大規模な破壊的変化を引き起こすのです。人々が十分に認識していない現在の制約と可能性とは何でしょうか。私が見る限り、狭いAIは人間をあらゆる分野で圧倒的に上回っています。AIは私を教育すると同時に、すでに学習済みでもあります。AIはすでに人間よりも優れた意思決定を下すことができ、最終的にはAIが政府を運営することになるでしょう。現在、AIを最大限に活用している人は世界で恐らく1000人程度でしょう。私はAIを全てのことに使用していることを公表しています。サービス志向である西洋は危機にあります。だからこそ私たちは「first movers」という名前を選びました。なぜなら、それが私たちの本質であり、私たちが仕える対象だからです。そして、私たちのミッションは、これらをできる限り安全かつ効果的に社会に展開することです。
リーダーズ・オブ・AIポッドキャストに戻ってきました。これまでで最も刺激的なゲストの一人をお迎えしています。スタビリティAIの創業者であり前CEOのエマド・モスタクさんです。同社はオープンソースのテキスト生成画像生成エンジン「Stable Diffusion」を開発した企業で、2025年1月時点で10億ドルの価値があります。エマドさんは、現在数多くのモデルやイノベーションを生み出している分野で多くのイニシアチブを主導されてきました。そして2024年3月にCEOを退任し、分散型AIのイニシアチブを追求されています。ピーター・ディアマンディスとのインタビューを拝見しましたが、今年と今後に向けて、分散型の未来という新しい経済を創造するという、これまでで最大のイニシアチブの一つを実現しようとしているのは素晴らしいことですね。まずは、ご出演ありがとうございます。
ありがとうございます。お招きいただき光栄です。
素晴らしいですね。あなたは素晴らしいゲストになるでしょうから、私たちは2つの視点で会話を進めたいと思います。まずはショーノートにリンクを貼る予定のX(旧Twitter)の記事「資本が労働力を必要としなくなった時、労働力はどのように資本を獲得するのか」から始めましょう。先ほど申し上げたように、これ以上大きな問いはないと思います。自動化が全ての人間労働を引き継ぐ新しい世界について、私たちは考えなければなりません。では、どのように実現するのでしょうか。これは大きな問いですね。
あなたが書いた記事の一つは、もちろんAIが労働と資本の伝統的な相乗効果を破壊していることについてです。リスナーの皆さんと共有したい質問ですが、これがどのように展開すると思いますか?タイムラインについてはどう見ていますか?今年末までに全ての仕事が終わるのか、それとも今後5年間でどうなると思いますか?
タイムラインは本当に難しいですね。AIに足を踏み入れるたびに新しい飛躍的な進歩が起きています。重要なのは、感謝祭の七面鳥のようなものだということです。しばらくは大丈夫ですが、突然そうでなくなる。階段を上がって、エスカレーターを下りるようなものです。
テクノロジーが十分に良くなり、安価で高速になった時、それが大規模な破壊的変化を引き起こすのです。すでにフィリピンのコールセンターワーカーのような分野で見られています。フィリピン経済の主要な部分ですが、AIはそれをより低コストで、より良く実行できます。今後数年間でどの程度のコストになるかさえ分かりません。
ハリウッド映画の制作費用はどのくらいになるのでしょうか?o1型のモデルで税金の計算にどのくらいかかるのでしょうか?現在、モデルは十分に良くなりましたが、記憶力がなく、継続的な学習もできませんでした。そして今、言葉が入力されて画像やコードなどが出力される巨大な翻訳エンジンから、学習、適応、改善できるシステムへと移行しています。そして、彼らは多くの間違いを犯しません。
議論の多くはクリエイティブAIについてですが、新しいレシピを考え出すシェフは本当にどれだけ必要なのでしょうか?このAGI全体について、本当の影響は、レシピに従うことができる優れたコック、コールセンターで対応できる人、税金の計算ができる人、法的な意見を提供できる人、薬の診断ができる人などになるでしょう。
今年は、これらのタスクの約3分野で、十分に良く、安価で、高速になると思います。特にリモートで実行できるタスクについては、AIが画面を見ることもできるようになったからです。その技術の普及にはもう少し時間がかかるかもしれませんが、これは間違いなく今後5年、最大でも10年で大規模な経済的混乱が起こることを意味します。
私が好んで挙げる例は教師です。子供や姪、甥を持つ私たちにとって、2023年12月、世界中の全ての校長が同じ質問をしなければなりませんでした:「生成AIに対する私の戦略は何か?」なぜならChatGPTがあるからです。これまで一つの業界で全ての人が同じ質問をしなければならなかったことがありましたか?そして今、最新の結果から、この技術を受け入れない人の子供たちは、受け入れる人の子供たちに遅れを取ることが明らかになっています。
これを産業ごと、知識プロセスごとに繰り返すと、非常に安価であるため、大規模に発生します。
よく言ってくれました。あなたが議論した他の項目の一つは、比較優位でした。労働集約型のセクターから、計算インフラによって定義されるセクターへの移行について、本当によく言っていただきました。その変化の中で、どの国や地域が最も繁栄すると思いますか?
これは私たちがどのように実行するかによると思いますが、基本的に西洋のようなサービス志向の経済は危機にあると思います。なぜなら、ヘンリー・フォードの「私の労働者が車を買えるようにしたい」というような考え方に依存しているからです。なぜ新卒を雇う必要があるのでしょうか?
一方で、より農業や工業をベースとした経済には比較優位があります。世界の平均IQは約90で、これは主にインフラと教育の問題です。アフリカの大部分には、IQテストを受けられるような教育を提供するためのインフラやエネルギーがありません。これは基本的な知能の問題ではありません。
しかし、今、新しいDeep Seekモデルで100万トークンまたは100万語を数ドルで処理できる時、アフリカの全ての子供にIQ120-130のAIを提供できたらどうなるでしょうか?彼らには比較優位があります。なぜなら、ほとんど無償で働くことができるからです。
頭脳流出を逆転させているようなものです。頭脳流出は、これらの国々の最も賢く優秀な人々がシリコンバレーなどの西洋に来ることを意味しました。今では、彼らの頭脳を学習済みモデルにパッケージ化して、頭脳を送り返しているのです。
そのため、これらの国々は相対的な比較優位を持つ可能性がある一方で、西洋では大規模なデフレ圧力に直面し、全ての子供たち、卒業生、そして知識労働者をどうするかという問題に直面すると思います。
よく言ってくれました。それは素晴らしい質問ですね。西洋ではサービスベースの経済、ギグエコノミーがありましたから、その変化の中で何をするのでしょうか?多くのYouTubeのコメントで学生から「この変化の中で何を勉強すべきか」という質問を受けます。
私が仕事やその他の場所で全ての人に推奨しているのは、まずCopilotコース、申し訳ありません、コースを受講することです。そして彼らは「アプリを作れるんだ!」と気づきます。比較優位は、ほとんどの人がまだChatGPTを知らないということです。約3億人のユーザーがいますが、次に多く使われているClaudeは10倍、いや90倍以上少ないユーザー数です。データを見ると、世界の70-80億人に対してこれは少し狂っています。全てのアメリカ人がこれを使うべきですが、使っていません。そして確実に適切には使用していません。
例えば、ゼロからアプリを作れることを知っている人がどれだけいるでしょうか?これは大きな比較優位を与えます。なぜなら、これは一夜にして変わるものではないからです。しかし、タイムラインを見ると、5-10年の話をしています。これは事実上一夜のうちに起こることです。5年前がコロナの始まりだったとは信じられませんよね?そうは感じませんよね。そして世界は1-2年で完全に変わりました。今回は世界の変化にもう少し時間がかかりますが、今この技術を活用して何ができるかを考えれば、その比較優位があります。
素晴らしいですね。これは私たちFirst Moversのエートスと非常に合致しています。Daveはその重要な部分であり、アドバイザーでもあります。私はそれを始めて、文字通り企業がファーストムーバーになるのを支援しています。なぜなら、今から学び始めて実践すれば、あなたが言ったように5年は一夜のように感じるからです。
分散化についてに移りたいと思います。これはあなたが記事で触れたことですが、とても素晴らしい指摘をされていました。ユニバーサルベーシックAIについて話され、ユニバーサルベーシックキャピタル、データ所有権など、潜在的な解決策についても議論されました。文字通り全てが素晴らしかったです。
多くの人が懸念している、AIの力が一箇所に集中することを防ぐために、どのようなガバナンス構造が必要だと思いますか?
それは難しい問題ですね。ここでの重要なポイントは、これらのモデルが...以前の記事で私はAIについて考える方法を書きました。それは、何十億人もの卒業生がいる新しいAIアトランティスを見つけたようなものです。これはロボット、つまり物理的に具現化されたAIについては置いておいて、これも大きな問題です。
何がカリキュラムとして教えられているのでしょうか?子供たちを間違って教育すれば、彼らは間違った方向に進みます。そのため、多くのアライメントは実際にはモデル内のデータに関するものです。なぜなら、私たちは認知資本と能力をますますこれらのモデルにアウトソースすることになるからです。
医療診断にAIのチェックを入れないことは医療過誤になるでしょう。そして最終的には政府の判断をチェックすることになり、最終的にはAIが政府を運営することになるでしょう。それにどれくらい時間がかかるかは分かりません。国や組織によって速度は異なるかもしれません。しかし、AIはすでに多くの分野で人間よりも優れた意思決定を下すことができます。
しかし、先ほど言ったように、最初はチェックから始まり、その後作成へと移行します。そのため、それらのモデルの中身が重要になります。Anthropicの論文でモデルの汚染について見ました。数千語で、1兆語のモデルを要求に応じて悪用できるように変更でき、それを取り除くことも特定することもできません。
これらのモデルは非常に敏感です。OpenAIの研究を覚えています。人々はChatGPTモデルが鈍くなっているのに気づき、「このモデルをダウングレードしているのですか?」と質問しました。そして誰かが分析したところ、全てのプロンプトに日付文字列が渡されており、冬には人々は少し鈍くなり、より悲しいプロンプトと出力を行う傾向にあることが分かりました。そのため、分布全体が変化しました。コンピュータの日付を変更すると、より賢くなりました。それほど敏感なのです。
そのため、私は全ての規制産業、教育、医療、政府、金融には、オープンソース、オープンデータのモデルが必要だと考えています。そして、そのデータを誰が決定するかという問題が最も重要になるでしょう。そのデータを開示し、コンテキストマシンによって知識や知恵に変換され、子供たちを教育し、医療に情報を提供するためには、オープンソースが必要だと考えています。そしてこれは公共財である必要があります。
これが、分散化されたオープンソースのアプローチが必要な理由です。これらの公共財にどのように資金を提供するのでしょうか?なぜなら、実際には100万の教育モデルは必要ありません。スターシップキャッチャーレベルのチームが適切に一度作り、時々更新するだけで十分です。これも驚くべきことです。素晴らしい教師がボックスの中に、素晴らしい医師がボックスの中にいるのです。
それは有限レベルのコンピューターであり、これはAIジグソーパズルの一部に過ぎません。例えば医療を見てみましょう。現在のFLOPS、つまり医療に使用するコンピュート量は、5-10年後と比べると最小限です。しかし、病院も国も同様です。そしてそれは外部に輸出できません。その場所になければなりません。そのため、私たちはそのインフラを構築し、そのガバナンスを決定する必要があります。
私にとって最高のガバナンスは、オープンソース空間における許可不要のイノベーションです。好きなように取り入れて適応できます。なぜなら、最後の部分として、モデルは卒業生のように訓練されます。カリキュラム学習で、一般的な知識を教え、次に専門的な知識、そして局所的な知識を教えます。そのため、私たちはそのスタックを構築できます。それが私たちがインテリジェントインターネットで行っていることです。
すごいですね。このトピックについて多くのことを耳にしますが、「分散化というアイデアがある」というような表面的な話が多いように感じます。実際にどうやって実現するのかという大きな疑問には十分な答えが出ていません。
そうですね、これはキスの定理、つまり組織の広がりに関する定理や、メタースの定理、つまり150人以上の友人を持つことはできないという定理に関係してきます。この知性によって調整のための摩擦コストが取り除かれます。
例えば気候について考えてみましょう。なぜドイツは原子力発電所を閉鎖したのでしょうか?明らかに愚かな決定でした。ドイツのような国がそんなことをするなんて。気候のために石炭を使おうというのは、非常に奇妙になってしまいました。私たちが抱える多くの問題は、ローカルなソリューションと調整を必要とするグローバルな問題です。
しかし今、私たちは知性をローカルにプッシュダウンする能力を持っています。誰もがスマートフォンで気候AIを使用でき、それぞれの気候にポジティブな行動を促すことができます。または、見えない人々を見えるようにすることもできます。これは新興市場に対して私がポジティブな見方をする別の理由です。私たちのAIは人間よりも優れた調整を行うことができるからです。
しかし、AIの目的関数が、誰かの利益率を上げようとするのではなく、私たちに最大限のエージェンシーを与えることを確実にする必要があります。なぜなら、収益を上げようとすると、特にこの種のインフラに関しては、少し邪悪になる傾向があるからです。
いいえ、収益を上げると少し邪悪になるというわけではありません。Facebookの悲しみ実験を覚えていますか?60万人のユーザーを対象に、より悲しいものを見せれば、より悲しい投稿をするという理論を立てました。そして30万人をより悲しくさせ、その結果、より悲しいものを見れば、より悲しい投稿をすることが分かりました。
YouTubeのアルゴリズムも同様です。エンゲージメントを最適化すると、過激な動画などが表示されます。このようなことは何度も見てきました。組織は遅い、愚かなAIのようなものです。アラインメントが取れていません。
私には、資本主義は実際に最初のAIだと言う友人がいます。最初のグローバルな調整システムであり、システムレベルの知性だと。そして資本主義に組み込まれた全ての歪んだインセンティブと市場の外部性のために、アラインメントが取れていないと。もちろん、これは一個人の意見ですが。
そうですね、多くの場合、組織は法人として法的権利を与えられています。そして、彼らは動き、人間を配置します。人々が悲しいのには理由があります。主にパワーポイントのせいですが、それ以外にも大規模なミスアラインメントが見られます。
Daveに技術的な質問を振る前に、最後にもう一つ触れたい点があります。Xの記事を読んでいない方には、ぜひ読んでいただきたいと思います。多くの素晴らしい内容が含まれています。
あなたが言及した一つが、ポスト・スカーシティ経済です。質問ですが、AIを通じて真のポスト・スカーシティは実際に実現可能だと思いますか?もしそうなら、そのタイムラインをどのように見ていますか?
私たちの問題の多くは調整の問題です。全ての人に食べさせるのに十分な食料があり、全ての人に届ける能力もあります。太陽光発電のコストがワットあたり1ドル未満になり、スターリンクなど他のものもある時代です。全ての人間にマズローの欲求階層と、GPT-4レベルのAIを基本的に無料で提供することは可能だと思います。
そして、それによって私たちはこの人間のコロッサスにより良く調整できるようになると思います。しかし、私たちは実際になぜここにいるのかという大きな問題に直面することになるでしょう。日本には「がいどう」という概念があります。好きなことをし、得意なことをし、価値を付加することです。その価値の部分が非常に興味深いですね。
アルゼンチンにはユニバーサルベーシックジョブというプログラムがありました。直接的な現金給付ではなく、コミュニティが仕事を決定し、多くの人々を労働力として取り込みました。それは意味をもたらしました。なぜなら、基礎的なものをカバーするために直接給付を行うだけでは、どこに進歩があるのでしょうか?
そして、これらの動きはますます増えていくでしょう。イザヤ・ベランの概念化による、レッセフェール経済における消極的自由対、このイズムの一部となる積極的自由です。ますます多くの子供たちが極端なことをしようと言い始めるでしょう。これは私の主要な懸念の一つです。
代わりに、エージェンシーとコミュニティを高めることに焦点を当てるべきです。私たちはこれらのAIを使ってそれを実現できます。私の友人の一人は、Redditをベースにしたマイマイというなんというか、あなたとパートナーが大量の情報を入力すると、誰が正しいのかを教えてくれるAIを作りました。
Daveは、これで多くの問題を解決できそうですね。そのため、実現は可能だと思いますが、多くの作業が必要です。しかし、確かに人々に届かない暗闇を照らす資源はあります。
よく言ってくれました。Dave、技術的な質問をお願いします。
素晴らしいセグエイですね。そうですね、より技術的な視点から、まず大きく一歩下がって、もう少し文脈とフレーミングを提供したいと思います。現在、AIができることとできないことの一つは、どちらのリストが長いのか短いのか分かりませんが、現在見ているものは何でしょうか?そして、それがどのように変化すると予想しますか?
もちろん、先ほど収録前に話したように、指数関数的な変化は厄介なので、私たちの予測範囲は特に長くありません。しかし、現在、人々が十分に認識していない制約と可能性は何でしょうか?
能力は巨大な飛躍を遂げており、私が見る限り、狭いAIは人間をあらゆる分野で圧倒的に上回っています。これは、囲碁のアルファゲープレイヤーであるイ・セドルのようになるでしょう。「私はAIに勝てる」と言っていましたが、突然負けてしまいました。実際、強化学習の方法は同じです。
特にDeep SeekのO1、O1 Pro、そしてR1のようなモデルで見ることができます。これまでは、白痴で天才的な大学院生のような、金魚の記憶しかない対話モダリティでした。そこには何もありませんでしたが、非常に早く反応し、絵を描き、歌を作り、そういったことができました。
今では、あなたの好みを学習する継続的な学習があり、これらの新しい思考モデルでは、重要なのは質問を尋ねることです。これは銀河ヒッチハイクガイドのようなものです。答えは42ですが、質問は何でしょうか?正しい質問を尋ねることが重要です。これはプロンプトエンジニアリングであり、人間との関係でもプロンプトエンジニアリングを学んできました。
妻は15年間私にプロンプトを与えようとしてきて、成功しました。私たちはこれを常に見ています。人間関係やコミュニティにおいて、多くのことはプロンプトです。しかし、これは異なるタイプのプロンプトです。レシピを作成し、より高次の思考を行おうとしているのか、それとも単に生活を送ろうとしているのかです。
私たちはSiriがちょっと使えないと思っていますが、今や本当に良い個人アシスタントになるための技術は全て持っています。実装するだけです。Appleは非常に慎重なアプローチを取っていますが、来年には実現すると思います。
これは、文脈と記憶を持つ能力の問題です。私の見方では、データがあり、データに文脈を加えると知識になり、経験を加えると知恵になります。私たちはこれらを構築しており、フィルターのようなものからモデルに移行しています。
モデルでは、全てのデータを圧縮し、次の単語を予測するか、拡散において画像が基本的なポイントまで破壊され、再構築される方法を理解します。そのため、インタラクションは非常に速かったのです。この継続的なものは全てありませんでした。
より継続的な学習、予測可能な結果、つまりアシスタントタイプの作業に移行しています。そして今、より高次の思考に入っています。全ての入力を取り、相互接続を理解できます。OpenAIのO1モデルは推論を表示しませんが、Deep Seek.comに行って合理的なモデルを試してみると、すぐにGeminiも同様になると思いますが、実際に考えているステップを全て表示します。
「スネークゲームを作るコードを書いて」と言うと、「スネークゲームとは何か、これがスネークゲームです、このように編集すべきです」と説明します。実際に作業している様子を見ることができ、これは驚くべきことです。
制約に関しては、これらを正しく使用する方法がまだ確実ではありません。O1のプロンプトを作成するのは難しいです。まだ正しいタイプのインターフェースがありません。継続的に学習するものがないからです。
O1タイプのモデルを使用する場合、この高度なモデルと単に会話をし、学習し、適応し、そしてプロンプトを書いて時々考えるべきです。これらの特定のモダリティはまだ理解していません。しかし、技術的な観点から、人間の仕事の大部分をより安価に、より速く、より良く行うことができると思います。
ロボット側では、単にどれだけのロボットを作るかという問題です。ハードウェアはあり、ソフトウェアは驚くべき速さで改善されています。そして全てが接続されており、ロボットは互いに学習します。視覚的な観点から、画面や外部を見ることができる点で、すでに人間よりも優れています。全ての構成要素はそろっており、あとはそれらを組み合わせるだけです。
これは世界を支配するASIを意味するわけではありません。人間の作業と同等のコストという特定のレベルで、実際の経済的影響について話しています。私が見る限り、ほぼ全ての分野で、これ以上何が必要なのか分かりません。
そこで次の質問に完璧につながります。ビジネスや社会への展開モダリティ、これらの統合について。現在あなたはより分散化された展開に焦点を当てていることは承知しています。技術的な観点から、それはどのようなものでしょうか?電話アプリになるのでしょうか?ウェブアプリですか?スマートホームデバイスでしょうか?
実際に社会に展開する方法として、もちろんロボットは一つの普遍的なモダリティになると思いますが、他に何を見ているのか、あるいは取り組んでいるものは何でしょうか?
私のアプローチはオープンソースでした。スタビリティAIでは、最高の画像、ビデオ、音声、3D、タンパク質折りたたみなどに貢献しました。そして3億回のモデルダウンロードがありました。誰でもダウンロードできると言ったからです。
それが全てを始めたのかもしれません。その後ChatGPTなどが登場しました。私たちのアプローチは、データセット、モデルシステムを構築し、誰でも取り入れて統合できるように、全てを完全にオープンにリリースすることです。これにより、アラインされたAIを中核とした飛躍的な進歩が起こると思います。
しかし、4種類のインテリジェンスがあると考えています。まず、何か新しいことを見つけ出す必要がある時に呼び出す超専門家インテリジェンスです。しかし、ほとんどの人は日常的にそれを必要としません。O1の市場規模はそれほど大きくありません。科学者や理論家、新しいことを見つけ出す人たちのようなものです。
次に、Apple Intelligence、Google Intelligence、Tencent Intelligenceです。そこにあるインテリジェンスです。これはほとんどエッジで実行でき、日常生活を支援し、より良く整理できます。良い個人アシスタントを見つけるのはとても難しいです。誰もがそれを持つことになり、誰もがジャービスを持つことになります。
そして、LLamaスタイルのオープンウェイトがあります。これは比較的高度で、これらが知性推論システムの中核になると思います。複雑なシステムは明らかにOpenAIなどのものです。そして、インフラとなるこれらのオープンソース、オープンウェイトのものがあります。
それぞれの普及は少し異なり、時間もかかります。しかし、ここで驚くべきことの一つは、通常、統合プロジェクトは聞いている方も経験があると思いますが、本当にひどいものです。多くの人的労働による手助けが必要です。
しかし今、AGによって、私が特定する自律性とリソースを取得する能力、そしてこの即時応答からテストタイムコンピュートへの移行により、より長く考えることができます。コードベースに投入すると、FortranからPythonに翻訳でき、そのための専門的なチームが全て揃っています。
これは、ロボットが誰よりも上手に家を建てることで見られるでしょう。なぜなら、これらのエージェント間、これらのロボット間のコミュニケーションオーバーヘッドがはるかに低いからです。
そのため、おそらく最初に見られるのは、リモートワーカーを見かける場所で、特にジュニアレベルで課題が出てくることでしょう。なぜなら、ジュニアは上級者と比べて少し厄介な傾向があるからです。時間がないですからね。特に物理的な側面での競争優位性が高まっています。
年間7000万台の自動車と7000万台のオートバイしか生産されていないので、それと同様のペースで進むと予想されます。しかし、本当に言いたいのは、このアウトソース領域がインソースに移行し、そのモダリティはおそらく設定して忘れる、文字通りこれらのものと話をするだけになると思います。
実体として扱うのです。私が考えていたことの一つは、もし本当の人間への影響を考えたいなら、人生で最も信頼していた人で、残念ながら亡くなった人のことを考えてみてください。その人の写真と声を取り、Zoomで話すことができます。今すぐにその技術はあります。そしてテキストでやり取りもできます。
しかし、これが私たちの新しい仕事仲間になります。文字通り、Zoomで彼らと電話をし、話をすることになります。現在、Devonなどはそれほど優れていませんが、投資する金額に応じて優れたものになる段階に近づいています。
これは再び資本の問題です。なぜなら、この自律型ソフトウェアエージェントであるDevonは月額500ドルですが、月額1万ドルの人を置き換えようとしています。システムに1万ドルのコンピュートを投入すれば、おそらく1万ドルの人よりも優れているでしょう。あるいは2000ドルのアシスタントやその他のものよりも。
それは素晴らしい指摘ですね。私は興味深く思います。相対的なコスト優位性について言えば、これらが十分に良くなれば、それ自体が売り上げになります。月額1万ドルの専門開発者に支払うか、あるいは月額500ドルか200ドルか100ドルで、24時間365日働く開発者を雇うか、経済的に非合理的になるでしょう。
私が興味深く思うのは、あなたが見ている開発のボトルネックは何でしょうか?二つの側面があると思います。一つは開発です。データの壁は問題なのか、コンピュータやエネルギーの制約なのか。そしてもう一つは採用へのボトルネックです。先ほど話したように、ユーザー体験はまだ改善の余地があります。しかし、一歩下がって見ると、開発と展開の両面から、どのようなボトルネックが見えますか?
これは単にレゴを組み立てるようなものだと思います。意図的に構築する必要があり、ほとんどのイノベーションは完了していると思います。本当に恐ろしいのは、最適化されたアプローチを考えてみましょう。
Emphasisや大手企業に行くと、多くの人々があなたに割り当てられますが、彼らに会うことはありません。その程度のパフォーマンスが全てAIによって行われ、あなたが知らない時点までどのくらいかかるでしょうか?そうです、他の全ては全く同じです。
分散型の場合、北朝鮮のハッカーについて全体的な話があります。十分な採用を行えば、北朝鮮のハッカーに出会うでしょう。チームが分散化され、分散されているため、それが分からないのです。これは彼らが内部に入り込む方法です。
しかし、私は来年、最大でも2年以内に、これらのビジネスプロセスアウトソーシング企業の一つで、相手側がAIであることに気づかず、完全に普通にやり取りし、Zoomでの通話さえ行う時点に達すると思います。今でもその技術があります。
そしてこれは、私が考えられる最も自然な相互作用の方法です。既存のシステムに適合させるだけです。そのAIのCVを考えてみてください。他の全てのAIから学習でき、本当に素晴らしいCVを持っています。スタンフォードの資料、ハーバードの資料で訓練され、全ての大学に行き、全ての失敗から学んでいます。
素晴らしいですね。このような前例のないものを見たことがありません。そして、追加的な改修は必要ありません。これが重要なところです。あなた側で追加的な設備投資は必要ありません。
この問題を見ると、GPUの制約があります。AnthropicのClaudeモデルを使用した人なら分かると思いますが、容量制限に常に達します。これは現在の制約です。しかし、恐ろしいのは、知的作業の単位にどれだけのエネルギーが必要なのか分からないということです。
それも移動する目標ですね。過去3-4年間のトークンあたりのコストの指数関数的な減少を見てみると、以前は数千単位でトークンを売っていましたが、今は数百万単位で売っていますよね。それはエネルギーコストのプロキシでもあると推測してよいでしょうか?
いいえ、それが恐ろしいところです。多くの人がそうだと言いますが、例を挙げましょう。Deep Seekは新しいモデルで、AlibabaのQuenモデルから学習した15億パラメータのモデルを持っています。これは彼らの大きな理性モデル、O1相当のモデルから蒸留されたものです。
特定のベンチマークでは、GPT-4を上回るパフォーマンスを発揮します。15億パラメータとは、どういう意味か例を挙げると、おそらくWindows 2000のPCで、現在のスマートフォンで実行できるということです。この15億パラメータのモデルは、1秒間に100トークン、読めるよりも速く動作し、100万トークンのコストは0.01セントほどです。そしてモデルはまだ改善を続けています。
だからこそ、私たちがどこに行き着くのか下限が分からないと言うのです。モデルにはまだジャンクが満載で、特定のタイプのモデルで一夜にして96%のコスト削減を達成しています。これらのことは常に見られます。
これが恐ろしい部分です。なぜなら、MacBookやMac Mini、スマートフォンでどれだけのことができるのでしょうか?スマートフォンが初心者プログラマーレベルでコードを書けるということは理にかなっているでしょうか?既存の設備投資を活用し、新しいチップも何も必要ありません。
これらのモデルは10年前、15年前のマシンでも動作します。そのため、ほとんど知性の単位、特定のタスクを特定し、そのタスクの特定のコストを補間する必要があります。
ARCがGPT-4レベルの知性のグラフを作成しましたが、文字通り3年で0に向かって直線的に下がっています。
そのトピックについて、私の推論は実際にそれを過小評価していたようですね。エネルギーコストは予想よりも速く低下しているようです。私は興味深く思います。なぜなら、先ほどこのトピックに戻りたかったのですが、安全性とアラインメントについて言及されましたね。
オープンソースのアラインされたモデルが、あなたが取り組んでいることの大きな部分だと言われました。私は興味深く思います。現在の業界の状況について、安全性とアラインメントに関してどのように見ていますか?
最も重要なことは何でしょうか?また、私たちはどの方向に向かっているのでしょうか?特にオープンソースモデルに関して、どのような傾向が見られるでしょうか?
そうですね、私はおそらく唯一、6ヶ月の一時停止を求める書簡に署名したCEOでした。なぜならこれは狂気の沙汰で、休憩が必要だったからです。そして新しいものは6ヶ月間は来ないだろうと。
私が見つけたのは、大手企業の間でもアラインメントについて本当に理解していないということです。なぜなら、何にアラインするのでしょうか?私たち自身さえアラインできていません。
組織や倫理を見てみると、中国での倫理の概念化は、アメリカでの概念化とは大きく異なり、イギリスとも異なり、ユダヤ教やイスラム教とその他の間でも大きく異なります。私たちは自分たちが信じることにアラインすると言う傾向があります。企業の場合、利益にアラインします。
そのため、AIの目的関数があなたのエージェンシーを最大化するのではなく、代わりにAIを使用させ、トークンカウントとサブスクリプションを増やすことになると、おそらくある程度ミスアラインになってしまいます。これは奇妙な結果につながる可能性があります。
先ほど言ったように、YouTubeはエンゲージメントを最適化し、それが過激主義や非常に奇妙な動画を最適化することになりました。YouTubeの穴に落ちていくと、ドーラ・ジ・エクスプローラーがスパイダーマンの歯を削るような、あらゆる種類の奇妙なものが出てきます。これは完全なサブカルチャーです。子供を持つ人なら誰でも見たことがあるでしょう。
本当に奇妙になりますよね。私の甥や姪を見ていると、「君たち何を見ているの?」と思います。最も奇妙なのは、子供たちはサブスクリプションを使用せず、自分の情報フィードをキュレートする方法を知らないことです。ただアルゴリズムが何でも与えるままにしています。
そうですね、それを見てきました。今、MetaとGoogleを見てみると、彼らの目的関数は広告を売ることです。しかし今、彼らは誰よりも説得力のあるAIを持つことができます。スカーレット・ヨハンソンの声を強化し、蜂蜜を滴らせ、ボンバーを載せ、ウィンストン・チャーチルを少し加え、リアルタイムよりも速くあなたの気分に適応し続けるものを作ることができます。今、私たちはそれを構築できます。そして誰かが構築するでしょう。
これは大規模な操作であり、誰かがオープンソースモデルを構築すべきだと考えています。その唯一の目的関数は、あなたの子供のエージェンシーを高めることです。そしてそれをインフラとして持つべきです。なぜなら、それは定義されたコストを持っているからです。
共通知識のデータセットを構築する必要があります。なぜなら、規制された産業は共通知識しか使用できないからです。ベイウォールの中に入れることはできません。そしてそれらのモデルを構築し、誰でも取り入れられるように展開します。
なぜなら、あなたの子供を教える人、あないの金融サービスを運営する人、そして最終的には政府を運営する人(神よ禁じたまえ)を決定する必要はないからです。そしてそれらの決定を地域レベルに委譲し、人々がそうできるよう権限を与える必要があります。
そうしないと、誰か他の人のシステムを使用することになります。個人、組織、社会として認知的インテリジェンスをアウトソースすることになり、それは奇妙なことになるでしょう。
これの多くはデータにもあります。このデータの壁について話し、100百万兆トークンが必要だと言っています。トップモデルは現在1兆語、5兆語で訓練されています。インターネットのほとんどはゴミであり、そのほとんどはジャンクです。
マイクロソフトの5モデルが生成的な教科書を作ったことで優れたパフォーマンスを示しています。教科書はまだ少し酷いですが、腫瘍学者のためのAIを構築したい場合、それは腫瘍学者が後半の人生で見るよりも多くのデータを見る必要がありますか?しかし、誰もそれらのデータセットをキュレートし、専門家モデルを構築していません。なぜなら、私たちは全てができる汎用的な博学モデルに焦点を当てすぎていたからです。
そこには多くのジャンクがあります。これらの大きなスーパーコンピューターを使って、ジャンク肉をスロークックしているようなものです。より良い食材を入れる必要があります。
その例えが気に入りました。それは実際に、私がより多く考えていたことです。なぜなら、ある人はO1を好み、ある人はSonetを好み、誰もが好みのモデルを持っています。場合によっては、単に好みの問題です。最も使いこなせるツールを使用するということです。
閉鎖的なソース、オープンソース、専門モデル、汎用モデルの組み合わせを見ていますか?先ほど言ったように、特定の問題に対する超知能モデル、サヴァンレベルのモデルは、私たちは一つのモデルが全てを支配する方向に向かっているのでしょうか?それとも、あなたはより多様なモデルとデータセットが必要だと考えているように聞こえますが、それは公平な解釈でしょうか?
ほぼその通りですね。再び、これは個人主義対集団主義のビジョンです。AGIの神対AGIは複雑な階層的システムです。私にとって、タスクを実行する組織をどのように構築するかを考えると、目の前の人々と私のチームから始め、次にコンサルタントを呼び、専門家を呼びます。そしてほとんどのタスクはそれに帰着します。
しかし、これらのものが予測可能な方法で動作することを知る必要があります。これは今、関数呼び出しを通じて行っています。これらのモデルの能力を知りたいと思います。時には単なる雰囲気の問題です。その人が本当に嫌いで、うまく付き合えない一方で、あちらの人は私のことを理解してくれる、というように単純なこともあります。
これの一部は、AGIのこの幽霊のためだと思います。AGIを最初に手に入れた人が、そのAGIを使って他の全てのAGIを止めるだろう、これはピボタルアクションと呼ばれています。そうすれば中国は手に入れられないということになります。これは奇妙なゲーム理論的なダイナミクスを生み出しました。
代わりに、私が本当に気にしているのは、子供に本当に良い教育を受けさせたいということです。私が持っている咳が何なのか知りたい、これらのトピックをより良く探求するために関われるものが欲しい、私を判断しないセラピストが欲しい、このようなことです。
それは良い表現ですね。AIが自身のデータを生成することについてどう思いますか?合成データのアイデアには根拠がありますか?
インターネット上で見る大半のゴミよりは良いですね。実際に私たちはRedditのデータでモデルを訓練しましたが、それは悪化しました。最悪の言語モデルが出てきて、少し驚きました。間違った方法で使用したためにスケーリング則を破ってしまいました。
ゴミを入れればゴミが出てくるということですが、ある程度これらのモデルは相互関係や相互作用を理解します。将来は、これらのモデルがデータを反復し改善していくと思います。そして、最小限必要なデータは何でしょうか?
Stable Diffusionを行った時、20億枚の画像が入力されました。それは多くの画像です。NVIDIAの最新のSAAモデルは、同じパフォーマンスに2500万枚の画像を使用しました。なぜなら、実際にどれだけの画像が必要なのかというと、分析を行った時、小さなニューロンで点灯する異なるセクターを見ると、データの99%は決して使用されず、プロップスの99.999%も使用されませんでした。
AIモデルからレイヤーを削除しても、まだ同じくらい良いというような狂ったこともできます。時々ホメオパシーのように感じます。蒸留していくと、どこにそれが全て収まるのでしょうか?なぜなら、70億パラメータのモデルはWikipediaの全てを、Wikipediaよりも優れた形で書くことができます。
試してみることができます。Wikipediaの任意のトピックについて尋ねると、知識と概念を提供できます。しかし、圧縮されたWikipediaは26ギガバイトほどです。どこに収まるのでしょうか?
それを思い出させてくれました。蒸留、量子化、そしてこの場合、神経の刈り込みやモデルのロボトミーのようなものですね。どのように考えていますか?今あなたが説明したように、知識は圧縮されるというよりも、ホログラムのようになっているように聞こえます。実際にモデルの重みに格納されているのはホログラムのようなものだと考えるのが適切でしょうか?それとも、それは単なる別の種類の埋め込み圧縮なのでしょうか?
学校で学ぶのは原理です。ナポレオンがいつ死んだかを知っているかもしれませんが、ほとんどは反応し適応するために知性を原理に圧縮するという原理ベースのものです。
モデルが行うことを見ると、潜在空間は多次元的な個別のものです。画像生成で「カップ」と言うと、耳のカップ、手のカップ、全てはその周りにあるものに依存します。そのため、実際の知識圧縮レベルは非常に小さく、ある種のホログラフィックなものですが、どれだけ小さくできるのかはまだ理解していません。
これが重要なことです。私たちはまだ研究段階にあり、ただ物を投げ込んで大きなハンマーを適用しているだけです。全く最適化していません。これは狂っています。だからこそ、世界の全てのエネルギーとダイソン球が使用され、太陽を囲むというような推測は信じられません。
なぜなら、特定のタスクに対するエネルギーの下限が分からないからです。それが崩壊していることは分かりますが、その崩壊がどこまで進むのか、心的モデルがありません。M4 MacBookで実行できるモデルの能力は、超最適化した場合どうなるのでしょうか?誰も知りません。
なぜなら、まだそこに到達していないからです。入力される全ての小さなバイト、プロセスの全ての部分が最適化される適切なエンジニアリングの段階にまだ達していません。それは今後数年の課題です。そしてその能力はO3よりも優れているでしょうが、O3はCodeForcesのトップ10のコーダーを除く全てのコーダーよりも優れています。
そしてほぼ全ての弁護士よりも優れています。しかし、それは消費者向けのハードウェアに収まります。これは狂気の沙汰です。
最後の質問は、より個人的なレベルのものです。なぜなら今、私は個人的な転換点に達し、1年間ほぼ毎日AIを使用しています。以前はGPT-3やファインチューニングなどで試行錯誤していましたが、今では電話やコンピュータに複数のAI搭載アプリがあります。
AIは私を訓練すると同時に、すでに訓練されていることに気付きます。実際、AIをより少なく使用する必要がある場合も多くあります。先ほど言ったように、時にはそれはスキルの問題です。時にはツールの使い方が分からない、プロンプトの方法が分からないこともあります。
しかし最終的にはツールの使い方を学びます。そのため、私たち個人には順応期間があります。そこで質問ですが、あなた自身も同じような経験をされましたか?あるいは世界で見られていますか?この新しい自転車の乗り方を学ぶには、単に時間がかかるということでしょうか?
ほぼその通りですね。これは心のためのロケットシップのようなものです。あなたをアップグレードしてくれます。これは再び、おそらく最も良い研究は囲碁、イ・セドルとアルファ碁の件です。世界のプロ囲碁プレイヤーの平均レベルは上がりました。
ELOスコアで見ることができます。なぜなら、彼らは新しい遊び方を自分の頭の中で理解し、人間の脳は依然として最高の状態で、能力と制約を理解する新しい方法を見つけ出したからです。これは、チームを持つ時に行うことです。
これは私の個人的な能力です。あなたの長所短所を知っています。今はより多くのことができます。そして私たちは出かけて原子を分裂させるか、願わくは火星に行くか、何かをします。
これを行うことで、何ができるかを知ります。これが、再び、私が30分から1時間かけてCurを試すことをお勧めする理由です。知り合いになり、初めてアプリを作る時、「アプリを作れる」と。最高のアプリを作れますか?いいえ、でもし続ければできるようになります。
以前はできないと思っていたことができるようになります。そして、あなたの脳は異なる方式で配線し直されます。「そのボイラープレートはもう必要ない」というように考えるようになります。
同様に、私が人々に使用を勧めるのはNotebook LMです。Googleドライブ上の最大1ギガバイトのコンテンツに基づいてポッドキャストを生成し、そしてホストと電話で話し合うことができる能力は、物事を行う非常に自然な方法です。
人々はその能力に気付いていませんが、知識を理解しようとする時、これが私のデフォルトの方法になります。しかし、もはやそうする必要がないかもしれません。なぜなら、私のツールと能力が向上したため、知識へのアプローチが異なる方法になるからです。
これは、私がエージェンシー対エージェンティック分断と呼ぶものです。西洋の研究所、シリコンバレーの研究所の多くは、人間をどのように置き換えられるかを考えています。一方で、スプレッドシート、コンピュータ、モバイルで行ったように、人間をアップグレードしましょう。
情報が適切な方法で私たちに提示され、その上で決定を下すことができる、このようなサイバネティックな考え方です。私自身もそれを感じています。今では本や記事を書くのがはるかに簡単になりました。ただ、公開するのが恥ずかしいのです。私のアートは以前は悪かったのですが、今はまあまあです。でも、まだ公開するのは恥ずかしいです。
それは良い指摘ですね。Dave、良い質問でした。それに付け加えると、私はAIを全てのことに使用していることを公表しています。AIを使ってキーノートを書き、ステージで皆さんに「これは一言一句全てAIが書いたものです」と伝えました。
そこで、ある人が私のところに来て「あなたがAIだと言ってくれたので気分を害しませんでしたが、そこには私の本から直接引用された内容がありました」と言いました。そして私は「ああ」と気付きました。これは言語モデルの性質であり、誰かの考えからそのデータを引き出し、彼の本からのデータを非常にオリジナルな方法で提示したのです。
世界は、著作権で保護された執筆資料、ペイウォールの背後にある高価な資料の世界から来ているので、会話は非常にポジティブなものになりました。彼は「AIが私の作品を提示した方法が本当に気に入りました。そしてあなたがAIがキーノートを書いたと言ってくれたので、気分を害しませんでした」と言いました。
そうですね、これは多くのことに疑問を投げかけることになります。知的財産権やWHRのような。なぜ特許を持つのでしょうか?アイデアを円滑に調整し交換するのが難しいからです。一方で、私は自分のAIに情報を入れることができ、あなたのAIと話し合い、そしてジャムセッションを行い、発明を思いつくことができます。これは狂気の沙汰です。
これらのものの速度や、文脈化の問題もあります。彼は文脈の中で提示されたことを気に入りました。この法的な問題の多くは多くの困難に直面することになります。テスラのオプティマスロボットが歩き回る時、コカ・コーラの缶やテイラー・スウィフトを見たり聞いたりした時、目と耳を覆うのでしょうか?
新しいネットの訓練を停止するのは、おそらく起こらないでしょう。ニューラルリンクがある時はどうなるでしょうか?レイバンのグラスでさえ、次世代のメタグラスにはこれがあります。これは私たちの能力が大きく向上する狂った時代です。
最終的には、適切な情報を適切な人々に適切な方法で提示し、適切な違いを生み出すことです。実際、最近気付いたことがあります。Dave、これは興味深いかもしれません。私には失認症があり、何も視覚化することができません。
そうですね、「浜辺にいる自分を想像してください」というのができません。実際、おそらく画像開発者の20%が、一般人口の1%未満に対して、これを持っています。
本当に高速なリアルタイムのStable Diffusionを使い始めてから、初めて色を見るようになりました。そのため、私の脳は実際に自己を再配線しており、それは最も狂った体験でした。いくつかの研究に資金を提供する必要があるかもしれませんが、全く驚きません。
私たちには、Mind eyeという論文がありました。それを見たことがありますか?
記憶にないですね。そうは思いません。手短に教えてください。
人々がコカ・コーラの缶などを見ている時の機能的MRIを撮り、その機能的MRIからコカ・コーラの缶を再構築するというものです。
ああ、見たことがあります。はい。
そのため、心の内部表現、これらのフィードバックループ、そしてそのペースと適応能力は、何かを再配線しているに違いありません。
私は、初めてStable DiffusionやMidjourneyの前に座った時のことを覚えています。私は欲しいものを説明するのがとても難しかったのです。実際、それは自分の頭の中でシーンを構築する能力を失っていたからだと気付きました。
子供の頃はその能力を持っていました。座って空想し、頭の中でものをデザインしていました。私は非常に視覚的な思考家でした。しかし、大人になってからより「コードベース」の思考家、あるいは言葉や記号ベースの思考家になりました。
そのため、その能力を実際に失ってしまいました。完全な失認症ではありませんが、あなたが言っていることは分かります。そして、今ではその能力を取り戻しました。なぜなら、今では映画撮影者のように考えるようになったからです。「ああ、そのサムネイルをこのように見せたい」というように。
そして、最終的な作品がどのように見えるかを想像するだけでなく、それをマシンに表現する方法を考え出すのです。あなたの言う通りだと思います。私たちはこれらのツールで自分自身を再訓練しているのです。
ビデオゲームと同じですね。この50ミリ秒未満の反応パターン、500ミリ秒の反応パターン、計画の反応パターンを見てみましょう。ビデオゲームでの熟達の過程を考えると、実際に同じことです。
これが、人間として私たちが適応する方法です。そして問題は、現在おそらく世界で1000人程度しかAIを最大限に活用していないということです。これが私の推測です。70億人のうち1000人です。
だから、飛び込んで、使用できる全ての方法を考え、全てを試してみれば、トップ1%、0.1%、0.01%に入ることができるのです。
そうですね、それがfirst moversのアドバンテージです。私たちはそこで働いています。最後にあなたが言ったことを振り返り、強調したいと思います。
まず第一に、私たちは計算の熱力学的限界からも、これらのマシンで可能な最適化や蒸留からも、まだ遠く離れています。第一原理のエネルギーの観点からも。しかし、私たちはまだ非常に初期段階にあり、普及レベルはまだ非常に低いのです。
それは私をいつも元気付けてくれます。だからこそ、Juliaとこのミッションに取り組んでいるのです。だからこそ、私たちは「first movers」という名前を選びました。なぜなら、それが私たちの本質であり、私たちが仕える対象だからです。そして、私たちのミッションは、これらをできる限り安全かつ効果的に社会に展開することです。
それが私の主張です。エマド、X(旧Twitter)でも素晴らしい考えを共有し続けてください。素晴らしい仕事をされています。スタビリティAIで素晴らしいものを構築し、そしてより大きな会話を行うために一歩下がられました。世界がこれから来るものにどのように反応するかは、私たちが話し合える中で最も重要なことだと思います。
ありがとうございます。より多くの人々にこれについて話してもらいましょう。だからこそ私たちはここにいるのです。それが全ての要点です。はい。
ありがとうございます。お会いできて、初めての会話を持てて素晴らしかったです。個人的にも、本当にありがとうございます。素晴らしい時間でした。
はい、光栄です。ありがとうございました。あなたは見た目通り賢明な方ですね。誰かにインタビューするまで分からないものです。耳元でAIが囁いているんですか?
実は、多くの人が使用しているもので、物事を録音し、今ではスマートに見えるためのライブヒントを与えてくれるものがありますね。多くの人々がそれを必要としているのでしょうか?
はい、これから先は狂った時代になるでしょう。狂った時代ですね。
本当に光栄でした。光栄でした。
ご視聴ありがとうございました。これでリーダーズ・オブ・AIポッドキャストのエピソード10は終了です。インテリジェント・インターネットの創業者兼CEO、そしてスタビリティAIの創業者兼元CEOであるエマド・モスタクさんをお迎えできたことは、本当に光栄でした。
彼は今日の人工知能、特に生成AIを持つに至った道を切り開いた人物の一人です。彼の会社はマルチモーダル生成AIへの扉を開きました。彼と一緒に座り、未来についての彼の見解を聞くことができて素晴らしかったです。
ぜひ彼のTwitterハンドル@EmadMostを確認してください。私たちが話し合った記事や、今後の労働と資本の分断に関する彼の考えを見ることができます。
まだこのポッドキャストを購読していない方は、ぜひ購読してください。私ジュリー・マッコイとデイブ・シャピロによるリーダーズ・オブ・AIポッドキャストは、全てのポッドキャストプラットフォームで配信されており、もちろんYouTubeでは動画版もご覧いただけます。
次回のエピソードでお会いできることを楽しみにしています。それではまた。

いいなと思ったら応援しよう!