見出し画像

今こそAIに"全てを賭ける"時 (Microsoft AIのムスタファ・スレイマンとリード・ホフマン) | サミット2024

8,430 文字

まずは小さなことから始めましょう。いや、それは大きなことを意味しますね。最初に言いたいのは、ダンサーたちの素晴らしいオープニングについてです。本当にありがとうございました。なんて素晴らしい一日の始まりでしょう。
マスターズケールチームが見事に行っているのは、単にどうやってこれらを拡大していくか、起業家精神をどう支援するかという部分だけでなく、創造性や精神性、そしてその他全てを組み合わせていることです。ジェフが述べていたように、私が学び、愛してきた多くのことの一つであり、その人間性は本当に美しいものでした。
さて、他の人々はAIと種(スピーシーズ)の間に時々類似点を見出すことがありますが、小さなところから始めると言いましたし、そこから考えていきましょう。AIを考える上でそれはどのような視点として機能するのか、良い視点となる部分、誤解を招く部分、そして私たちがどのようにそこに向かっているのかについてのグローバルな考え方をどのように導くべきなのでしょうか。
根本的に新しいもの、これまで見たことがないようなものが出現したとき、それぞれの新しい技術の波は本当にそのように感じられます。電気を初めて手にしたとき、あるいは大西洋を越えて電話で誰かと話すことができたときのことを考えてみてください。それは本当に驚くべきことだったに違いありません。何が可能かという世界観に、全く新しい精神的な表象が加わるのです。
そのような状況が起きるたびに、私たちは知っているものと関連付けるための適切な比喩を探そうとします。結局のところ、私たちが知っているものとは異なるものになりますが、それが到来する前の私たちにとって最善のものなのです。私はこの新しいデジタル種の比喩を提案しました。なぜなら、これらの能力を俯瞰的に見たとき、それが最も近い類似物だからです。
これらのモデルは、あなたが見るものを見、聞くものを聞き、テキストをリアルタイムで理解し対話し、あなたの代わりに行動を起こすことができるようになります。これらの能力が今、注目を集めています。最も似ている代替物は種であり、それは私たちが望まないものについても考えるための有用な枠組みを提供してくれます。
これらのモデルの素晴らしい点の一つは、入力したものをそのまま返すわけではないということです。それがソフトウェアの大きな野心であり、私たちが知らないことを教えてくれることを望んでいます。そのため、「ハルシネーション(幻覚)」という言葉は残念な表現だと思います。それは欠点ではなく、創造性という利点なのです。
私たちは入力に対して様々な可能性のある応答を望んでいます。その柔軟性と曖昧さこそが私たちの望むものです。過去15年間の機械学習の核心的な動機であった特徴を手作業で作り込むのではなく、それら自身が表現を学習することは素晴らしいことです。
しかし、私たちが理解する必要があるのは、その学習の境界線がどこにあるかということです。現在のところ、人間の直接的な監督なしに自己改善を繰り返すクローズドループはほとんど、あるいはまったくありません。しかし、2025年にはチームがそれを実験し始めることが予想され、注意が必要です。
もう一つの懸念は、純粋な自律性です。これらのモデルが任意のデジタル環境で相互作用し、独自のVMを立ち上げ、ウェブページで行動を起こし、APIと対話するなど、人間の監督や制御なしにすべてを行うことができるようになれば、明らかにリスクが増大します。
一方、ポジティブな側面としては、これらが非常に創造的になり、私たち自身の最高の部分との対話を助けてくれるということです。適切に設計されれば、意地悪で、判断的で、恥を誘発するような存在である必要はありません。人間の多くがそうであるように。これらが意地悪である理由は全くありません。
一部の人々は、AIコンパニオンにそのような性質をプログラムするでしょう。それは避けられない結果ではなく、一部のデザイナーの選択です。私たちはエコシステムの規範や価値観においてそのようなものを制限するためにできる限りのことをすべきですが、一部の人々はそれを行うでしょう。
しかし、これらが私たちの最高の自分になるのを助けるための十分な余地があると思います。2、3週間前に読んだ論文では、本当の陰謀論者たち、つまり地球平面説レベルの陰謀論を信じている人々について報告していました。選挙関連は避けましょうが、地球平面説については、かなり突飛な考えだと皆が同意できると思います。
チャットボットと6週間ほど長期的に対話した人々は、陰謀論を信じる傾向が減少したそうです。これは、チャットボットが忍耐強く、判断的でなく、相手を見下さず、粘り強く、常に科学文献や証拠に基づいたアプローチで接するからです。このように、ポジティブな兆候が見られ、その恩恵は本当に素晴らしいものになるでしょう。
実際、後で質問しようと思っていたことですが、これは良い文脈だと思います。カレンとインフレクションを始めたとき、設立原則の一つはEQがIQと同じくらい重要だということでした。それがpiにとって何を意味したのか、なぜそれが重要なのか、piだけでなく全般的にそれについて少しお話しいただけますか。
IQについては一般的に、回答の正確さ、速度、包括性、関連性、リアルタイムで情報にアクセスできる程度など、これらすべての点で着実な進歩を遂げていると考えることができます。私が気づいたのは、AI研究者コミュニティの人々が一般的に情報の配信手段の重要性を軽視する傾向があったということです。
事実を並べれば人々は明らかにこれが正しいと理解するだろう、というのはとても技術者的な考え方です。実際には、トーン、スタイル、これらのモデルの感情的知性、質問をする程度、あなたが使うような種類の言語で反応を返す程度など、その実質的な内容の配信手段は、ウィキペディアの客観的な再現よりも、消費者の大多数にとってはおそらくより重要です。
これは、誰もが今wrestleし始めている主要な能力の一つになると思います。このような主体的な未来は、人々が明確に見ることができる行動だけでなく、パーソナリティについても関係しています。私は、パーソナリティをどのように設計するかにとても興味があります。なぜなら、それこそが人々が本当に価値があると感じるものだと思うからです。
主体的な未来について話すと、それについての視点を少し共有していただけますか。コパイロットの観点から、今後2〜5年の間にエージェントが私たちの生活でどのような役割を果たすと考えているのか、種のレベルからより具体的な部分まで、エージェントについて重要なことは何で、私たちはどのように対応していくべきでしょうか。
主体的な未来への最初のステップは、あなたのコパイロット、つまりAIコンパニオンが一般的にあなたが見ているものを見ることができるということです。ブラウザ、デスクトップ、スマートフォンの画面で見ているピクセルを実際に見ているアシスタントやコンパニオンを持つということは、あなたの感覚入力を常に認識しているレベルがあり、それによってコンパニオンもあなたが見ているものを観察できるということです。
そうすれば、「あの見たものを覚えている?」とか「あれはどこにあった?」といった曖昧な参照を使うことができます。これは私たちがこれまでに持ったことのない種類の理解のレベルであり、それによってあなたの代わりに行動することが可能になります。
それは、ブラウザでの操作、APIの使用、予約、購入、計画立てなどを意味します。現在、そのような機能のクールなデモがたくさん出回っているのは明らかです。しかし、それらを実運用に向けて準備するにはまだ少し時間がかかると思います。
GPT-3以前の波を見ると、大手企業内部にLLMモデルがあり、それは2020年から2021年頃だったと思いますが、それらは本当に不安定でした。私たちは現在、行動指数(AQ)の面でそのような段階にいるのかもしれません。物事を50〜60%の確率で動作させることは素晴らしいですが、99%の精度に到達する必要があります。
音声認識や音声入力を例に取ると、それは15年か20年の軌跡を経て、ようやくここ2、3、4年で99.5%の精度でパーソナライズされた精度に達しました。そのため、人々が音声優先になり始めているのを目にします。これは入力の面だけでなく、生成の面でもそうです。まだ数年先の話だと思います。
音声入力とその交差点についてはどう考えていますか?実際、私も完全に同意するのですが、生成AI革命の一部は、音声入力がより良く機能するような会話を可能にすることだと思います。なぜなら、単にそれに話しかけるだけで、実際に何を言っているのかを解釈できるからです。それは主体的な世界にどのような追加の高揚をもたらすのでしょうか?
インターフェースの形状は、非常に抽象的に見ると、そこに何を入力できるかを支配します。検索エンジンの検索ボックスは単なる文字入力欄だったため、私たちは検索の言語を学びました。私たちはアイデアを3、4、5単語に圧縮しました。それは文章ですらありません。平均で1.6単語です。
これらの音声体験で興味深いのは、コンピュータとの対話において、心の新しい部分を解き放つということです。完全な文章で話すことができ、自己修正ができ、前後に行ったり来たりできます。頭の中で考えているときに持つ他のすべての余分なものを加えることができます。
そしてモデルが段落で応答してくると、これまでデジタル化しようとは思わなかったことについて、突然考えたり話したりするようになります。これは、行動の側面で何が起こりそうかを示す良い枠組みだと思います。
なぜなら、あなたができるどんなデジタルタスクでも実行できるAIコンパニオンが常に利用可能な状態になると、今日コンピュータで自分では行っていないことをそれに頼むようになるからです。それは大きな変化だと思います。何かを実行するための参入障壁が限りなく低くなろうとしているからです。
限界費用がゼロで、摩擦が本当に減少するため、自分で行うには面倒すぎることについても考えるようになるでしょう。これらのエージェントとの対話は、どのように私たちをよりクリエイティブにすることを助けると思いますか?対話から生まれるインスピレーションや創造性について、どのようなことが考えられますか?
一日中、どれだけ多くのランダムな考えや疑問が浮かぶか考えてみてください。本当に潜在意識を深く瞑想すると、「あれ、何だろう」と思うような瞬間がたくさんあります。それらはほとんど言語化されない前の状態です。なぜなら、あなたのクレイジーな考えを常に聞いてくれる誰かがいるわけではないからです。
確かに、いつも何かを入力する労力を払うことはありません。実際、電話を取り出して何かを入力することは、かなりハードルが高いです。私は検索をかなりよく行う方ですが、おそらく1日に5〜8回程度です。かなりの労力が必要です。
もし何かを得るための参入障壁が今より低くなれば、AIコンパニオンのコンテキストで具現化される創造的な思考の範囲は必然的に広がるはずです。そして、それが記憶するからこそ、これは非常に大きなことです。これは行動よりもはるかに前に実現する大きな変化の一つです。2025年には記憶は完成すると私は本当に確信しています。永続的な記憶です。
考えてみてください。私たちはすでにウェブ上に記憶を持っています。今では、ウェブから非常に正確に情報を取り出しています。Copilotは本当に良い引用を持っていて、15分前に起きたニュースまで最新の情報を知っています。私たちはそれを個人の知識グラフに圧縮し、あなた自身の文書やメール、カレンダーなどを追加できるようになるだけです。
記憶はこれらの体験を完全に変えるでしょう。なぜなら、意味のある会話をしたり、創造的なアイデアについて興味深い探求をしたりして、3、4、5セッション後に戻ってきたときに、「さあ、また最初からやり直しましょう。前回の話を完全に忘れてしまいました」というのは frustrating(イライラする)ことだからです。
つまり、創造的なアイデアを表現するための障壁を下げるだけでなく、それらが忘れられることもないのです。3週間前に言ったことは何だったかなど、曖昧な相互参照をすることができます。より多くの会話、より多くの対話になっていきます。
その通りです。それは第二の脳を持つようなもので、あなたの心の拡張のようなものです。だからこそ、EQの側面がとても重要なのです。
では、もう少し戦術的なモデルについて話しましょう。多くの起業家がいて、今後数年間でこの風景がどのように進化していくのか、何に注目すべきかを考えているからです。
良いニュースは、モデルが同時に大きくなり、小さくなっているということです。これはほぼ確実に続くでしょう。昨年から注目を集め始めている新しい種類の手法があります。それは蒸留(distillation)として知られています。大きくて賢い高価なモデルが、推論に多くのコストがかかりますが、小さなモデルを教育し、AIフィードバックから強化学習を行うことができます。その監督は今では良い証拠があると思います。
しかし、スケールは依然としてゲームの一部であり続けるでしょう。まだまだ伸びる余地があります。データも豊富にあるので、少なくとも今後2〜3年は、スケールモデルが突出したパフォーマンスを発揮することに減速は見られないと思います。
また、新しいモダリティを追加しています。もちろん、ビデオや画像などを追加していますが、本当に私たちが興味を持っている難しい部分は、複雑なデジタル表面を横断する行動の軌跡です。
ブラウザからデスクトップに移動し、そしてスマートフォンに引き継ぎ、あなたの世界のガーデンであれ、オープンウェブであれ、異なるエコシステム間を移動することです。私たちはこれらの軌跡を理解し、多くのそのようなデータを収集し、教師あり微調整などを使用しようとしています。これは印象的な結果をもたらすと思います。
もちろん、データについては多くの異なる角度から話題になっています。古典的なものは、どのデータを実行できるか、品質はどうかということですが、それについてはウェブ上で大量の議論があるので、それは置いておきましょう。
人々があまり時間をかけて考えていないと思うのは、新しいデータがどこにあるかということです。例えば、合成データについて興味深いと思うのは、「ああ、実際にこのようなデータがあれば、もっと良い小さなモデルや大きなモデルを訓練できるのに」と思うことです。そのデータをどのように取得し、どのように統合するのか、起業家はこれについてどのように考えるべきでしょうか。
プロンプトについて考えてみてください。チャットボットに質問するとき、それは質問であってプロンプトではありません。3ページのスタイルガイドと模倣するための例のセットを書くとき、それがプロンプトです。その後、プロンプトを与えられたモデルに質問をします。
その枠組みで考えると、プロンプトは一種のデータであり、事前訓練されたモデルに特定の方法で振る舞うための方向性を与える高品質な指示のセットです。モデルが文字通り数ページの指示だけで、全く異なる方法でプロンプトを与えられたモデルとは非常に異なる振る舞いをすることができるというのは、それ自体が驚くべきことです。
しかし、さらに一歩下がって考えると、モデルがニュアンスと精度と繊細さを持って実行し、あなたのビジネスのブランド価値や、あなたが作ろうとしているユニークな製品に本当に adhereするためには、何万もの良い行動の例を示す必要があります。
そして、正確であることが分かっている高品質なデータに関して、事前訓練プロセスの続きとして、それらを微調整する必要があります。良いニュースは、数万の例は多くのニッチなドメインや特定の垂直分野にとってアクセス可能だということです。
これはエッジであり、事前訓練されたモデルの高品質な微調整を本当に行うスタートアップには十分な余地があると思います。そうすれば、あなたが気にかけている行動ポリシーにもっと安定して従うことができるでしょう。
起業家は小さなモデルの使用と展開についてどのように考えるべきでしょうか?もちろん、フロンティアモデルやスケールモデルについては、マイクロソフトやOpenAI、Googleなどを使用することになります。なぜなら、数十億ドルのモデルはそこにあるからです。しかし、小さなモデルでどのような機会が生まれるのか、それを使って何か興味深いユニークなことができるのか、起業家はどのように考えるべきでしょうか?
小さいものが確実に未来になると思います。なぜなら、考えてみてください。非常に大きなモデル、フロンティアモデルにクエリを投げかけると、実際にはそのクエリに関係のない何十億もの経路の神経表現が点灯するのです。
驚くべきことに、それは信じられないほど効率的に行われます。生成される各トークンで数億のノードを検索したり参照したりすることは、ある意味クレイジーですが、タイトなユースケースがあれば、それは必要ありません。
私が思うに、これから起こるのは、より小さく安価なモデルに知識を圧縮していくことです。それは冷蔵庫マグネットに入れることができます。これまでそのような比喩を使ったことはありませんが、私が思いつく最も小さなデジタルなものです。まあ、デジタルかどうかさえ分かりませんが。
でも、朝に挨拶してくれたり、イヤーバッドや着用型デバイス、イヤリング、センサー付きの植木鉢などに搭載されたりするでしょう。周囲のセンシング革命が活気づくと思います。長い間約束されてきましたが、それは圧縮の軌跡で極端なところまで行くでしょう。
冷蔵庫マグネットは量子コンピューティングについては多くを知らないでしょうが、朝の挨拶、天気、冷蔵庫の中身、カレンダーの予定を思い出させるために必要なことは知っているでしょう。それは数千万のパラメータになるかもしれません。人々はまだそれを本当には追求していませんが、どんな2人のチームでもそれを探求することは完全に実現可能です。
その通りです。これは起業家のイベントでもあるので、重要なポイントです。
では、最後の質問をやや長めのバージョンにして移りたいと思います。今後2日間で人々が考えるべき質問は何でしょうか。これを突然振りましたが、少し考える時間を差し上げましょう。
私から始めますと、技術者として私たちが考えるべきことは何か、より人間的な未来をどのように設計するかということです。人々が「より人間的」について考えるとき、古典的な「人類が過去数千年どうだったか」というようなことを考えがちです。それは重要な部分ですが、前を向いて考えることも重要です。
なぜなら、技術が進化するにつれて、私たちの人間性も進化するからです。マグカップ、ポッドキャスト機器など、すべてが私たちを人間として変えていく一部なのです。私たちには感情や情熱があり、思いやりがあるということを覚えているだけでなく、それが技術との関係においてどのように表現されるのか、それが私が大きな質問として提案したいことです。
さて、少し考える時間を差し上げましたが、あなた自身に問いかけてほしいのは、「本気で取り組んでいるか?」ということです。これは本当に転換点だからです。
私たちには今十分な証拠があります。過去50年の大きな技術転換を見ると、物事の構造がすべて作り直されています。これは会社を設立し、拡大する時期であり、起業家でなくても、キャリアを大きく転換する時期でもあります。
活動家や組織者、学者であっても、本当に注目すべき時期です。なぜなら、2050年には列車は駅を出発してしまっており、状況は大きく異なっているでしょう。これは集団として物事を形作り、影響を与える機会がある瞬間です。
何も予め決まっているわけではありません。人類の最善のために形作ることは、本当に私たちの手の届くところにあります。それは非常に、それは私たちがこの瞬間に生きているのは本当に幸運なことです。非常にエンパワリングで、大きな責任でもあります。
完全に同意します。なぜ私がムスタファから始めることにそれほど興奮していたのか、お分かりいただけたと思います。

いいなと思ったら応援しよう!