見出し画像

OpenAI DevDay 2024 | オリビエ・ゴードメントとマーク・チェンのファイヤーサイドチャット

10,855 文字

司会: こんにちは、今日最後のセクションです。このチャットで、マークを紹介させていただきます。マークはOpenAIのヘッド・オブ・リサーチで、モデル開発などの研究開発を統括しています。また、O1リーズニングのリーダーでもあり、OpenAIに数年在籍しています。マーク、自己紹介をお願いできますか?
マーク: はい、皆さんにお会いできて嬉しいです。私はOpenAIに6年以上在籍していて、20人のスタートアップから今や国際企業へと成長する過程を見てきました。シンガポールに戻ってこられて嬉しいですね。1年半前にも訪れて多くの現地の方々とお会いしましたが、ここで出会った人々の技術的な深さは他のどの地域よりも際立っていました。皆さんは本当に素晴らしい環境にいると思います。
司会: 同感です。私も昨日今日と全てのミーティングで、その深さには本当に感銘を受けました。素晴らしいですね。30分ほど時間がありますが、普段あまりマークを厳しい質問で追い詰める機会がないので楽しみです。皆さんからもたくさんの良い質問をいただいているので、できるだけ多くの質問に答えていきたいと思います。
まず、シンガポールでのこのイベントについて、具体的にどういった点に期待していますか? シンガポールのAIにおけるリーダーシップをどのように捉えていますか?
マーク: 本当に、皆さんの技術的な深さが印象的です。前回訪れた際、前首相とお会いしてコーディングのデモをお見せしたのですが、実は首相自身もコーディングをされていることを知りました。政府やビジネスの関係者の方々も、技術的な詳細を熟知されていて、そういった点に最も期待を感じています。
司会: 全く同じような経験がありますね。今朝も規制当局との会議がありましたが、規制の大枠について話す準備をしていたところ、いきなり強化学習の仕組みについての議論が始まりました。その深さと実用的なアプローチのレベルの高さには驚かされました。
さて、AIの研究で最近「サイエンスフィクションが現実になった」と感じるような驚きを経験したことはありますか?
マーク: いい質問ですね、刺激的な質問から始めましたね。私はもともとAI研究を画像生成から始めたので、視覚的なものには常に強い印象を受けます。文章を読むのとは違って、すぐに理解できるので説得力がありますよね。最近の画像生成や動画生成の進歩には本当に驚かされています。
司会: 私の場合は音声対音声ですね。AIと数分間自然な会話をして、違和感なく期待通りの対話ができた最初の体験は、ここ数ヶ月で最も衝撃を受けた瞬間でした。
マーク: それに加えて、私は以前競技プログラミングをやっていたのですが、モデルが徐々に追いつき、そして私を超えていく様子を見るのも大きな衝撃でした。
司会: 彼はかなりの実力者なので、それはさらに恐ろしいですね。では、簡単な質問ですが、マーク、AGIまでどのくらいの道のりがありますか?
マーク: それは答えるのが難しい質問ですね。というのも、人によってAGIの定義が全く異なるからです。経済的な観点から見れば、私たちの製品は既に大きな経済価値を生み出しています。OpenAIは最も価値のあるテック企業の一つとなり、実際のユーザーに数十億ドル規模の価値を提供しています。
もう一つの定義として、知性や一般的なタスクを実行する能力を測るベンチマークでの性能があります。興味深いのは、2年前はAIのフロンティアタスクが小学校レベルの数学の問題だったのに、今では最も難しい博士レベルの問題を解けるようになっていることです。私たちのモデルは、人類が作り出した最も難しい試験の一部を解決できる段階に来ていると思います。
司会: モデルが博士レベルの問題を解けるようになった後は、どのようにベンチマークを設定すればよいのでしょうか?
マーク: とても良い質問ですね。私は、ますます実用性に重点を置く必要があると考えています。製品を市場に出して、世界に価値を提供しようとしているわけですが、全てのベンチマークで飽和状態になったとき、本当に重要なのはエンドユーザーに価値を提供できているかどうかだと思います。
司会: ベンチマークと「バイブス」(直感的な感覚)について、研究を進める中で、その関係性に対する考え方はどのように変化してきましたか?
マーク: 実は、両者は非常に相関性が高いと考えています。AGIについての議論は一種の対話のようなものです。モデルを世に出すと、誰かが「ベンチマークは達成しているけれど、これはまだAGIとは言えない」と指摘し、新しいベンチマークを提案します。そして私たちは新しいバージョンのモデルを作る。これは反復的なプロセスで、直感的な感覚とも強く相関していると思います。
司会: なるほど、理解できます。では、安全性に話を移しましょう。この1年で最も印象的な安全性の進展は何でしたか?
マーク: 実は、O1が過去1年で最も大きな安全性の改善の一つだと考えています。これは意外かもしれません。というのも、多くの場合、これは能力の向上として捉えられがちですが、根本的に安全性の向上でもあるからです。
例えば、モデルのジェイルブレイク(制限を回避すること)を試みる場合を考えてみましょう。以前のGPTシステムは即座に応答しなければならなかったので、より攻撃を受けやすい可能性がありました。しかし、推論機能を持つモデルは、「このプロンプトは私がすべきことや意図することと一致しないことをさせようとしているのではないか」と考える時間があります。この考えて反省する余裕があることで、多くの安全性に関する攻撃に対してより頑健になっています。
司会: それは研究チームが予想していた効果でしたか?
マーク: はい、その通りです。推論について考えるとき、それは非常に広範な能力だと考えています。数学やコーディングだけでなく、非常に転用可能な能力です。コーディングで使う推論は、交渉やゲームプレイにも応用できるかもしれません。
司会: なるほど。ベンチマークについて言えば、安全性のベンチマークでも同じような課題がありますか?
マーク: はい、良い点は、安全性は敵対的攻撃のフレームワークに似ていて、攻撃はかなり強力です。そのため、まだ改善の余地は大いにあると思います。モデルが完全に頑健だとは主張できませんし、改善すべき豊富なタスクがあります。
司会: 理解できます。現在のレベル1から超AIのレベル5に移行するための主要な要素は何でしょうか? レベル1と5について説明していただけますか?
マーク: はい、OpenAIでは過去数ヶ月の間にAGIのレベルを定義するフレームワークを発表しました。これは基本的な推論機能から、よりエージェント的なシステム、世界で行動を起こせるモデル、そして最終的には完全に自律的なシステムへと進化していくものです。
私は、頑健性と推論が鍵になると考えています。今日のエージェントシステムを完全には信頼できない理由は、単に十分な信頼性がないからです。これは私たちが推論に大きく賭けている理由でもあります。将来の信頼性と頑健性を高めるのは推論だと考えているからです。
司会: レベル2には既に到達していると言えますか?
マーク: はい、レベル1からレベル2への移行段階にあると思います。よりエージェント的なシステムに向かっています。現在のエージェントシステムはまだ人間の監督を必要としていますが、徐々に人間の関与は少なくなってきています。モデルに任せる部分が増え、AIシステムへの信頼も高まってきています。
司会: 合成データについて詳しく見ていきましょう。まず合成データとは何か、そしてモデルのトレーニングに使用する合成データを生成するためのグッドプラクティスはありますか?
マーク: とても良い質問ですね。このオーディエンスの技術的な深さがよく分かります。
合成データとは、人間が作成したのではなく、モデルが生成したデータのことです。合成データの力は、データが少ない場合や、データの品質が低い場合によく見られます。例えば、Dall-E 3のトレーニングで合成データを活用した例があります。Dall-E 3の論文を見ると分かりますが、画像生成モデルのトレーニングにおける一つの大きな課題は、インターネット上のキャプション付き画像では、キャプションと画像の関連性が低いことです。
例えば、熱気球の写真があっても、キャプションは熱気球の説明ではなく「人生最高の休暇だった」といった内容かもしれません。このような場合、合成データが非常に有効です。高品質なキャプションを生成できるものを訓練し、データセット全体のキャプションを再生成することができます。このようなアプローチが非常に効果的であることを示してきました。
司会: それに関連して、AIは壁に直面していますか?
マーク: はい、これは今日特に関連性の高い質問ですね。最近、多くの大規模な基盤研究所が事前学習の壁に直面しているという記事を目にされたかもしれません。イリヤも事前学習に関して壁に直面している可能性があると明確に述べています。
しかし、私たちの内部での見方は、現在2つのパラダイムが存在していて、以前よりもさらに豊かな環境にあるということです。Oシリーズのモデルで探求してきたテスト時スケーリングのパラダイムは本当に成功を収めています。推論モデルのスケーリングには同じような障壁は見られません。
私はGPT-1の時代からOpenAIにいましたが、1から2、2から3、3から4へと進むたびに技術的な課題がありました。多くの場合、複数の技術的課題がありました。4以降の世界でも、解決すべき技術的課題は具体的に把握できていると思います。本当に手に負えないような課題はないと考えています。
司会: なるほど。私たちはOpenAI内部で、推論パラダイムは現在GPT-2レベルの成熟度にあると言っています。製品市場フィットは見られますが、改善の余地は大いにありますし、人々が構築している製品やアプリケーションにもそれが表れていますね。
では、刺激的な質問ですが、OpenAIは初期の頃と同じように研究と安全性に注力していますか?
マーク: はい、100%そうです。私は研究チームを率いており、多くの研究プロジェクトのポートフォリオを管理しています。常にハイレベルで、探索的研究にどれだけのリソースやマンパワーを割くべきか、即時的な短期的成果にどれだけ割くべきかを考えています。
原則として、私たちは探索的研究により多くのリソースを割り当てています。他の大規模な基盤研究所とは異なるスタイルを取っています。他の研究所は多くの優秀な研究者を抱えているため、彼らに自由な研究プロジェクトを任せ、好きなことに取り組ませています。
私たちは比較的小規模な研究所なので、もう少し方向性を定める必要があります。そのため、確信を持って特定の探索的な賭けを選び、その領域内で研究者に大きな自由を与えています。これは両方の利点を活かせる方法だと考えています。漠然とした探索ではなく、方向性のある探索を行い、小規模組織の利点を活かしています。
司会: なるほど。個人的に最も使用しているモデルの機能は何ですか?また、他の人が創造的に使用するのを最も楽しみにしている機能は何ですか?
マーク: 最近のお気に入りは検索モデルです。非常に便利だと感じています。情報を検索するプロセスは、多くのリンクを待ち、広告や関係のないコンテンツで溢れているので、あまり好きではありません。そのため、あらゆる主題に関する情報収集によく使用しています。
また、学習にもよく使用しています。新しいトピックに出会ったとき、現在はChatGPTがデフォルトになっています。研究者としてこの役職に就いて、ビジネスやOpenAIの様々な部分について多くを学ぶ必要がありましたが、ChatGPTは素晴らしいリソースでした。
オリビエ、あなたはどうですか? 主にどのように使用していますか?
司会: ここ数週間で最も驚いた使用例は、O1との「ブレインストーミング」です。ChatGPTにどのようなクエリを送れるのか、実際に再調整するのに数週間かかりました。O1は4.0と比べて、新しいレベルの深さをもたらしました。単にアイデアにコメントするだけでなく、本当に対話に参加してくれるスパーリング・パートナーのような感覚です。
ここ数週間は多くの製品戦略に関する作業を行っていましたが、本当の対話相手のような感じがしました。
マーク: そうですね、戦略的計画においてO1は素晴らしいですよね。
司会: そうなんです。戦略には「愚かな質問」というものはないのですが、もちろん人には基本的な質問はしづらい。そんな中で、中立的でありながら対話に参加してくれるパートナーを持つことは非常に素晴らしい経験でした。
反対に、私は多くの愚かな質問をするので、そういった質問にChatGPTを使うのが好きです。誰かが面白い質問をしていて、検索履歴とChatGPT履歴のどちらを見られたくないか、という質問がありました。
マーク: 研究者たちには絶対に見せられませんね。それはロックされています、私だけのものです。
司会: O1について話しましょう。推論とO1についての直感はどのように得られたのでしょうか?
マーク: これは集団的な取り組みでしたが、長期間にわたって実施してきたものです。先ほど話した探索的な重点的な賭けの一つで、2年以上前から始まっています。
現在のモデルには何かが欠けているという認識がありました。信じられないほど賢いのですが、どこかAGIらしくない感じがする。当時の仮説は、即座に応答しなければならないということが問題だと考えました。人間に即座の応答を求めても、最良の答えは得られないでしょう。
人間は質問の内容に応じて、様々な時間をかけて考えます。時には「考える時間が必要」とか「明日返答します、調査が必要です」と言うこともあります。つまり、システム1(速い思考)とシステム2(遅い思考)の間のギャップを埋めることが欠けていたのです。知識は既にありましたが、遅い思考がなかった。
これが核となる仮説でした。実際、この根本的な課題に取り組むために多くの異なる賭けをしました。O1を見てその成功を目の当たりにするのは本当に素晴らしいプロセスでした。非常に探索的な研究者たちのグループがいて、小さな成功の兆しを得て、それを基に組織化を進めました。研究チームを編成し、プロジェクトを拡大し、大規模なデータ生成の取り組み、スケーリングの取り組み、インフラの取り組みを行いました。そして最初の野望を実現できたと思います。
司会: その「成功の兆し」に確信を持つまでにどのくらいかかりましたか?
マーク: それが研究の最も難しい部分ですね。特に最初は、ムーンショット的なプロジェクトに取り組んでいる場合、多くの失敗があります。重要なのは、そういった研究を行っている研究者たちを守ることです。あるアプローチに強い確信があれば、時間の問題で成功するはずです。ですから、研究者たちに様々なアプローチを試させる必要があります。
確かに、3、4ヶ月ほど意味のある進展が感じられない期間もありました。しかし、最終的に誰かが大きなブレークスルーを起こし、「これなら更なるリソースを投入して、もう少し進めよう」という気持ちになります。これが大規模な研究プロジェクトのポートフォリオを管理する醍醐味です。
司会: O1をローンチしてから数ヶ月が経ちましたが、人々の使い方について最大の驚きや学びは何でしたか?
マーク: 既に多くの外部パートナーと協力していますが、面白いのは、彼らがファインチューニングのアプローチよりも単純に優れていると感じていることです。多くの人々が、難しい質問で躓きにくいと感じています。
私たちが重点的に取り組んできた数学や科学の領域以外でも、多くのアプリケーションが生まれているのを見るのは素晴らしいことです。推論が本当にそれらの分野にも一般化されているのです。
例えば、医療分野では、症状のリストと非症状のリストが与えられた時に、それらと一致する病気は何かというような使われ方をしています。このような場合、モデルは4.0よりもずっと優れた性能を発揮します。なぜなら、仮説を立て、それを検証し、新しい仮説を立てるというプロセスが必要だからです。私たちが明示的に注力していなかった分野でも多くの利点が見られています。
司会: それは私たちにとっても大きな驚きでした。数学、科学、コーディングでモデルが優れているのは知っていましたし、テストもしていました。しかし、一見遠く離れているように見える法的推論でもうまく機能しているのを見るのは驚きでした。考えてみれば、それも論理ですよね。
まだ完全にテストしていない分野や領域が他にもたくさんあるはずです。カスタムモデルについて、O1をどのくらい早く皆に提供できると思いますか?
マーク: 面白いことに、現在人々がモデルをカスタマイズする際、4.0では主にスタイルやトーン、フォーマットといった表面的なものが中心です。O1は非常に異なる種類のファインチューニングで、特定のタスクに深く特化した専門家モデルのような感じです。そのため、O1のファインチューニングの上に構築される使用事例は非常に異なるものになると予想しています。1、2ヶ月の問題だと思います。
司会: AIを主要な機能として使用するスタートアップにとって、次の最大の課題は何でしょうか?
マーク: 実際、今はAIの上にスタートアップを構築するのに良い時期だと思います。基盤モデルのプレイヤーとして、私たちは汎用性に焦点を当てています。OpenAIのような会社では、全ての垂直分野に進出することは不可能です。特定の領域でモデルを機能的に調整する余地が大いにあります。
今日、それが実現されているのを見ることができます。OpenAIの上に様々なアプリケーションを構築する豊かなスタートアップのエコシステムが存在しています。
オリビエ、あなたの考えも聞かせてください。これはあなたにとっても良い質問だと思います。
司会: 通常、スタートアップが成功するのは、市場が気付いていない秘密を知っていて確信を持っているからです。しかしAIの場合、常に変化しているテクノロジースタックの上に構築することになります。次のモデルがいつ登場するか、どんな新しい機能が解放されるかを予測することはできません。
そのため、最も成功しているスタートアップは、現在かろうじて機能している技術の最前線で構築している企業だと感じます。これは少し研究に似ていて、次の世代のO1やO2が登場したとき、その機能がより信頼性の高いものになります。
そういう意味では、それを実現するのは簡単ではありませんが、非常に素晴らしいものを作るための良いレシピだと思います。
プロンプトキャッシングの拡張計画について、それは私が答えましょう。プロンプトキャッシングは1ヶ月前に提供を開始した非常に優れた機能です。基本的に、最近の入力トークンをキャッシュし、それによってレイテンシーを削減できます。GPUを通す必要がないので、コストも削減できます。
利用率は非常に高く、多くの人々に使われています。そのため、引き続き投資を続けていきます。コンテキストウィンドウが長くなればなるほど、プロンプトキャッシングはますます重要になってきます。アプリケーションが本当にエージェント的になるためには、ユーザーとの以前のやり取りや多くのコンテキストを渡す必要があります。そのため、コストを最適化する方法を見つける必要があります。
プロンプトキャッシングに関して最も興味を持っている側面は、さらにコスト効率を高め、より大きな割引を提供し、キャッシュウィンドウを長くすることです。現在は多くのパラメータに依存していますが、拡張を試みています。
デザイン原則として、オプトインを自動的にデフォルトにすることを決めました。パラメータを渡す必要はなく、プロンプトキャッシングは自動的に割引を適用します。人々はこれを気に入っているので、この方針を継続していきたいと思います。良い選択だったと思います。
もし10年後にタイムトラベルできるとしたら、どんなAIのブレークスルーを見たいと思いますか?
マーク: 今日のOpenAIの多くの人々に聞けば、10年後にはかなり強力な形でAGIが実現していると答えるでしょう。本当の可能性を解き放ち、一人の人間が1週間で巨大なスタートアップを作り、誰もが恩恵を受けられるような価値を提供できる。一人の人間が自分の力を活かして、とてつもない影響を与えられるようになる。そして、このような改善が最初に見られる分野はソフトウェアだと思います。
司会: 1人で大きな影響を与えられるというのは素晴らしいですね。ビジネスを超えて考えると、17世紀の科学者が一人で物理学を革新したような、あの懐かしい雰囲気に戻れるかもしれません。AIに大きくサポートされながら、一人の人間が医学や物理学、コンピュータサイエンスで大きな科学的発見をする。それは素晴らしいことでしょう。
社会学者との学際的な協力は、AI研究にどのような影響を与えると思いますか?
マーク: O1モデルに関して、私たちはますます外部の専門家やパートナーと協力するようになっています。例えば、テレンス・タオのような著名な数学者や、アメリカの国立研究所の人々と協力して、彼らがどのようにモデルを使用しているかを見ています。実際、これらの人々は今日、モデルから大きな影響を受けていると語っています。
このような外部との協力は、私たちがますます重視している分野です。特に社会学的な観点からは、AI政策も外部の専門家との対話として定義したいと考えています。安全性は内部で孤立して決定できるものではなく、本当に公衆と関わり、特定のグループに合わせてモデルを調整する適切な方法を見出す必要があります。
司会: 同感です。過去数年間で私が学んだ最大の教訓の一つは、モデルが明らかに価値観を符号化しているということです。人々がAIを1日5時間、6時間と使用するようになれば、数年後には大きな責任が生じます。
明らかに、一つの企業や一つの国がトップダウンでそれらの価値観を押し付けることはできません。そのため、そこに到達する方法と、人々やコミュニティが自分たちの価値観を宣言するためのメカニズムを見つける必要があります。これは大きな洞察でした。
友人から「コーディングを学ぶべきか」と聞かれました。シニアエンジニアとして、私の仕事はコーディングからAIからのコードのレビューに変わってきているので、業界レベルでのコーディングはなくなりつつあるように感じます。どのようなアドバイスをしますか?
マーク: 実は、今日の人々にコーディングの学習を止めるようにはアドバイスしません。根本的に、コーディングを学ぶということは、問題解決と一般的な推論を学んでいるのです。これは多くの変化に対して頑健である能力を身につけることになります。より合理的で原理に基づいた決定ができるようになります。
AIに関しても、内部で何が起きているかを理解できる人々には大きな価値があります。これらのツールをより良く使用することができます。長期的に見て、コーディングや機械学習を深く理解している人々が、AIの方向性を決定していくことになると思います。
司会: もし今15歳か18歳だったら、コーディングの学び方は違っていましたか?
マーク: 今日15歳や18歳の人々が本当に羨ましいですね。私が育った時代は、インターネットがちょうど普及し始めた頃で、何かを学ぶための適切なリソースを見つけるのは非常に難しかったです。今日はChatGPTがあります。
自分だけのカリキュラムのようなものですね。何か理解できないことがあれば、すぐに掘り下げて助けてくれます。以前から私が好きだった研究の一つに、人々は非常に異なるパターンで学ぶという研究があります。線形に学ぶ人もいれば、ある点で行き詰まり、ブレークスルーを経て、また新しい課題で行き詰まる人もいます。
これは本当にパーソナライズされた学習を可能にし、今日、私も多くの学習をそのような方法で行っています。
司会: 最後の質問です。OpenAIで働くことについて、人々が想像もしないようなことは何ですか? チームの特徴や伝統など。
マーク: OpenAIは確かに独特な場所です。一つ言えるのは、AIを開発している場所ですが、OpenAIは非常に人間的な職場だということです。人々は親切で、ほとんどの人が他の研究者を助け、ツールに慣れ親しむようサポートすることを惜しみません。
非常にドリブンな場所でもあります。人々は影響力を持って影響を与えることができると感じています。また、非常に流動的な場所です。研究者に「これに取り組め」とは言いません。何に取り組みたいかを一緒に見つけていきます。
これは非常に強力です。なぜなら、研究者は自分が興味を持っていることによって動機づけられるからです。深く興味を持っていないことでブレークスルーを起こすことはできません。この分野を前進させることへの興奮、お互いを助け合うこと、そして働きやすい場所であることという文化があります。
司会: あなたはどう思いますか?
司会: プロダクトエンジニアリングの側でも同じように感じます。ミッションが非常に明確な会社で初めて感じました。誰もがRだということは分かっていますが、その方法はほとんどチームに任されています。
私の解釈では、これは研究所のルーツから来ているのです。人々に権限を与え、スペースとエージェンシーを提供すれば、結果は驚くべきものになります。次にどの製品をリリースするか、ChatGPTで何をするかを決める際も、サムが毎週「このピクセルを左に動かせ」などと言うことはありません。私たちを信頼しているのです。
二つ目として、OpenAIのミッションは非常に壮大なので、人々はそれについて毎日話していると思うかもしれませんが、日々の中では、人々は本当にアプローチしやすく、打ち解けています。私は他のどの場所とも取り替えたくありません。
司会: ありがとうございました。
マーク: ありがとうございました。
司会: ありがとうございました。

いいなと思ったら応援しよう!