AI研究者はここに? | ブレインストームEP 57
ブレインストームの第57回エピソードへようこそ。フランクが戻ってきて、またAIについて話し合います。多くのことが急速に起こっているので、そう言っているのです。今回はSakanaです。発音は合っていますか、フランク?
はい、その通りです。
Sakana、15ドルで学術論文が得られるというのは、詳細に踏み込んでみましょう。これが画期的である理由は何でしょうか?
状況を説明すると、これは基本的に日本のSakana AIというAI研究所が発表しているプロジェクトです。元Googleブレインの従業員たちのチームが、科学的方法や研究プロセスを自動化するという目標を掲げて設立しました。LLMが得意とする情報の消化、実験の計画と実行を、どのように新しい科学的発見に向けてチャンネリングできるかということです。これは研究やAIの分野で長年の夢であり、新しい概念ではありません。ただ、このようなワークフローを組み立てるための適切な部品がそろい始めたところなのです。
このチームが基本的に行ったのは、モデルとそれが動作するフレームワークのようなものからなるシステムを作ることです。「大規模言語モデルをより効率的に訓練する方法を見つけよ」といった研究アイデアを与えると、アイデアをブレインストームし、それらが斬新なアイデアであり、まだ発見されていないか研究されていないことを確認し、実験を構築しテストするのに必要なコードを書き、そしてそれをすべて従来のような学術論文形式でまとめ上げるのです。そしてかなり良い結果が出ています。
これらの論文が機械学習の学会に提出可能であることを示す素晴らしい仕組みを作り出しました。まだ完全な査読プロセスを経ていないので、これらが明日にでも大きなブレークスルーにつながるとは言えませんが、現状では本質的に科学研究者がプロセスを加速し、潜在的に新しいアイデアを生み出すために使用できるツールなのです。
研究を行う上で何か制限はありますか? 例えば、大規模言語モデルを使用したプロジェクトのように、訓練されたデータに基づいて得意不得意があるのでしょうか?
数学のデータがないモデルは、例えば数学理論の研究には適していないでしょう。しかし理論的には、何でも与えることができ、出力される結果は様々でしょう。現時点では言いにくいですね。このシステムがまだ得意ではない非常に単純なことがあります。たとえば、数字の桁の比較が苦手です。これはLLMの既知の問題ですが、急速に解決されつつあります。
また、より根本的な問題として、「トランスフォーマーモデルをより効率的に訓練する方法」のような既存のアイデアを発展させることはできても、トランスフォーマーとは異なる全く新しいフレームワークを考え出し、今後10年間の基礎となるようなものを生み出すには、まだ至っていないようです。
能力に関して、理論的には、数字の桁の問題について、この研究エージェントに自身をより良くする実験を行わせることは可能でしょうか?
はい、それが面白いところです。研究や発見のプロセスをコンピュータに実行させるタスクに蒸留できると、突然このような問題を非常に迅速に反復できるようになります。また、もう一つの非常に単純な解決方法は、数字を比較する際に常にコードを書くように調整することです。これにより、モデルの本質的な能力に頼るのではなく、問題を解決できます。
モデルの根本的な動作方法を変更するか、モデル自体に回避策を与えることで問題を解決できます。エージェントシステムについて話すとき、これは急速に新しいAIのバズワードになっていますが、ChatGPTのように一つの質問をして一つの答えを得るような一発勝負のものではありません。モデルに一連のツールを与え、それを使用する反復的なプロセスを与えるのが全体的な考え方です。
そのため、質問に答えたりプロセスのステップを実行したりする際に利用可能なツールを見て、それを使用し、その結果に基づいて反復します。例えば、2つの数字を比較する際に自己反省し、「メンタルな数学」ではなくコードを使用することを決定できるのです。
つまり、既存のLLMをより高性能にするアフターマーケットのアドオンのようなものですね?
はい、そうです。最近ポッドキャストに出演したアンドリューは、コーディングエージェントの構築について話していました。GPT-4は最高のコーディングモデルの一つですが、その前のモデルであるGPT-3.5と比較すると、古いモデルはコーディングがあまり得意ではありません。しかし、GPT-3.5の上にアフターマーケットのエージェントフレームワーク、つまりこの種の計画と反復的なアプローチをスラップオンすると、突然GPT-4より優れたものになります。
つまり、まさにアフターマーケットのアップグレードのようなものです。ただし、OpenAI、Anthropicなどは全て独自の内部エージェント機能に取り組んでいるので、オープンソースや研究コミュニティではなく、これらの機能を自社で提供することが期待されています。
分かりました。ニック、どうぞ。その後、私が...
はい、研究能力に話を戻すと、アイデアとしては、本質的に超知能的な存在に科学的方法の枠組みを与え、「可能な限り多くの実験を実行して、最適化された解決策を見つけよ」と言うようなものですか? 現実世界での類似例はありますか? 例えば、短期間で100万人時以上の人間の労力を特定の研究タスクに投入するようなものでしょうか?
ブレインストーム自体でこの話をしていて、私は今でも1年生の時の教授の言葉を覚えています。「発見をしたいなら、ある分野で明らかに当たり前のことを取り上げて、別の分野に適用してみなさい」と。これがこのようなシステムが本当に輝く可能性がある部分かもしれません。アカデミアでは自分の特定の分野に深く没頭してしまうので、このような膨大な情報で訓練されたLLMがあれば、理論的には、ある分野で当然視されていることを取り上げて、別の分野に適用できる可能性があるからです。
はい、それは使用例の素晴らしい例だと思います。なぜ誰もその分野でこれをやっていなかったのか、それは時間がなかったか、インセンティブがなかったからです。しかし今、新しいアイデアを探索したり、古いアイデアを新しい分野に適用したりする論文を作成するのに15ドルしかかからないとなると、それを行うための参入障壁がはるかに低くなります。
時間の節約という観点から例を挙げると、Amazonにはコーディング用に特別に構築されたエージェントフレームワークであるQというものがあります。彼らはこれを社内で使用しており、最近の決算発表で、これを使用して4,500年分の開発者年数を節約したと述べています。そして2億6000万ドル以上を節約し、3万件の社内Javaアプリケーションを最新化するのに使用しました。
つまり、長期的な人間のプロセスを、解決したい問題を特定し、Nvidiaサーバーをスピンアップしてランを押すだけで、それを短縮しているのです。
そうですね。Optimusボットに接続して、マイクロパイプ化を始めれば、完全に自動化されたラボが得られますね。
そうです。そして、ループで長期間実行することに関するもう一つのことは、発見の複合効果です。これが興味深いと思うのは、「LLMをより低コストで訓練する方法を見つけよ」というサンプル質問についてです。今日のモデルでそれを行い、明日はより低コストでより良いモデルを訓練し、それを繰り返すことで、システムがどんどん良くなり、よりコスト効率が上がっていきます。つまり、AIはシステムを自己訓練するようになるのです。
これが、一部の人々が超人的能力への離陸経路だと考えているものです。研究の面では、おそらくまだ平均的な人間のレベルにも達していないでしょう。しかし、そこに向かっています。そして、OpenAIやAnthropicから基盤モデルがリリースされるたびに、このタイプのシステムは改善されます。つまり、基本モデルの進歩を継承しているのです。
では、それを使って次のトピックに移りましょう。ニック、何かありましたか?
はい、これは完全に別の話題に飛んでしまうかもしれませんが、行きましょう。
ブレインストームやフランクとのチャットで、コーディングに焦点を当て、多くの企業が大規模言語モデルでそのHマーケットを追求していることについて話してきました。これがどこに向かうと思いますか? 5年後、あるいは1年後でも、人々は同じ方法でコーディングをしていると思いますか? それとも、ノーコードの未来に向かっていて、単純なテキストプロンプトでほぼ何でも得られるようになると思いますか?
私はこう考えます。すべてのものに、特にコーディングにおいて、より高いレベルの抽象化の長い歴史があります。最初はパンチカードがあり、次にデジタル化されて、アセンブリ言語という非常に低レベルの機械コードでコーディングしていました。そして、まだ少し扱いにくいCに進み、そしてPythonに至ります。パフォーマンス要件に応じて異なるものを使用しますが、より高いレベルの抽象化です。
LLMは究極の抽象化層のようなもので、コンピュータ言語を全く知らなくても、人間の言語で話すだけでコードが出力されるか、あるいはコードが書かれていることすら知らずに中間層としてコードが使用されます。
これが、ビジネスユーザーが経験することだと思います。例えば、今日Salesforceに接続されているどんなアシスタントでも、「先月のこの地域でのこの製品ラインの売上について教えて」と尋ねると、何らかのLLMがSQLやCコードを書いて、適切なデータベースからデータを引き出し、きれいなチャートを作成します。ビジネスユーザーは、質問をして綺密な分析を含む美しいチャートを得ただけで、その裏で質問に答えるためにカスタムコードが書かれたことさえ見ていません。
そのような使用例が多くあると思います。そして、より専門的な開発者にとっては、今日コードを書いていない人が将来コードを使用し、それを知らないという例です。今日のプロの開発者の生活は、10倍のソフトウェアエンジニアに向かっていると思います。
彼らはまだ少しコードを書いているかもしれませんが、おそらく作成されるシステムのより高レベルのアーキテクチャ設計を行っています。しかし、AIによって非常に強化されているので、カスタムソフトウェアを作成する限界コストが劇的に低下しています。
コストの削減により、カスタムアプリケーション開発が多くなり、アプリ開発プラットフォームに潜在的に利益をもたらし、従来のパッケージ型の単一用途SaaSアプリを危険にさらす可能性があると思います。
興味深いですね。無限のインターンが1人の完全に生産的な人間のようなものですね。インターンが人間でないと言っているわけではありませんが、私はいつも次のようなことを考えています。人々はコンピュータ言語と英語や自然言語を別のものと考えていますが、フランク、そのレベルの抽象化に達すると、私はそれをより英語のようなものと考えます。
私たちのオフィスの全員が英語を話します。あるいは、プロのアメリカの世界ではほとんど全員が英語を話しますが、実際に英語を巧みに操る人は非常に異なります。最も説得力のある文章を書いて、考えを形成し、世界を形作っている人は誰でしょうか?
そうですね。彼らが将来最高のコーダーや開発者になるのかもしれません。英語をマスターしていれば、AIに実際に開発して欲しいものをより良く伝える能力があるということです。だから、お互いにより良くコミュニケーションを取る方法を学ぶべきで、それが最終的にAIとのコミュニケーションを助けることになるのかもしれません。コンピューターサイエンスの学校に行くのではなく、英語専攻になるべきかもしれませんね。みんな古典を読むべきです。これで一周回ってきました。
さて、パフォーマンスに少し話を移しましょう。Sakanaのアフターマーケット製品が既存のLLMをはるかに良くしているということですね。研究と進歩が続き、加速し続けているのを見ています。AIに関する噂があり、ベンチマークがどんどん良くなっています。一部は飽和状態になり、一部は操作されていますが、常に改善されています。しかし、これらのことは重要なのでしょうか? 何か素晴らしいものができたら、私たちはそれを知ることができるのではないでしょうか?
全てのこの議論は「とてもよくなっている、このベンチマークを見てください」というものですが、それが今の瞬間に興奮するのは、実際にキラーアプリにまだ到達していないからです。
ベンチマークに関しては、結局のところ重要なのは、エンタープライズや消費者の最終的な使用ケースにどのように適用されるかということです。それが彼らが判断する基準になります。私がChatGPTアプリとPerplexityを比較する場合、どちらが私の質問に速くて正確に答えてくれるかを知りたいのです。どちらのモデルがMMLU(多言語理解)ベンチマークXYZでより優れているかは気にしません。
つまり、適用された使用ケースが重要なのです。LLMの使用ケースは非常に多様なので、効果を測定する単一の方法を選ぶのは難しいです。だからこそ、これらの異なるベンチマーキングアプローチが見られるのです。実際、純粋にELOランキングのリーダーボード、つまり人々がどの出力が好きかを評価するだけのものは、比較的良い一般化されたものだと思います。比較的に見ることができますが、「このスコアに到達すれば全ての科学研究を自動化できる」というような魔法の線はありません。
それには多くの時間と反復が必要で、このエージェントの会話から分かるように、単に基本モデルとその能力だけでなく、それを取り巻くすべてのものについてのナラティブになってきています。どのようなデータに接続するのか、どのようなツールを使用させるのか、予算はどれくらいか、そして実際に何を指摘して解決したいのかということです。
私たちはまだライフサイクルの初期段階にいます。今日、1年目のアナリストや関連会社ができることを行うアシスタントはありません。基本的に非常に狭いチャットアプリがあるだけです。
あなたの最初のポイントに戻ると、そのレベルの抽象化に到達できれば、成功したということですね。ニックは私を笑うかもしれませんが、PolyMarketの人々が話していたように、人々が下にあるクリプトに気づかない最初のアプリケーションです。「クリプトの成功ではない、単に人々が使うのが好きだから成功している」というようなものです。
ニック、どうぞ。
はい、これについては別の見方もあります。私たちは常にベンチマークの改善、ベンチマークの改善について聞いていますが、実際にこれらのツールやサービスを使ってみると、劇的な改善を感じられません。それは部分的に、少なくとも私の意見では、チャットインターフェースがこれらのサービスを使用する uniquely horrible な方法だからだと思います。おそらくあなたが英語のマスターではないからかもしれません。
それもあるかもしれませんが、むしろユーザーを宙ぶらりんにしてしまうからだと思います。つまり、そこに行って、このチャットボットに何かを尋ねるのに十分な創造性を持たなければならないのです。そこに行く意図は非常に難しいものです。
私が思うに、モデルが市場を細分化し始め、1つのモデルで全てを解決するのではなく、多くのモデルが多くの異なることを解決する方向に向かっていると思います。例えば、私は今ではChatGPTよりもPerplexityをより多く使用しています。なぜなら、検索する意図を持ってそこに行くからです。
一方、ChatGPTには「これで遊んでみて、私が必要だと思うことに良いかどうか見てみよう」という意図で行きます。そして10分ほど再設定して、「これは時間の無駄だったかもしれない」と思うのです。
彼らが賢明にしていることは、アプリストアを作ることです。アプリをクリックすると、何を尋ねるかを正確に知ることができます。ただの空白のページを与えられたとき、ピカソのような人は何人いるでしょうか? 多くはありません。ほとんどの人は落書きをするだけです。これは、チャットバーがあって「これは何でもできる」と言われ、質問してみると「そんなに良くない」となり、「もうこれはやめよう」となるのと似ていると思います。
ニック、それは素晴らしい指摘だと思います。それはSuoや音楽アプリでも見られますね。素晴らしい音楽を作りますが、ほとんどの人は何を求めればいいのかさえ分かりません。「これは楽しい、これができる」と思っても、そこで止まってしまいます。空のキャンバス、空のページは多くの人にとって非常に intimidating だと思います。それは作家のブロックのようなもので、ただ書き始めなければなりません。
そうですね。OpenAIやPerplexityにとっても、人々が少しの助けを必要としていることは驚きではないでしょう。だからこそ、質問をする際に提案されるプロンプトがあるのです。Perplexityにはフォローアップの質問があり、これは従来の検索には存在しなかったユニークなものです。
これにより、モデルとワンクリックで往復できるようになりました。フォローアップの質問を考える必要がなく、あるいはそもそも質問しなかったかもしれませんが、今では追加の洞察を得ることができます。
カスタムGPTを作成できるのも同じです。これは基本的に特定のコンテキスト用にテーマ設定されたChatGPTです。例えば、決算発表の質問ができるERA AI R A GPTがあります。これは全ての決算発表のトランスクリプトからデータを引き出すことができます。
あるいは、シェフや旅行プランナーのようなものもあります。これらは人々に、フォローできる一種の意図を与えます。ニックの指摘のように、ただの空白のテキストボックスは難しい出発点です。
実際、これらのシステムが実際にどのように機能するかはまだ見ていないので非常に初期段階ですが、GoogleやMicrosoftが協力プラットフォームにエージェントを追加していることを人々は見過ごしていると思います。それぞれが何と呼んでいるか忘れましたが、例えばGoogle Workspaceでは、チームのグループチャットで基本的に役立つAIエージェントを作成できます。
グループチャットで誰かが質問すると、例えばArcの例を使えば、「最後にCoinbaseと会ったのはいつで、その会議メモは何?」という質問に、通常なら私かニックが答えるところですが、エージェントが答えを知っていれば、チャットを聞いていて、ポップアップして役立ちます。
このように、オンデマンドで役立つ受動的なエージェントがあると、実際にその問題を解決します。ユーザーは何もする必要がなく、ただコンピューターが答えてくれたことに喜びます。なぜなら、答えを知っていて、企業のワークスペース全体の知識を持っているからです。
AIの研究は続き、加速し続けているように感じます。製品品質のアプリケーションは当然遅れをとっていますが、研究と進歩が非常に速いので、誰も製品を作るために立ち止まりたくないのです。なぜなら、今製品を作っても、6ヶ月待てば10倍のことができるかもしれないからです。
その通りです。今日のモデルを中心に製品を構築するべきか、それとも1年後にはモデルが大幅に改善されて、このアフターマーケット製品を作る必要さえなくなるのか、という一種の麻痺状態があると思います。
これは、多くの薄いラッパーLLM企業で見られたことです。「これは単なる執筆アシスタントです」と言っていたものが、非常に早くコモディティ化されました。あるいは「ドキュメントに質問するのを手伝います」と言っていたものが、今ではほとんどのチャットマップで簡単にできるようになりました。
確かに、研究とプロダクトサイクルの間に継続的なギャップがあるという要素があります。しかし、たとえ正規化されなくても、製品が現在見られるよりも大きな影響を持つ点に達する可能性があります。
その結論が気に入りました。ニック、満足しましたか?
はい。
来週またお話しできるのを楽しみにしています。ありがとうございました。