AGIはただの空想なのか？

2024年6月18日 07:46

ニック・フロスト: コヒアは AGI の会社ではありません。私たちはデジタルの神様を作ることには興味がありません。テクノロジーが約束したことを実現し、今日の現実世界の問題を解決することに興味があります。
私たちは現在トロントにいます。コヒアのトロントオフィスです。トロントで開催されているビルドデーに招待されました。彼らはトロント、サンフランシスコ、ニューヨーク、ロンドンの4都市でこれを開催しています。私たちはトロントとロンドンのイベントを捉える予定です。
数週間前、コヒアは市場を驚かせました。彼らはコマンドRと呼ばれる新しいモデルのセットをリリースしました。これらのモデルは、多言語の検索補助生成に特に優れています。昨年、ロンドンオフィスでパトリック・ルイスにインタビューしました。パトリックは検索補助生成を発明し、その元となる論文を書きました。検索補助生成は非常に強力なテクノロジーです。言語モデルをグラウンディングすることを可能にするからです。
検索補助生成は今日では一般的な用語になっています。通常はテキストであるものを生成するジェネレーターを指し、大規模言語モデルに通常入力するもの以外のものを与えて、タスクをより上手く行えるようにすることを指します。
大規模言語モデルやチャットボットがある状況で、外部の知識を与えて、知識集約型のタスクやナレッジベースのタスクをより良くこなせるようにするために使われることが多いです。検索補助生成のパラダイムは、大規模言語モデルやAIが、検索を通じてあなたが持っている非構造化の知識を活用する方法について述べています。
今日は、コヒアの共同創業者の一人であるニック・フロストにお話を伺います。
ニック: 私はグーグルブレインで研究エンジニアとして働いていた時にエイデンに会いました。当時エイデンはインターンで、トランスフォーマーの論文に取り組んでいました。その論文がこの全てのきっかけとなったのです。トロントオフィスのジェフ・ヒントンの研究室で働いていた時に彼に会いました。
実はアイバンとはトロント大学の学生時代に会っていました。エイデンもトロント大学でアイデンに会っていましたが、私たちエイデンとはそこでは会っていませんでした。
インタビュアー: 偶然ですね。ヒントンと一緒に働くのはどんな感じでしたか？
ニック: ジェフ・ヒントンと一緒に働くのは本当に楽しかったです。研究の仕方を学んだのは彼からです。機械学習と研究全般について、私の知っていることのほとんど全てを教えてくれました。何年も一緒に働けたのは本当にラッキーでした。
インタビュアー: 想像もつきません。すごいですね。バンドもやっているそうですね。教えてください。
ニック: はい、グッドキッドというインディーポップロックバンドでボーカルを務めています。
インタビュアー: どんな音楽ですか？
ニック: インディーポップロックです。ストロークスとパニック・アット・ザ・ディスコの間のようなものです。
インタビュアー: 面白いですね。では、他のプレーヤーとコヒアはどのように差別化されているのでしょうか。
ニック: 最近この分野は非常に熱を帯びてきましたね。多くのプレーヤーがいますが、私たちは現実世界のエンタープライズビジネスソリューションに集中することで、自分たちのニッチを切り開いてきました。私たちはAGIの会社ではありません。デジタルの神様を作ることには興味がありません。テクノロジーが約束したことを実現し、現実世界の問題を解決することに興味があります。
企業としてそれに集中しています。
インタビュアー: もう少し詳しく教えていただけますか。AGIが魔法のようなもので、汎用的で何でもできるということを意味するのでしょうか。コヒアはより実用的で特化したソリューションを構築していると言っているのでしょうか。
ニック: AGIに興味があると言う企業は、まだ存在していないテクノロジーについて述べています。コンピューターを人間のように扱ったり、人間の能力を超えたりする未来の世界を描いています。人工超知能やそういったものに関するSF的なビジョンですね。
AGIを目指すと言う企業は、それを構築しようとしていると言っているのです。現在の技術でそこまで行けるのかは私にはわかりません。そこまで行けるとは思いません。私はそれには興味がありません。コヒアは大規模言語モデルをビジネスに役立てることに興味があります。そこに集中しているのです。
インタビュアー: AGIは存在し得ると思いますか。それとも不可能だと思いますか。
ニック: 可能だと思います。存在できない理由は見当たりません。二元論者ではありません。人間の心を表現するものを作れるかもしれません。トランスフォーマーでそれをしたとは全く思いません。トランスフォーマーは人間の心にはほど遠いと思います。
インタビュアー: もし存在するとしたら、それは良いことでしょうか。なぜ面白くないのでしょうか。
ニック: それが良いことかどうかはわかりません。それは本当に面白い会話だと思います。良くないと思う人もたくさんいると思います。良いことだと思う人もたくさんいると思います。わかりません。私たちはそこからはるかに遠いところにいると思います。
だから私はそういったことを哲学的な視点から考えるのが好きですが、現実に根ざしているほうがずっと好きです。私たちがここで集中しているのはそういうことです。
インタビュアー: そうですね。後ほど哲学的な話をしましょう。
ニック: 喜んで。
インタビュアー: コヒアは最近コマンドRで大きな波紋を呼びました。それについて教えてください。
ニック: 最近、コマンドRとコマンドR+という2つの新しいモデルをリリースしました。同じモデルファミリーのもので、一方が大きく、もう一方が小さいだけです。多言語の検索補助生成とツールの使用に特に優れています。それが私たちが目指したものです。
重みをオープンソース化し、多くのクラウドプロバイダーで利用できるようになりました。開発者の方は、ぜひ重みをダウンロードして試してみてください。当社のプラットフォームでも試してみてください。
エンタープライズの方は、使用しているクラウドプロバイダーで試してみてください。現実世界の問題に本当に適しています。
インタビュアー: 今おっしゃった特徴の中で、特に大きな可能性を秘めていると感じるものはありますか。
ニック: 3つ全てがそうだと思います。3つの中から1つ選ぶとしたら、検索補助生成が最もエキサイティングだと思います。人々は言語モデルのハルシネーションについてよく話しますよね。リスナーの皆さんもよくご存知だと思います。
言語モデルのハルシネーションとは、質問をしたときに、モデルが真実ではないことを書くことです。あなたの世界観に基づいていないことを書くのです。私はハルシネーションという言葉があまり好きではありません。モデルがハルシネーションしないことができるかのように思わせるからです。
大規模言語モデルが自分でやることは、全てハルシネーションなのです。偶然、そのハルシネーションが私たちの世界観と一致することがあるだけです。これは根本的な問題です。
だから私たちは、すぐに古くなったり変わったりする事実を暗記することに長けたモデルを作るのではなく、関連情報を上手く取り入れて、それに基づいて答えることに長けたモデルを作るよう訓練してきました。そして、その答えの根拠となる引用を提供するのです。
これは根本的な問題に取り組むものだと思います。外部の真実の情報源へのインターフェースとして言語モデルを使えるようになるのです。そのモデルの内部メモリと重みに頼るのではなく。
インタビュアー: 同意します。人間化には問題があると思います。情報がなぜそこにあるのかの説明がないからです。まだ解釈の余地はありますが、少なくとも引用があれば、モデルがなぜそう言ったのかがわかるので、より良いと思います。
ニック: その通りです。私たちのモデルは次のようなことに特に優れています。「この文書があります。たくさんの文書があります。私が書いたこの文の一部はこの文書から来ています。この文のこの部分はその文書から来ています。」そうすれば、どこから情報を得たのかを確認することができます。
インタビュアー: そうですね。
ニック: これらのモデルは言語を信じられないほど巧みに模倣するので、生成されたテキストを見ただけだと、エージェンシーや人格を帰属させたくなります。人々が大規模言語モデルで困難に直面している多くは、モデルをある1つのことをしているものとして擬人化することから来ていると思います。
現実には、モデルはかなり異なることをしているのに、そうしていると扱うのです。だから私は、モデルの検索補助生成の部分が本当に気に入っています。根本的な問題に取り組んでいると思うからです。
インタビュアー: RAGと成熟した状況を振り返ると、アプリケーションの構築方法はどのように変化しているのでしょうか。
ニック: 多くのことが変わっていると思います。モデルをより使いやすくしていると思います。システム全体をセットアップしたら、多言語のコヒア埋め込みを使い、コヒアのリランクで検索結果を改善し、その関連情報を生成モデルに入力します。
そうすれば、本番環境でも使えるようになります。会社の内部文書を入れて、モデルが作り上げたものではなく、本当の答えを得ることができるのです。
インタビュアー: それは面白いですね。コヒアでは4つのビルドデーを4つの都市で開催していて、今日はその1つのトロントにいます。ここには約80人の開発者がいます。今日の内容と、今日お話しされる相手について教えてください。
ニック: ビルドデーは私たちにとって新しいものです。これまでやったことがありません。でも最初のものはとてもうまくいきました。今回もとてもうまくいっています。
次の2つが楽しみです。様々なバックグラウンドの人たちがたくさんいます。とても経験豊富な長年のMLエンジニアもいれば、比較的新しい人もいます。
でも今は皆、2階で私たちの新しいモデルと私たちのオープンソースのチャットツールキットを使って作業しています。何を作っているのかはまだわかりません。彼らは始めたばかりですから。でも最後に何を作るのか楽しみです。
インタビュアー: とても興味深いですね。言語モデルを使ったアプリケーション構築には、ラストマイルの問題があると思います。デモを作るのは簡単で、とても印象的ですが、まだまだ多くの優れたソフトウェアエンジニアリングが必要です。
開発者の認知度を高めることは本当に重要だと思います。でもまだ5%ほどの頑健性の問題があるとして、開発者にはどのような一般的なガイダンスを与えているのでしょうか。一般的なルールがあるのでしょうか、それとも非常に具体的なものなのでしょうか。
ニック: チャットインターフェースを使って何かをするアプリケーションを作るなら、モデルが提供する引用をUIで使うのは本当に良い習慣だと思います。
それによって信頼度が本当に高まりますから。情報がどこから来たのかがわかれば、「これは信頼できる良い情報だ」とわかります。
ラストマイル問題について言及しましたが、いくつかあります。1つは、大規模言語モデルを使うのに適したユーザーインターフェースを構築することでした。
彼らが取り組んでいるのは、私たちのチャットツールキットです。これは機能満載のチャットインターフェースです。オープンソース化したばかりです。
今ではコヒアツールキットと呼ばれるものがあります。これをローカルに展開したり、Dockerにセットアップされているので自分の環境に展開したりできます。
引用付きのチャットインターフェース、RAG、ツールの使用、Pythonインタープリターなどの追加機能を備えたモデルを使って、チャットインターフェースを展開できるのです。
これらの技術を使って新製品を構築するための準備を整えるのに、すでに大きく貢献しています。
RAGの進化にとても興奮しています。ツールの使用は魅力的で、将来的には、マイクロサービスの発見やフレキシブルなセマンティクスなどに一般化できると思います。
でも、そこではどのような進化が見られるのでしょうか。今はどのようなツールの使用が見られて、それはどこへ向かっていくと思いますか。
ニック: 現在、ツールの使用は、LLMで人々が関心を持っている新しいものです。モデルにテキストを書かせるだけでなく、そのツール用のクエリを書かせ、そのツールの結果に基づいて外部で計算され、答えを出すようにするのです。
検索補助生成は、その最初の例のようなものです。ツールは検索で、検索クエリを生成し、その検索でいくつかの関連文書を見つけ、その文書に基づいて質問に答え、引用を提供します。
これは1つのツールです。もう1つのツールは、私たちのコーラルツールキットにある電卓のようなものです。モデルに数式を書かせ、その数式を実行させ、その出力に基づいて答えを出すことができます。
言語モデルは数学が苦手なことで有名ですが、繰り返しと例から学ぶことを考えると、当然のことです。
見たすべての数式を暗記することで数学を学ぶのは本当に難しいのです。だから数学はとても苦手なのです。
でも電卓にアクセスできるようにすることで、それを補うことができます。そして電卓の出力に基づいて質問に答えるのです。
これらは2つのシンプルな例です。最近ツールキットに追加した3つ目はPythonです。コードそのものをツールとして使うことができます。
そのツールへの入力はコードの束で、出力はそのコードの出力です。これによって全てが開かれます。
ニック: そこからどこへ行くのでしょうか。私はそれらを組み合わせ始めると思います。ツールキットでできるもう1つのことは、検索をツールとしてオンにし、ツールとしてオンにし、マルチステップをオンにすることです。
そうすれば、「5つの最も高いピラミッドの高さのグラフを作成する」のような質問ができます。まず、5つの最も高いピラミッドは何か、その高さは何かを見つけ、次にPythonを使ってグラフを作成します。
これらのものを連鎖させることで、コンピューターに到着し、画面が真っ白で、「これをしてください」と言うだけで、それをするためにさまざまなものを呼び出す方法を理解する世界に到達できることがわかります。
それができなければ、おそらくまずGoogleで検索し、APIを見つけ、そのAPIとやり取りするためのフロントエンドを構築します。言語が本当にあなたとコンピューターの間のデフォルトのインターフェースになる地点に到達できるのです。
インタビュアー: それは本当にエキサイティングだと思います。
ニック: 将来的には、コンテキストウィンドウが1000万くらいになったとすると、コヒアを使う人は、これまでに行ったことの全てを覚えているようなものになるかもしれませんね。
つまり、以前のやり取りの全てがそこに入っているので、誰もが最初から始めるのではなく、異なる状態から始めることになります。
先週の買い物で何を買ったのか、去年の休暇で何をしたのかなど、そういったことがわかるようになるのです。
直感的には、そのようなモデルは奇妙で制約があり、ベンチマークするのが難しいように思えます。どう思いますか。
ニック: そうですね。それはかなり奇妙になると思います。今のメトリクスやベンチマークへの執着は、局所的な最小値のようなものだと思います。
この技術はまだとてもエキサイティングで、常に話題になっていますが、その約束を果たすまでにはまだ至っていません。LLMを日常のワークフローや生活の一部として使っている人が増えてきているのは分かります。
でもまだ多くの人はこの技術をクールなネタとして見て、そこから先に進んでいません。インターネットやタッチスクリーン、携帯電話、データベースのように、コンピューターの使い方に影響を与えるまでには至っていません。
大規模言語モデルはそうなると思いますが、まだそこまでは行っていません。タッチスクリーンのベンチマークがあるでしょうか。1つでも挙げられますか。
もう関係ないですよね。ただその物を使うだけで、消費者としてはどれが一番良いと思うかを決めて使うだけです。
モデルがより良くなり、それらを評価する方法も良くなることを期待しています。
インタビュアー: 他に話したいことはありますか。
ニック: ツールキットのオープンソースリリースを宣伝したいと思います。開発者の皆さんがチャットインターフェースを構築しているなら、ぜひGitHubをチェックして、コヒアツールキットを使ってみてください。
Pythonインタープリターやウェブ検索など、ツールの使用やマルチホップのツール使用を含むチャットインターフェースの構築に使ってください。
新しいコマンドR+モデルもチェックしてみてください。本当に素晴らしいものです。私はよく使っています。最近のお気に入りです。
ツールの使用、検索補助生成、多言語対応に優れています。
ニック、今日はお話しいただき本当に光栄です。ありがとうございました。
ニック: お招きいただきありがとうございます。とても楽しい会話でした。

AGIはただの空想なのか？

いいなと思ったら応援しよう！