見出し画像

ChatGPTの新しいエージェント!🤯 Deep Research:検索、文書化、推論、レポート生成

9,764 文字

OpenAIがChatGPTに新しいエージェント、Deep Researchを追加しました。これは深い調査を可能にするツールです。1つか2つの指示からChatGPTがインターネットで検索を行い、最も信頼できる情報源から関連情報を抽出し、それについて考察し、その結果として20ページにも及ぶレポートを提案します。このビデオでは、このツールをOperatorと比較し、また直接の競合である Geminiの検索ツールやStanfordのStormとも比較していきます。
ChatGPTの新機能は止まることを知りません。サム・アルトマンが本日から利用可能な新機能を発表しました。この新機能は、すでにGeminiが持っていた機能で、同じ名前のDeep Research、つまり深い調査という名前が付けられています。これはChatGPTに組み込まれた新しい人工知能エージェントで、サムはいつものように少し大げさに、これは超能力のようなもので、専門家をオンデマンドで利用できるようになると説明しています。
このツールは基本的にGeminiと同じことができます。インターネットで検索し、多くの情報源を参照し、複雑な調査を行い、これらの情報源で見つかった情報について推論することができます。そして、かなり詳細なレポートを返してくれます。彼らは、これは本当に優れていて、何時間もかかるような作業を行い、何百ドルもかかるような結果を返してくれると言っています。そのため、これは本当に有用なツールになるだろうと述べています。
利用制限について見ていきましょう。誰がこのツールを使えるのでしょうか。良いニュースと普通のニュースがあります。なぜかというと、このツールは無料ユーザーも利用できると言っています。具体的に上のツイートでは、Plus(2ドル支払う)ユーザーには月10回程度の利用が可能で、無料ユーザーにはより少ない回数の利用が可能だと述べています。ここが注意点ですが、より効率的にするために取り組んでいるとのことです。
Proユーザーの利用回数については言及がありませんが、私はほぼ無制限の利用が可能だと期待しています。この利用制限は、o3 miniという推論モデル上に構築されているためだと説明されています。とはいえ、彼らはこのモデルに非常に満足しているようです。なぜなら、このツールが実行できるタスクは、計算コスト50セントほどで、人間が行えば約500ドルの価値があるような結果が得られるからです。
そのため、すでに利用可能なこのツールを試してみて、特に競合他社と比較してみるのが良いでしょう。すでに述べたように、これはGemini Advanceで提供されているDeep Researchとほぼ同じツールで、StanfordのStormとも非常によく似たツールだからです。このビデオでは、簡単な検索を行い、どのようなレポートが返ってくるかを見て、どれが最も優れているかを比較していきます。
では、このツールがどのように機能するのか見ていきましょう。実際、非常に使いやすいです。現在私がこのツールにアクセスできるのは、2つの理由があると思います。1つはProサブスクリプションを持っているからで、Plusユーザーにもまもなく提供される予定です。もう1つは、VPNを通じて接続しているからです。スペインから直接接続した時にはまだこのオプションは表示されませんでした。
Proアカウントを持っていて試してみたい方で、VPNをお持ちでない場合は、普段私が使用しているVPNを説明欄に記載していますのでご参考にしてください。
このツールは、ここに表示された新しいボタン「深い調査」を有効にするだけという、非常にシンプルな方法で機能します。これを有効にすると、自動的にモデルがo3モデルに切り替わり、この調査用に適応されたモデルで動作します。そして、何でも質問することができます。
例えば、今回は日常的な使用例として、Amazonなどでオンライン購入したい製品の推奨を試してみます。実際、Operatorについてのビデオでしたのと同じテストを行います。そこではPanasonic GH5用の経済的なレンズについて尋ねました。同じ結論に達するか見てみましょう。
次のように尋ねてみます:「こんにちは、Panasonic GH5カメラ用の経済的なレンズで、日常的に使用できるものを探しています。最適なオプションを教えてください。通常Amazonで購入しています。」
すると、まず追加の質問をしてきました。前回の別のリクエストでも全く同じことをしました:「Panasonic GH5カメラ用の最適な経済的レンズをお勧めするために、どのような種類の写真やビデオを撮影することが多いか教えていただけますか?例えば、ポートレート、風景、ストリート写真、ビデオなど。また、おおよその予算もお考えでしょうか?」
そこで、次のように答えました:「主に自宅の部屋でYouTubeビデオを撮影するために使用します。ただし、旅行で人物が写る写真を撮ることもあります。」
すると、次のように返答がありました:「ご提供いただいた情報ありがとうございます。室内でのビデオ撮影に適し、また人物が写る旅行写真にも使える、Panasonic GH5用の経済的なレンズを探してみます。Amazonで入手可能なオプションを優先し、最適な推奨事項をすぐにお伝えします。」
そして自動的に調査を開始します。ここをクリックすると、このような種類のツールでよくあるように、最終結果が出るまでの推論や調査の詳細が表示されていきます。これには数分かかる可能性があります。
ここで最初のプロセスのステップが表示され、それが拡大されていき、数分後に最終結果が得られます。
そして結果が出ました。ご覧のように、かなり詳細な結果になっています。後ほど詳しく見ていきますが、上部には「7分で調査完了、16のソースを参照」と表示されています。クリックすると、先ほど見始めた全プロセスを展開することができ、ここでは推論のロジックだけでなく、参照した異なるソースも確認できます。
国際的なページやスペインのページ、また写真に関する専門サイトや、Foro Cochesのような一般的なフォーラムなども参照していることがわかります。16のソースを参照してこれらのレンズを提案してきましたが、大きな疑問は、この結果がOperatorが提供した結果より良いのか悪いのかということです。
実際、これは議論の余地があると思います。これから見ていくように、この場合は判断を保留したいと思います。Deep Researchが提案した内容を簡単にまとめ、Operatorが提案した内容と比較して、どちらが私の指示をより良く満たしていると思うか見てみるのが最善だと思います。
ここでは、それぞれのレンズを推奨する理由についてより多くの論証があります。推奨されたのは以下のレンズです:
Panasonic LUMIX固定焦点25mmレンズ。これは重要です。なぜなら、Operatorも固定焦点レンズを推奨したからです。通常、固定焦点レンズの方が経済的です。この場合は公式レンズで、通常は最も安価ではありません。価格は約170で、すべての特徴と、なぜ良い選択肢だと考えるかを説明してくれています。
次に、16mmの固定焦点レンズを提案しています。これはかなり広角で、小さな空間での撮影に適していて、また旅行時にもより広い範囲を撮影できるレンズです。つまり、撮影フレームがより広くなります。この場合、価格は250程度になると言っています。私が経済的なレンズを求めたことを覚えておいてください。
次に提案されたのは、Panasonicの公式レンズで、広角から中焦点までのズームレンズで、価格は850になります。そして最後に、42.5mmの固定焦点レンズを提案しています。これらのカメラでは、これはやや望遠よりの中焦点になります。25mmと42mmを提案していることを考えると、後でOperatorの結果もこの分類に入る可能性があることがわかります。この場合、このレンズは350程度になるとのことです。
Operatorはどのような結果を提供したのでしょうか?Operatorは次のような結果を提供しました。これは、非常によく似たリクエストに対するOperatorの検索です:「Panasonic GH5用の経済的なレンズのAmazonでの最適なオプションを探してください。」わずか2分で作業を終え、Deep Researchは7分かかったことを覚えておいてください。
作業を開始すると、次のような結論に達しました:「Panasonic GH5用の経済的なレンズをAmazonで見つけました。Meike 35mm F1.7手動フォーカスレンズで70です。」Viewing Browserに行くと、これが到達したページで、このレンズは機能的には、最初に推奨された25mmと42mmの固定焦点の中間に位置するレンズです。先ほどの場合は、Panasonicの公式レンズで、したがってより高価でした。
しかし、実際に私が数ヶ月前に同じ手動検索を行った時、Operatorが提供した結果に非常によく似たレンズを選びました。これは別のメーカーのものですが、同じく35mmの固定焦点レンズで、価格も非常に似ています。
深い調査では、確かに正確な予算は言及しませんでしたが(言及していれば、おそらくさらに経済的なレンズに焦点を当てることができたでしょう)、より多くのオプションを考慮し、多くのソースを参照するはずのこの深い調査ツールが、最も経済的な価格帯を完全に見落としているのは興味深いと思います。
したがって、多くのソースを調べることができる良いツールではありますが、プロンプトを非常に細かく調整し、この特定のユースケースに適切なソースを見つけられるように正確な情報を提供する必要があるようです。Operatorは私に、より良い解決策を提供しましたが、これは私の特定のユースケースです。皆さんはどう思われましたか?
ちなみに、人工知能の最新情報を知りたい方、このチャンネルの新着情報を見逃したくない方は、説明欄にある私のニュースレターの購読リンクをご覧ください。完全に無料で購読するだけで、日常生活で非常に役立つ可能性のあるいくつかのGPTにアクセスできます。
さて、ビデオの第2部に移りましょう。ここでは多くのユーザーにとってより興味深い内容になると思います。なぜなら、ここで異なる価格帯の類似ツールとの比較を行うからです。
現在、OpenAIのDeep Researchは、Plusユーザーがアクセスできるようになった時点で非常に制限されており、Proアカウントは月額10ドルです。GeminiのDeep Researchは、Gemini Advanceで月額20ドルで利用可能で、ほぼ無制限、または完全に無制限に使用できます。最後に、StanfordのStormツールもDeep Research機能を提供しており、レポートを作成する前に使用できます。
この比較を行うために、私は今話題の人物を使用しました。次のようなプロンプトを作成しました:「こんにちは、Deepの最高経営責任者であるLian Wenfengの伝記記事を準備しています。最近の数日間で彼を注目させた、Deep Seekプロジェクト、特にR1モデルに関するすべての情報を、時系列で構造化された記事として準備してください。彼の経歴、イデオロギー、仕事の進め方、達成した成果、さらに他の企業や影響力のある人々との関係など、すべての詳細に注目してください。」
彼は追加の文脈を求める質問をしてきました。そこで私は、「その人物の専門的な成果、AIとの関連性を理解するのに役立つ、できるだけ完全で包括的な視点が欲しいです。また、あらゆる観点からDeepsプロジェクトをよりよく理解するのにも役立つようにしてください」と答えました。
ここでOpenAIのツールは7分考え、この場合はわずか4つのソースを参照することにしました。ここで、回答を作成するために従ったプロセスを見ることができます。
Geminiには全く同じプロンプトを提案しました。実際、2つの指示を組み合わせて、作業を開始する際に同じコンテキストを持つようにしました。そしてここに示される回答を作成しました。Geminiはかなり多くのソースを参照し、31のウェブページを調査したと述べています。
最後にStormに提供した指示がありますが、このツールは20語以内の非常に正確な指示しか受け付けないため、異なる指示になっています。そして、ここに示される英語の記事を作成しました。
長さに関して、OpenAIのツールは最も少ないソースを参照したにもかかわらず、興味深いことに最も長い記事を提供しました。これらをすべてGoogle Docsに貼り付けてみると、OpenAIのツールが、フォントサイズ11のこの文字で合計14ページ相当の記事を提供したことがわかります。
Googleのツールは明らかに短い記事を提供しました。タイトルは大きくなっていますが、本文は同じフォントとサイズで、わずか5ページの記事しか提供していません。Stanfordのツールが今回最も簡潔で、わずか2ページの記事しか提供していません。
これが各ツールで得られた結果の概要です。Stanfordのツールは調査を行い、この場合5つのソースを参照し、英語でしか機能しないため英語で結果を返しました。全般的に良い仕事をしたと思いますが、フォーマットと生成される記事のタイプから見て、最も厳密な比較はOpenAIとGoogleのツール間で行うべきだと考えています。
ここには多くの検討すべき点があります。まず、情報の提供方法について見てみましょう。後で最終結果の質を見ていきますが、まず各ツールがツール自体のコンテキスト内でどのように情報を提供するかを見るのが興味深いと思います。
Googleは完全な記事を作成しますが、なぜ記事の各部分をそのように書いたのかを直接確認できるソースへのアクセスは一切提供しません。記事全体を見ることはできますし、ソースを確認したい場合は自由にできますが、それらは脚注として最後にあります。
一方、OpenAIのツールは、この場合より賢明な、あるいはより自然なデザインを持っていると思います。つまり、記事を書き、記事を書きながら、私たちはソースを確認することができ、それらをクリックすると、その情報の部分を文脈化している記事の文や部分に直接移動します。
したがって、この点でOpenAIはより透明性のあるツールを作成したと思います。ソースを確認し、なぜそのように書いたのかを確認するのがはるかに簡単です。そして一見したところ、この透明性の高いアプローチは記事の質に反映されています。OpenAIが提供した記事は、Geminiが提供した記事よりもかなり高品質です。
いくつかのエラーがある可能性はあります。私は読みましたが、すべてを細かく監督したわけではありませんが、大きなエラーは見つかりませんでした。一方、Geminiが提供した記事では、この人物について読んだコンテキストから単純に合わないいくつかの大きなエラーを見つけました。
実際、ここをご覧ください。Googleの記事では、かなり大きな間違いをしています。Lian WenfengがGoogleで働いていたと述べています:「Wenfengは、Googleでソフトウェアエンジニアとして数年間働いたことから、専門的なキャリアを開始した」。これは誤りです。なぜこのように書いたのかというと、Googleでデベロッパーとして働いていた別のLi Wenfengが存在し、2人の人物を混同してしまい、Deeps CEOの経歴を考えると完全に的外れな情報を提供してしまったのです。
これに加えて、別の大きな誤りも含まれています。OpenAIを探してみると、次のように述べています:「OpenAIとの提携:Deepsは新しい人工知能技術の研究開発のためにOpenAIと提携している」。なぜこのように書いたのかインターネットで探してみましたが、これは明らかに誤りです。確かにMicrosoftとの協力関係はあり、それはむしろ協力というよりも、MicrosoftがクラウドサービスにDeeps R1モデルを組み込んだように見えますが、OpenAIとの提携については全く何も見つかりませんでした。特にこのような急速な提携については。
ChatGPTが提供した記事については、ほぼ完璧だと言えると思います。唯一の注意点は、記事を作成するために非常に少ないソースしか参照していないことですが、これらのソースで私が提起したすべての主要な疑問に答えることができています。
Lianの職歴、イデオロギーと仕事の進め方について説明し、すべての専門的な成果を文脈化しています。つまり、ChatGPTが引用した各情報に矛盾する情報源があるかどうかを確認する必要はありますが、これらの情報はすべて、ChatGPTの記事が収集した文脈で正確にその情報を表現している情報源に文脈化されています。
したがって、私が何の妄想も見つけることができなかった、すべてのポイントが網羅された、深みのある広範な記事が見つかりました。さらに、特定の情報を非常によく関連付けることができています。
例えば、DeepsとNVIDIAの二重の関係や二重のインパクトについても触れています。一方では株式市場への影響について述べ、Deepsの立ち上げが株式市場、特にNVIDIAに数百万ドルの損失をもたらしたことを説明し、「NVIDIA」という言葉を検索すると、人工知能に不可欠な半導体を提供するNVIDIAの株価が当初下落したことが示されています。
また、この全体の第二の側面も捉えることができており、NVIDIAはDeepsに、さらに急速な成長のための理想的なパートナーを見出すかもしれないと述べています。アメリカの企業は、Deepsのサービスの需要増加に対応するためにより多くのハードウェアが必要になると指摘し、これは相互に有益な関係を示唆しています。Deepsは高度なチップの必要性を促進し、NVIDIAはLianのビジョンを実現するための技術を提供するという、ここ数週間、Deepsの登場により議論されている有名なジレンマです。
実際、これらの最初のテスト、本当に最初のテストでは、競合他社が提供するどのツールよりも優れているという印象です。もし可能であれば、試してみる価値があると思います。非常に広範で、よく構造化され、十分に文書化された結果を提供し、情報を確認するのが簡単で、したがって本当に非常に有用なツールになる可能性があると思われます。
ビデオの最後に、このツールを紹介するOpenAIのブログ投稿を見てみましょう。これはツールであると同時に人工知能モデルでもあり、ベンチマークにいくつかの注目すべき驚きがあるからです。
ここでは、オンライン上の大量の情報を合成し、複数のステップからなる研究タスクを完了するために推論を使用するエージェントを提供していると述べています。これは本日からProユーザーが利用でき、PlusユーザーとTeamユーザーには少し後で利用可能になります。
デモンストレーションを後で見ていきますが、ここでは少しその仕組みを見ることができます。実際、すでにお話ししたように、基本的にGeminiのDeep Researchと同じように機能します。機能を有効にし、同じようなプロンプトを入力すると、私たちが求める要求をより細かく調整するためのフィードバックが少し多く提供され、そこから調査を開始してレポートを提供します。
最終的な成果物は広範なものです。興味深いのは、Gemini 1.5モデルを使用するGoogleのツールとは異なり、このモデルはo3モデルで動作することです。したがって、回答を返す前に追加の推論レイヤーがあり、これが彼らがここで述べていることです。
指示を与えると、ChatGPTはオンラインの何百もの情報源を見つけ、分析し、統合して、リサーチアナリストレベルの包括的なレポートを作成します。これはウェブブラウジングとデータ分析に最適化された次期OpenAI o3モデルのバージョンによって動作し、推論を活用してインターネット上の膨大なテキスト、画像、PDFファイルを検索、解釈、分析します。
これはGemini AdvanceのDeep Researchと全く同じことですが、原則的により高性能で、このタスクにより最適化されたモデルを使用しているため、理論的には結果はより良いはずです。しかし、これについては後ほど詳しく見ていきます。
この場合、各結果が完全に文書化され、明確な引用と推論の要約が付いていることは興味深く、これにより情報の参照と検証が容易になることに言及する価値があります。そして、テストを行ってみると、実際に提供されるのは、あなたが実際にソースを参照したことを確認でき、したがって言っていることが現実に即しているかどうかを確認できるように、文書の各時点でのすべての引用とすべてのソースです。
使い方について少し説明していますが、ご覧の通り、利用可能な場合は深い調査オプションを選択し、プロンプトを入力し、その後調査を開始すると、ツールは少し遅くなります。調査の完了には5分から30分かかる可能性があり、見つけて分析する利用可能なソースが多ければ多いほど、時間がかかります。
しかし、これを考慮に入れる必要があります。GoogleのツールもStanfordのStormツールも少し遅く、これらについては後ほど詳しく見ていきます。また、リアルタイムのマルチモーダル会話にはGPT-4 Omniが理想的であり、この特定のツールはあらゆる種類の要求に使用すべきではないことも確かです。これは広範な回答を得ることに特化したツールだからです。
このブログ記事では、仕組みについても少し説明していますが、さらに様々なベンチマークとそれらのベンチマークでどのようなスコアを記録したかについての情報も提供しています。実際、例えば最初のベンチマーク、「人類の最終試験」は、人工知能が解決できる原則的に最も複雑なベンチマークでしたが、遅かれ早かれ克服されることになりそうです。
このベンチマークは3000の多肢選択問題で構成されており、このモデル、つまり情報を検索、収集し、正確な回答を見つけることができるこのエージェントシステムを備えたモデルは、26.6%の精度を達成しています。これは何を意味するのでしょうか?
これは明らかに他のモデルをはるかに上回っていることを意味します。実際、次点は13%で、それは基本モデルのo3 miniです。ランキングを見ると、次はR1のDeep Searchで9.4%となっています。したがって、他のモデルをはるかに上回っており、OpenAIが再び基準となるモデルを持っているように見えます。これはある程度予想されることです。
このベンチマークに加えて、実世界の質問を評価するGAAベンチマークに関する情報も提供しています。ここでは新しいState of the Art、つまり新しい最高スコアを確立したと述べています。以前のState of the Art、つまり最高のモデルが達成したスコアは、レベル1で約68、レベル2もほぼ同じ、レベル3では42に下がり、平均は63.64でした。Deep Researchでは、これらのレベルを78、73、58に引き上げ、平均72.57を達成しています。

いいなと思ったら応援しよう!