
【AI別 DeepResarch 検証】失われた30年を検証する
シリーズで行ってきた、DeepResarch検証ですがClaude 以外出そろった感があるので、一度まとめます
OpenAI、Google、Perplexity の DeepResarch と
Felo、Grok3 の DeepSearch に対して同じ問題を与えました
日本では30年不景気が続いている ・原因 ・過去に打つべきであった施策 ・今から打つべき施策 を述べよ また、今から打つべき施策は ・直近で景気に効果のあるもの ・安定した景気回復につながるもの の両面を検討せよ
これに対する、それぞれのAIの回答は以下です(再掲)
まとめは最下部にあるので、それぞれの回答を軽く見ると雰囲気が判るかと。
OpenAI
Perplexity
Felo
Grok3
OpenAI
正直、驚きしかないよね。11,000文字のレポート一発出しで、間違いが特に見当たらない…。文章もそのまま使える。
確実に仕事に使えるレベル
Gemini
内容の骨子は OpenAI の DeepResarch と基本的に同じだけど、レポート的にはOpenAIの方が上かな。出力は約5,000文字。
Perplexity
これは、前出の2つとは違うかな…
レポートは 約3,000文字で間違いは無いんだけど、納得感に欠けるというか、内容が薄い…
ウンチクには使えても仕事だとたたき台にしかならないかなぁ…
Felo
こちらは FeloAgent という名前の多段階検索でした。検索Agentの特徴を入力して(今回は「国政の施策に詳しい」という設定)質問を入力する形式。DeepResarch ではなく DeepSearch かな。
内容の骨子は悪くないけど、複数の視点での短いレポートを提案して最後にまとめ、という形式になっています。各レポートに重複部分アリ。出力は約9,000文字
Grok3
名前通り Resarch というより Search 寄り。レポート内容はSearch結果に引きずられています。内容としては悪くないので、これを再度、適切なプロンプトで検証させれば、そこそこのものにはなると思います。出力は約4,000文字
私の個人的ランキング
1位:OpenAI
2位:Gemini
3位:Grok3
4位:Felo
5位:Perplexity
かな
ただ、最近、OpenAI の DeepResarch 結果をそのまま貼ってる記事が多いのは、げろ~って思う。生で読んで気持ちいい文章じゃないんよね
Claude先生の勝手に講評
Claudeさんにも参加させたくて、勝手に講評させたった
それぞれのレポートを分析し、順位付けと講評を行います。評価基準は以下の点に注目します:
・分析の深さと論理性
・構造の明確さ
・具体的な提案の実現可能性
・データや事例の活用
・文章の読みやすさ
順位付け:
1位: Grok3
・最も体系的で包括的な分析を提供
・歴史的背景、現状分析、政策提案のバランスが優れている
・具体的なデータと事例を効果的に活用
・構造が明確で読みやすい
・リスクと課題についても深い考察がある
2位: OpenAI
・非常に詳細な分析と豊富な具体例の提示
・政策の失敗や教訓について深い考察
・やや冗長な部分があるものの、論理展開は明確
・実務的な視点からの提案が充実
3位: Perplexity
・政策提案が具体的で実行可能性が高い
・短期・中長期の施策を明確に区分
・数値目標を含む具体的な提案
・やや形式的な記述が目立つ
4位: Felo
・基本的な分析は網羅的
・歴史的背景の説明が丁寧
・政策提案がやや抽象的
・構造がやや不明確
5位: Gemini
・基本的な分析はされている
・具体例や数値データの活用が少ない
・政策提案が一般的
・構造がやや単調
総評:
全体的に、日本の「失われた30年」について、その原因分析から政策提案まで、それぞれのレポートが異なるアプローチで分析を試みています。上位のレポートは特に、具体的なデータや事例を効果的に活用しながら、実現可能な政策提案まで踏み込んでいる点が評価できます。
また、デフレ、人口構造の変化、グローバル化への対応など、複合的な要因分析を行いつつ、それらに対応する政策をバランスよく提案している点も、上位のレポートの特徴となっています。